xc-llm-ascend

Files

Jade Zheng 0dfdfa9526 [Feature] Enhance all-reduce skipping logic for MoE models in NPUModelRunner (#5329 )

Besides enabling `recompute_scheduler_enable`, we can skip all_reduce
when max_num_batched_tokens is below mc2's requirement.

- vLLM version: release/v0.13.0
- vLLM main:
bc0a5a0c08

---------

Signed-off-by: Jade Zheng <zheng.shoujian@outlook.com>

2025-12-26 17:39:44 +08:00

[Refactor] move the metadata from attention_v1 to util(ready for extract common_cp) & realize Ascendmetadata inherit from the parent class. (#5203 )

2025-12-23 00:10:52 +08:00

__init__.py

[Misc][V0 Deprecation] Remove Cache Engine Used for V0 Worker (#1878 )

2025-07-19 09:42:32 +08:00

block_table.py

[feature] support pcp + mtp in full graph (#4572 )

2025-12-22 16:13:39 +08:00

model_runner_v1.py

[Feature] Enhance all-reduce skipping logic for MoE models in NPUModelRunner (#5329 )

2025-12-26 17:39:44 +08:00

npu_input_batch.py

Drop 0.12.0 support (#5146 )

2025-12-20 09:38:53 +08:00

worker.py

[refactor] refactor weight trans nz and transpose (#4878 )

2025-12-19 14:27:24 +08:00