xc-llm-ascend

Files

NeverRaR 807686dec9 perf : optimize memory for deepseek mtp (#2713 )

### What this PR does / why we need it?
delete the temp tensor to optimize memory for deepseek mtp for torchair
case

- vLLM version: v0.11.0rc3
- vLLM main: https://github.com/vllm-project/vllm/commit/v0.11.0

Signed-off-by: boying <897013703@qq.com>

2025-10-23 15:52:17 +08:00

__init__.py

[1/N][refactor] torchair deepseek modeling refactor (#2384 )

2025-08-18 15:00:37 +08:00

qwen2.py

[KVCache][Bugfix] Fix kv cache initialization error of attention layer (#3113 )

2025-09-24 11:32:34 +08:00

qwen3_moe.py

[MoE] [Refactor] Combine common_fused_moe and fused_moe (#3176 )

2025-10-09 14:12:46 +08:00

torchair_deepseek_mtp.py

perf : optimize memory for deepseek mtp (#2713 )