xc-llm-ascend

Files

Levi 9862a23985 【0.11.0-dev】optimization of kimi-k2 in cann8.3 (#4555 )

### What this PR does / why we need it?
In cann8.3， npu_moe_gating_top_k operator can support expert nums with
384, so kimi can use the operator to get better preformance.
---------

Signed-off-by: Levi-JQ <yujinqi2@huawei.com>
Co-authored-by: Levi-JQ <yujinqi2@huawei.com>

2025-12-09 08:49:15 +08:00

models

[BugFix] Fix torchair+mtp bug after deleting deepseek_mtp. (#3590 )

2025-10-21 22:23:52 +08:00

ops

【0.11.0-dev】optimization of kimi-k2 in cann8.3 (#4555 )

2025-12-09 08:49:15 +08:00

quantization

【0.11.0-dev】optimization of kimi-k2 in cann8.3 (#4555 )

2025-12-09 08:49:15 +08:00

__init__.py

[1/4][Refactor] Refactor torchair worker (#1885 )