Files
enginex-mlu370-vllm/torch_mlu_ops-v1.3.2/docs/release_notes/version.rst

221 lines
6.0 KiB
ReStructuredText
Raw Normal View History

2026-02-04 17:39:32 +08:00
V1.3.2
===================
特性变更
-----------------
- 废弃原legacy目录下的BangTransformer大模型推理网络性能评测代码。
- ``fused_layer_norm````fused_rms_norm`` 的输入和输出支持更多的 ``stride`` 组合。
已修复问题
---------------------
无。
已知遗留问题
--------------
无。
V1.3.1
===================
特性变更
-----------------
- ``smooth_quant_group_gemm````fused_moe`` 算子支持w4w8混合量化。
- ``reshape_paged_cache`` 算子支持 ``v````v_cache`` 传入None。
- ``quant_to_paged_cache`` 算子支持 ``v````v_cache````v_cache_quant_scale`` 传入None。
- ``offline_quant_to_paged_cache`` 算子支持 ``v````v_cache_scale`` 传入None。
- ``copy_blocks`` 算子支持 ``v_caches`` 传入None。
- ``moe_softmax_topk`` 支持 ``mask`` 广播及定制化 ``normalize`` 。该算子的 ``Input````Mask`` 必须保证连续。
- ``single_query_cached_kv_attn`` 支持 ``window_size_left``
- 新增 ``dequant_from_paged_cache`` 算子。
- ``dequant_from_linear_cache`` 算子不再支持float32的 ``key````value``
已修复问题
---------------------
无。
已知遗留问题
--------------
无。
V1.3.0
===================
特性变更
-----------------
- ``group_gemm````smooth_quant_group_gemm`` 算子的max_m参数会影响性能其默认值不一定是最佳性能将由参数可选修改成必填参数。
- ``moe_softmax_topk`` 支持mask功能。
- 支持导出算子 ``gen_case`` 功能。
- 新增 ``dequant_from_linear_cache`` 算子。
- ``moe_softmax_topk`` 支持mask广播及定制化normalize。
已修复问题
---------------------
无。
已知遗留问题
--------------
无。
V1.2.3
===================
特性变更
-----------------
- 适配CNToolkit 3.15.X相关特性。
- 不再支持Ubuntu20.04操作系统。
- ``single_query_cached_kv_attn````flash_attention`` 算子支持 ``head_size_qk != head_size_v``
- ``group_gemm````smooth_quant_group_gemm`` 算子支持bias。
- ``matmul`` 删除原位输出参数,增加指定输出类型参数。
已修复问题
---------------------
- ``quant_to_linear_cache`` 算子修复精度问题。
- 修复 ``matmul`` 算子形状推导问题。
- 修复Debug模式下 ``quant_to_linear_cache`` 算子编译问题。
已知遗留问题
--------------
无。
V1.2.2
===================
特性变更
-----------------
- ``smooth_quant_group_gemm````fused_moe`` 支持int4 group量化功能。
- ``allreduce`` 类算子删除 ``act_mode``
- ``weight_only_quant_matmul````smooth_quant_matmul`` 新增控制激活计算方式。
已修复问题
---------------------
无。
已知遗留问题
--------------
无。
V1.2.1
===================
特性变更
-----------------
- ``moe_combine_result`` 算子优化吞吐场景下性能。
- ``quant_to_linear_cache`` 算子新增group量化和int4量化功能。
- 新增 ``moe_cast_gating`` 算子。
- 新增 ``update_out_and_lse`` 算子。
- ``fused_rope`` 算子支持int8/int4 kv cache。
- ``matmul````batch_matmul`` 新增支持trans_a, trans_b。
- 新增 ``single_query_mixed_cached_kv_attn`` 算子。
- ``single_query_cached_kv_attn`` 支持output_lse。
- ``fused_layer_norm````fused_rms_norm`` 支持输出动态量化。
- legacy目录下的BangTransformer网络评测代码仅支持在PyTorch2.1环境下编译和运行。
已修复问题
---------------------
无。
已知遗留问题
--------------
无。
V1.2.0
===================
特性变更
-----------------
- ``moe_softmax_topk`` 算子新增grouped_topk功能。
- ``moe_softmax_topk`` 算子不再支持原位功能。
- ``moe_gen_idx`` 算子不再支持原位功能。
- Torch-MLU-Ops首次支持PyTorch2.5不再支持PyTorch2.3。
- 新增 ``fused_rope`` 算子。
- ``matmul`` 算子新增支持INT8输入。
- 新增 ``batch_matmul`` 算子。
已修复问题
---------------------
无。
已知遗留问题
--------------
无。
V1.1.4
===================
特性变更
-----------------
- 新增 ``offline_quant_to_paged_cache`` 算子。
- 新增 ``moe_gen_idx`` 算子。
- 新增 ``moe_expand_input`` 算子。
- 新增 ``moe_combine_result`` 算子。
- 新增 ``moe_quantize`` 算子。
- 新增 ``moe_softmax_topk`` 算子。
- 删除 ``quant_matmul`` 算子,由 ``smooth_quant_matmul````weight_only_quant_matmul`` 实现其功能。
- ``flash_attention`` 算子新增 ``block_tables`` ``k/v_cache_quant_scale`` 参数。
- ``matmul`` 算子支持激活配置参数。
- ``fused_moe`` 算子支持量化EP。
- 新增 ``moe_active`` 算子。
已修复问题
---------------------
- 修复 ``fused_moe`` 算子通算融合模式的精度问题。
- 修复 ``moe_combine_result`` 算子在EP模式下特定规模下的coredump问题。
- 修复 ``fused_norm`` 算子非连续情况下的精度问题。
已知遗留问题
--------------
无。
V1.1.3
===================
特性变更
-----------------
- BangTransformer更名为Torch-MLU-Ops, 定位PyTorch第三方算子库。对于使用PyTorch框架的开发者通过Torch-MLU-Ops能够便捷地使用这些自定义算子进行算子的集成、评测和业务部署。
- bt_ops的命名空间变化为torch_mlu_ops。
- 原BangTransformer的LLM网络推理评测相关内容被迁移到lagacy目录下进行维护。
- 后续在寒武纪计算卡上的LLM网络推理评测建议使用Cambricon vLLM、Cambricon TGI、Cambricon Stable Diffusion web UI、Cambricon ComfyUI以及Cambricon Diffusers组件。
- Single Query Cached Attention算子支持per_token量化和per_channel量化。
- Fused Moe算子在非量化情况下支持EP模式内部支持group gemm和allreduce并行。
- 提供smooth_quant_matmul_allreduce、matmul_allreduce、flash_attn_sq_mm_allreduce通算融合。
- 更新flash_attention、single_query_cached_kv_attn、fused_rms_norm、fused_layer_norm的接口说明。
已修复问题
---------------------
无。
已知遗留问题
--------------
无。