enginex-mlu370-vllm/torch_mlu_ops-v1.3.2/docs/release_notes/version.rst

V1.3.2
===================

特性变更
-----------------

- 废弃原legacy目录下的BangTransformer大模型推理网络性能评测代码。
- ``fused_layer_norm`` 与 ``fused_rms_norm`` 的输入和输出支持更多的 ``stride`` 组合。

已修复问题
---------------------

无。

已知遗留问题
--------------

无。

V1.3.1
===================

特性变更
-----------------

- ``smooth_quant_group_gemm`` 与 ``fused_moe`` 算子支持w4w8混合量化。
- ``reshape_paged_cache`` 算子支持 ``v`` 和 ``v_cache`` 传入None。
- ``quant_to_paged_cache`` 算子支持 ``v`` 、 ``v_cache`` 和 ``v_cache_quant_scale`` 传入None。
- ``offline_quant_to_paged_cache`` 算子支持 ``v`` 和 ``v_cache_scale`` 传入None。
- ``copy_blocks`` 算子支持 ``v_caches`` 传入None。
- ``moe_softmax_topk`` 支持 ``mask`` 广播及定制化 ``normalize`` 。该算子的 ``Input`` 和 ``Mask`` 必须保证连续。
- ``single_query_cached_kv_attn`` 支持 ``window_size_left`` 。
- 新增 ``dequant_from_paged_cache`` 算子。
- ``dequant_from_linear_cache`` 算子不再支持float32的 ``key`` 和 ``value``。

已修复问题
---------------------

无。

已知遗留问题
--------------

无。


V1.3.0
===================

特性变更
-----------------

- ``group_gemm`` 与 ``smooth_quant_group_gemm`` 算子的max_m参数会影响性能，其默认值不一定是最佳性能，将由参数可选修改成必填参数。
- ``moe_softmax_topk`` 支持mask功能。
- 支持导出算子 ``gen_case`` 功能。
- 新增 ``dequant_from_linear_cache`` 算子。
- ``moe_softmax_topk`` 支持mask广播及定制化normalize。

已修复问题
---------------------

无。

已知遗留问题
--------------

无。


V1.2.3
===================

特性变更
-----------------

- 适配CNToolkit 3.15.X相关特性。
- 不再支持Ubuntu20.04操作系统。
- ``single_query_cached_kv_attn`` 与 ``flash_attention`` 算子支持 ``head_size_qk != head_size_v``。
- ``group_gemm`` 与 ``smooth_quant_group_gemm`` 算子支持bias。
- ``matmul`` 删除原位输出参数，增加指定输出类型参数。

已修复问题
---------------------

- ``quant_to_linear_cache`` 算子修复精度问题。
- 修复 ``matmul`` 算子形状推导问题。
- 修复Debug模式下 ``quant_to_linear_cache`` 算子编译问题。

已知遗留问题
--------------

无。


V1.2.2
===================

特性变更
-----------------

- ``smooth_quant_group_gemm`` 与 ``fused_moe`` 支持int4 group量化功能。
- ``allreduce`` 类算子删除 ``act_mode`` 。
- ``weight_only_quant_matmul`` 与 ``smooth_quant_matmul`` 新增控制激活计算方式。

已修复问题
---------------------

无。

已知遗留问题
--------------

无。

V1.2.1
===================

特性变更
-----------------

- ``moe_combine_result`` 算子优化吞吐场景下性能。
- ``quant_to_linear_cache`` 算子新增group量化和int4量化功能。
- 新增 ``moe_cast_gating`` 算子。
- 新增 ``update_out_and_lse`` 算子。
- ``fused_rope`` 算子支持int8/int4 kv cache。
- ``matmul`` 与 ``batch_matmul`` 新增支持trans_a, trans_b。
- 新增 ``single_query_mixed_cached_kv_attn`` 算子。
- ``single_query_cached_kv_attn`` 支持output_lse。
- ``fused_layer_norm`` 与 ``fused_rms_norm`` 支持输出动态量化。
- legacy目录下的BangTransformer网络评测代码，仅支持在PyTorch2.1环境下编译和运行。

已修复问题
---------------------

无。

已知遗留问题
--------------

无。

V1.2.0
===================

特性变更
-----------------

- ``moe_softmax_topk`` 算子新增grouped_topk功能。
- ``moe_softmax_topk`` 算子不再支持原位功能。
- ``moe_gen_idx`` 算子不再支持原位功能。
- Torch-MLU-Ops首次支持PyTorch2.5，不再支持PyTorch2.3。
- 新增 ``fused_rope`` 算子。
- ``matmul`` 算子新增支持INT8输入。
- 新增 ``batch_matmul`` 算子。

已修复问题
---------------------

无。

已知遗留问题
--------------

无。

V1.1.4
===================

特性变更
-----------------

- 新增 ``offline_quant_to_paged_cache`` 算子。
- 新增 ``moe_gen_idx`` 算子。
- 新增 ``moe_expand_input`` 算子。
- 新增 ``moe_combine_result`` 算子。
- 新增 ``moe_quantize`` 算子。
- 新增 ``moe_softmax_topk`` 算子。
- 删除 ``quant_matmul`` 算子，由 ``smooth_quant_matmul`` 和 ``weight_only_quant_matmul`` 实现其功能。
- ``flash_attention`` 算子新增 ``block_tables``， ``k/v_cache_quant_scale`` 参数。
- ``matmul`` 算子支持激活配置参数。
- ``fused_moe`` 算子支持量化EP。
- 新增 ``moe_active`` 算子。

已修复问题
---------------------

- 修复 ``fused_moe`` 算子通算融合模式的精度问题。
- 修复 ``moe_combine_result`` 算子在EP模式下特定规模下的coredump问题。
- 修复 ``fused_norm`` 算子非连续情况下的精度问题。

已知遗留问题
--------------

无。

V1.1.3
===================

特性变更
-----------------

- BangTransformer更名为Torch-MLU-Ops, 定位PyTorch第三方算子库。对于使用PyTorch框架的开发者，通过Torch-MLU-Ops，能够便捷地使用这些自定义算子，进行算子的集成、评测和业务部署。
- bt_ops的命名空间变化为torch_mlu_ops。
- 原BangTransformer的LLM网络推理评测相关内容被迁移到lagacy目录下进行维护。
- 后续在寒武纪计算卡上的LLM网络推理评测建议使用Cambricon vLLM、Cambricon TGI、Cambricon Stable Diffusion web UI、Cambricon ComfyUI以及Cambricon Diffusers组件。
- Single Query Cached Attention算子支持per_token量化和per_channel量化。
- Fused Moe算子在非量化情况下支持EP模式，内部支持group gemm和allreduce并行。
- 提供smooth_quant_matmul_allreduce、matmul_allreduce、flash_attn_sq_mm_allreduce通算融合。
- 更新flash_attention、single_query_cached_kv_attn、fused_rms_norm、fused_layer_norm的接口说明。


已修复问题
---------------------

无。

已知遗留问题
--------------

无。