221 lines
6.0 KiB
ReStructuredText
221 lines
6.0 KiB
ReStructuredText
V1.3.2
|
||
===================
|
||
|
||
特性变更
|
||
-----------------
|
||
|
||
- 废弃原legacy目录下的BangTransformer大模型推理网络性能评测代码。
|
||
- ``fused_layer_norm`` 与 ``fused_rms_norm`` 的输入和输出支持更多的 ``stride`` 组合。
|
||
|
||
已修复问题
|
||
---------------------
|
||
|
||
无。
|
||
|
||
已知遗留问题
|
||
--------------
|
||
|
||
无。
|
||
|
||
V1.3.1
|
||
===================
|
||
|
||
特性变更
|
||
-----------------
|
||
|
||
- ``smooth_quant_group_gemm`` 与 ``fused_moe`` 算子支持w4w8混合量化。
|
||
- ``reshape_paged_cache`` 算子支持 ``v`` 和 ``v_cache`` 传入None。
|
||
- ``quant_to_paged_cache`` 算子支持 ``v`` 、 ``v_cache`` 和 ``v_cache_quant_scale`` 传入None。
|
||
- ``offline_quant_to_paged_cache`` 算子支持 ``v`` 和 ``v_cache_scale`` 传入None。
|
||
- ``copy_blocks`` 算子支持 ``v_caches`` 传入None。
|
||
- ``moe_softmax_topk`` 支持 ``mask`` 广播及定制化 ``normalize`` 。该算子的 ``Input`` 和 ``Mask`` 必须保证连续。
|
||
- ``single_query_cached_kv_attn`` 支持 ``window_size_left`` 。
|
||
- 新增 ``dequant_from_paged_cache`` 算子。
|
||
- ``dequant_from_linear_cache`` 算子不再支持float32的 ``key`` 和 ``value``。
|
||
|
||
已修复问题
|
||
---------------------
|
||
|
||
无。
|
||
|
||
已知遗留问题
|
||
--------------
|
||
|
||
无。
|
||
|
||
|
||
V1.3.0
|
||
===================
|
||
|
||
特性变更
|
||
-----------------
|
||
|
||
- ``group_gemm`` 与 ``smooth_quant_group_gemm`` 算子的max_m参数会影响性能,其默认值不一定是最佳性能,将由参数可选修改成必填参数。
|
||
- ``moe_softmax_topk`` 支持mask功能。
|
||
- 支持导出算子 ``gen_case`` 功能。
|
||
- 新增 ``dequant_from_linear_cache`` 算子。
|
||
- ``moe_softmax_topk`` 支持mask广播及定制化normalize。
|
||
|
||
已修复问题
|
||
---------------------
|
||
|
||
无。
|
||
|
||
已知遗留问题
|
||
--------------
|
||
|
||
无。
|
||
|
||
|
||
V1.2.3
|
||
===================
|
||
|
||
特性变更
|
||
-----------------
|
||
|
||
- 适配CNToolkit 3.15.X相关特性。
|
||
- 不再支持Ubuntu20.04操作系统。
|
||
- ``single_query_cached_kv_attn`` 与 ``flash_attention`` 算子支持 ``head_size_qk != head_size_v``。
|
||
- ``group_gemm`` 与 ``smooth_quant_group_gemm`` 算子支持bias。
|
||
- ``matmul`` 删除原位输出参数,增加指定输出类型参数。
|
||
|
||
已修复问题
|
||
---------------------
|
||
|
||
- ``quant_to_linear_cache`` 算子修复精度问题。
|
||
- 修复 ``matmul`` 算子形状推导问题。
|
||
- 修复Debug模式下 ``quant_to_linear_cache`` 算子编译问题。
|
||
|
||
已知遗留问题
|
||
--------------
|
||
|
||
无。
|
||
|
||
|
||
V1.2.2
|
||
===================
|
||
|
||
特性变更
|
||
-----------------
|
||
|
||
- ``smooth_quant_group_gemm`` 与 ``fused_moe`` 支持int4 group量化功能。
|
||
- ``allreduce`` 类算子删除 ``act_mode`` 。
|
||
- ``weight_only_quant_matmul`` 与 ``smooth_quant_matmul`` 新增控制激活计算方式。
|
||
|
||
已修复问题
|
||
---------------------
|
||
|
||
无。
|
||
|
||
已知遗留问题
|
||
--------------
|
||
|
||
无。
|
||
|
||
V1.2.1
|
||
===================
|
||
|
||
特性变更
|
||
-----------------
|
||
|
||
- ``moe_combine_result`` 算子优化吞吐场景下性能。
|
||
- ``quant_to_linear_cache`` 算子新增group量化和int4量化功能。
|
||
- 新增 ``moe_cast_gating`` 算子。
|
||
- 新增 ``update_out_and_lse`` 算子。
|
||
- ``fused_rope`` 算子支持int8/int4 kv cache。
|
||
- ``matmul`` 与 ``batch_matmul`` 新增支持trans_a, trans_b。
|
||
- 新增 ``single_query_mixed_cached_kv_attn`` 算子。
|
||
- ``single_query_cached_kv_attn`` 支持output_lse。
|
||
- ``fused_layer_norm`` 与 ``fused_rms_norm`` 支持输出动态量化。
|
||
- legacy目录下的BangTransformer网络评测代码,仅支持在PyTorch2.1环境下编译和运行。
|
||
|
||
已修复问题
|
||
---------------------
|
||
|
||
无。
|
||
|
||
已知遗留问题
|
||
--------------
|
||
|
||
无。
|
||
|
||
V1.2.0
|
||
===================
|
||
|
||
特性变更
|
||
-----------------
|
||
|
||
- ``moe_softmax_topk`` 算子新增grouped_topk功能。
|
||
- ``moe_softmax_topk`` 算子不再支持原位功能。
|
||
- ``moe_gen_idx`` 算子不再支持原位功能。
|
||
- Torch-MLU-Ops首次支持PyTorch2.5,不再支持PyTorch2.3。
|
||
- 新增 ``fused_rope`` 算子。
|
||
- ``matmul`` 算子新增支持INT8输入。
|
||
- 新增 ``batch_matmul`` 算子。
|
||
|
||
已修复问题
|
||
---------------------
|
||
|
||
无。
|
||
|
||
已知遗留问题
|
||
--------------
|
||
|
||
无。
|
||
|
||
V1.1.4
|
||
===================
|
||
|
||
特性变更
|
||
-----------------
|
||
|
||
- 新增 ``offline_quant_to_paged_cache`` 算子。
|
||
- 新增 ``moe_gen_idx`` 算子。
|
||
- 新增 ``moe_expand_input`` 算子。
|
||
- 新增 ``moe_combine_result`` 算子。
|
||
- 新增 ``moe_quantize`` 算子。
|
||
- 新增 ``moe_softmax_topk`` 算子。
|
||
- 删除 ``quant_matmul`` 算子,由 ``smooth_quant_matmul`` 和 ``weight_only_quant_matmul`` 实现其功能。
|
||
- ``flash_attention`` 算子新增 ``block_tables``, ``k/v_cache_quant_scale`` 参数。
|
||
- ``matmul`` 算子支持激活配置参数。
|
||
- ``fused_moe`` 算子支持量化EP。
|
||
- 新增 ``moe_active`` 算子。
|
||
|
||
已修复问题
|
||
---------------------
|
||
|
||
- 修复 ``fused_moe`` 算子通算融合模式的精度问题。
|
||
- 修复 ``moe_combine_result`` 算子在EP模式下特定规模下的coredump问题。
|
||
- 修复 ``fused_norm`` 算子非连续情况下的精度问题。
|
||
|
||
已知遗留问题
|
||
--------------
|
||
|
||
无。
|
||
|
||
V1.1.3
|
||
===================
|
||
|
||
特性变更
|
||
-----------------
|
||
|
||
- BangTransformer更名为Torch-MLU-Ops, 定位PyTorch第三方算子库。对于使用PyTorch框架的开发者,通过Torch-MLU-Ops,能够便捷地使用这些自定义算子,进行算子的集成、评测和业务部署。
|
||
- bt_ops的命名空间变化为torch_mlu_ops。
|
||
- 原BangTransformer的LLM网络推理评测相关内容被迁移到lagacy目录下进行维护。
|
||
- 后续在寒武纪计算卡上的LLM网络推理评测建议使用Cambricon vLLM、Cambricon TGI、Cambricon Stable Diffusion web UI、Cambricon ComfyUI以及Cambricon Diffusers组件。
|
||
- Single Query Cached Attention算子支持per_token量化和per_channel量化。
|
||
- Fused Moe算子在非量化情况下支持EP模式,内部支持group gemm和allreduce并行。
|
||
- 提供smooth_quant_matmul_allreduce、matmul_allreduce、flash_attn_sq_mm_allreduce通算融合。
|
||
- 更新flash_attention、single_query_cached_kv_attn、fused_rms_norm、fused_layer_norm的接口说明。
|
||
|
||
|
||
已修复问题
|
||
---------------------
|
||
|
||
无。
|
||
|
||
已知遗留问题
|
||
--------------
|
||
|
||
无。
|