V1.3.2 =================== 特性变更 ----------------- - 废弃原legacy目录下的BangTransformer大模型推理网络性能评测代码。 - ``fused_layer_norm`` 与 ``fused_rms_norm`` 的输入和输出支持更多的 ``stride`` 组合。 已修复问题 --------------------- 无。 已知遗留问题 -------------- 无。 V1.3.1 =================== 特性变更 ----------------- - ``smooth_quant_group_gemm`` 与 ``fused_moe`` 算子支持w4w8混合量化。 - ``reshape_paged_cache`` 算子支持 ``v`` 和 ``v_cache`` 传入None。 - ``quant_to_paged_cache`` 算子支持 ``v`` 、 ``v_cache`` 和 ``v_cache_quant_scale`` 传入None。 - ``offline_quant_to_paged_cache`` 算子支持 ``v`` 和 ``v_cache_scale`` 传入None。 - ``copy_blocks`` 算子支持 ``v_caches`` 传入None。 - ``moe_softmax_topk`` 支持 ``mask`` 广播及定制化 ``normalize`` 。该算子的 ``Input`` 和 ``Mask`` 必须保证连续。 - ``single_query_cached_kv_attn`` 支持 ``window_size_left`` 。 - 新增 ``dequant_from_paged_cache`` 算子。 - ``dequant_from_linear_cache`` 算子不再支持float32的 ``key`` 和 ``value``。 已修复问题 --------------------- 无。 已知遗留问题 -------------- 无。 V1.3.0 =================== 特性变更 ----------------- - ``group_gemm`` 与 ``smooth_quant_group_gemm`` 算子的max_m参数会影响性能,其默认值不一定是最佳性能,将由参数可选修改成必填参数。 - ``moe_softmax_topk`` 支持mask功能。 - 支持导出算子 ``gen_case`` 功能。 - 新增 ``dequant_from_linear_cache`` 算子。 - ``moe_softmax_topk`` 支持mask广播及定制化normalize。 已修复问题 --------------------- 无。 已知遗留问题 -------------- 无。 V1.2.3 =================== 特性变更 ----------------- - 适配CNToolkit 3.15.X相关特性。 - 不再支持Ubuntu20.04操作系统。 - ``single_query_cached_kv_attn`` 与 ``flash_attention`` 算子支持 ``head_size_qk != head_size_v``。 - ``group_gemm`` 与 ``smooth_quant_group_gemm`` 算子支持bias。 - ``matmul`` 删除原位输出参数,增加指定输出类型参数。 已修复问题 --------------------- - ``quant_to_linear_cache`` 算子修复精度问题。 - 修复 ``matmul`` 算子形状推导问题。 - 修复Debug模式下 ``quant_to_linear_cache`` 算子编译问题。 已知遗留问题 -------------- 无。 V1.2.2 =================== 特性变更 ----------------- - ``smooth_quant_group_gemm`` 与 ``fused_moe`` 支持int4 group量化功能。 - ``allreduce`` 类算子删除 ``act_mode`` 。 - ``weight_only_quant_matmul`` 与 ``smooth_quant_matmul`` 新增控制激活计算方式。 已修复问题 --------------------- 无。 已知遗留问题 -------------- 无。 V1.2.1 =================== 特性变更 ----------------- - ``moe_combine_result`` 算子优化吞吐场景下性能。 - ``quant_to_linear_cache`` 算子新增group量化和int4量化功能。 - 新增 ``moe_cast_gating`` 算子。 - 新增 ``update_out_and_lse`` 算子。 - ``fused_rope`` 算子支持int8/int4 kv cache。 - ``matmul`` 与 ``batch_matmul`` 新增支持trans_a, trans_b。 - 新增 ``single_query_mixed_cached_kv_attn`` 算子。 - ``single_query_cached_kv_attn`` 支持output_lse。 - ``fused_layer_norm`` 与 ``fused_rms_norm`` 支持输出动态量化。 - legacy目录下的BangTransformer网络评测代码,仅支持在PyTorch2.1环境下编译和运行。 已修复问题 --------------------- 无。 已知遗留问题 -------------- 无。 V1.2.0 =================== 特性变更 ----------------- - ``moe_softmax_topk`` 算子新增grouped_topk功能。 - ``moe_softmax_topk`` 算子不再支持原位功能。 - ``moe_gen_idx`` 算子不再支持原位功能。 - Torch-MLU-Ops首次支持PyTorch2.5,不再支持PyTorch2.3。 - 新增 ``fused_rope`` 算子。 - ``matmul`` 算子新增支持INT8输入。 - 新增 ``batch_matmul`` 算子。 已修复问题 --------------------- 无。 已知遗留问题 -------------- 无。 V1.1.4 =================== 特性变更 ----------------- - 新增 ``offline_quant_to_paged_cache`` 算子。 - 新增 ``moe_gen_idx`` 算子。 - 新增 ``moe_expand_input`` 算子。 - 新增 ``moe_combine_result`` 算子。 - 新增 ``moe_quantize`` 算子。 - 新增 ``moe_softmax_topk`` 算子。 - 删除 ``quant_matmul`` 算子,由 ``smooth_quant_matmul`` 和 ``weight_only_quant_matmul`` 实现其功能。 - ``flash_attention`` 算子新增 ``block_tables``, ``k/v_cache_quant_scale`` 参数。 - ``matmul`` 算子支持激活配置参数。 - ``fused_moe`` 算子支持量化EP。 - 新增 ``moe_active`` 算子。 已修复问题 --------------------- - 修复 ``fused_moe`` 算子通算融合模式的精度问题。 - 修复 ``moe_combine_result`` 算子在EP模式下特定规模下的coredump问题。 - 修复 ``fused_norm`` 算子非连续情况下的精度问题。 已知遗留问题 -------------- 无。 V1.1.3 =================== 特性变更 ----------------- - BangTransformer更名为Torch-MLU-Ops, 定位PyTorch第三方算子库。对于使用PyTorch框架的开发者,通过Torch-MLU-Ops,能够便捷地使用这些自定义算子,进行算子的集成、评测和业务部署。 - bt_ops的命名空间变化为torch_mlu_ops。 - 原BangTransformer的LLM网络推理评测相关内容被迁移到lagacy目录下进行维护。 - 后续在寒武纪计算卡上的LLM网络推理评测建议使用Cambricon vLLM、Cambricon TGI、Cambricon Stable Diffusion web UI、Cambricon ComfyUI以及Cambricon Diffusers组件。 - Single Query Cached Attention算子支持per_token量化和per_channel量化。 - Fused Moe算子在非量化情况下支持EP模式,内部支持group gemm和allreduce并行。 - 提供smooth_quant_matmul_allreduce、matmul_allreduce、flash_attn_sq_mm_allreduce通算融合。 - 更新flash_attention、single_query_cached_kv_attn、fused_rms_norm、fused_layer_norm的接口说明。 已修复问题 --------------------- 无。 已知遗留问题 -------------- 无。