add deepseekv3 and llama4

2026-02-11 17:28:54 +08:00
parent dd221f3084
commit 29b36a6b61
1 changed files with 2 additions and 2 deletions
--- a/README.md
+++ b/README.md
@@ -177,5 +177,5 @@ curl http://localhost:80/v1/chat/completions \
 | v0.0.4.1 | 2026-02-10 | **Gemma3 rope 兼容性修复**：修复新版 transformers `Gemma3TextConfig` 缺少 `rope_theta` 属性的问题，从 `rope_parameters` 字典兼容提取 rope 配置（支持 Transformers v4/v5）；修复 `rope_scaling` 嵌套字典导致 `get_rope` 缓存 unhashable 的问题；适配 MLU `forward_mlu` 接口，将 q/k 合并为单张量调用 rotary_emb 后再拆分 |
 | v0.0.5 | 2026-02-10 | **Qwen3MoE 模型支持**：新增 Qwen3MoeForCausalLM 模型实现（含 QK Normalization、ReplicatedLinear shared_expert_gate），修复 FusedMoE `forward_mlu` 签名缺少 `layer` 参数的已有 bug（影响所有 MLU 上的 MoE 模型），更新模型注册表 |
 | v0.0.6 | 2026-02-11 | **DeepSeek V3 模型支持**：注册 DeepseekV3ForCausalLM（复用 V2 实现），扩展 MLU MLA config 判断支持 `deepseek_v3`，实现 `noaux_tc` 路由方式（`e_score_correction_bias`），跳过 MTP 层权重加载，修复 MLA unpaged 缓存路径使用错误的 paged cache 算子（prefill + decode 均替换为 `reshape_linear_cache`） |
-| v0.0.6 | 2026-02-11 | **DeepSeek V3 MTP 推测解码**：新建 `deepseek_mtp.py` 实现 MTP draft model（复用 DeepseekV2DecoderLayer，EAGLE 模板适配），SpeculativeConfig 自动检测 `num_nextn_predict_layers` 并改写 draft config，target worker 为 MTP 返回 hidden states，MLU config 三处 model_type 判断扩展支持 `deepseek_mtp` 以匹配 MLA cache 格式 |
+| v0.0.6.1 | 2026-02-11 | **DeepSeek V3 MTP 推测解码**：新建 `deepseek_mtp.py` 实现 MTP draft model（复用 DeepseekV2DecoderLayer，EAGLE 模板适配），SpeculativeConfig 自动检测 `num_nextn_predict_layers` 并改写 draft config，target worker 为 MTP 返回 hidden states，MLU config 三处 model_type 判断扩展支持 `deepseek_mtp` 以匹配 MLA cache 格式 |
-| v0.0.6 | 2026-02-11 | **Llama4 模型支持**：新建 Llama4ForCausalLM 模型实现（复合 config 处理、sigmoid routing MoE、QK Normalization、交替 dense/MoE 层），新建 MLU hijack 适配（SparseMoeMlp MoE 替换、embedding dtype 修复），处理 `Llama4Config` 嵌套 `text_config` 的 architectures 提取问题。**⚠️ MoE dense 模式（影响所有 MoE 模型）**：原始 `forward_experts_nofused` 包含 `torch.unique`、`torch.tensor` 创建、数据依赖分支等 graph capture 不兼容操作，导致 MLU370 上所有走 `SparseMoeMlp` 的 MoE 模型必须加 `--enforce-eager` 才能运行。现已改为 dense 模式（每个 expert 处理全部 token），解决了 graph capture 兼容性，所有 MoE 模型无需 `--enforce-eager` 即可运行，但计算量增大 num_experts/topk 倍（Mixtral 4x、Llama4 16x、Qwen2-MoE 15x）。DeepSeek V2/V3 不受影响（有独立 MLU MoE hijack）。后续应拆分 `is_use_fused_moe` 标志让 MLU370 走 `forward_group_experts` 路径优化 |
+| v0.0.6.2 | 2026-02-11 | **Llama4 模型支持**：新建 Llama4ForCausalLM 模型实现（复合 config 处理、sigmoid routing MoE、QK Normalization、交替 dense/MoE 层），新建 MLU hijack 适配（SparseMoeMlp MoE 替换、embedding dtype 修复），处理 `Llama4Config` 嵌套 `text_config` 的 architectures 提取问题。**⚠️ MoE dense 模式（影响所有 MoE 模型）**：原始 `forward_experts_nofused` 包含 `torch.unique`、`torch.tensor` 创建、数据依赖分支等 graph capture 不兼容操作，导致 MLU370 上所有走 `SparseMoeMlp` 的 MoE 模型必须加 `--enforce-eager` 才能运行。现已改为 dense 模式（每个 expert 处理全部 token），解决了 graph capture 兼容性，所有 MoE 模型无需 `--enforce-eager` 即可运行，但计算量增大 num_experts/topk 倍（Mixtral 4x、Llama4 16x、Qwen2-MoE 15x）。DeepSeek V2/V3 不受影响（有独立 MLU MoE hijack）。后续应拆分 `is_use_fused_moe` 标志让 MLU370 走 `forward_group_experts` 路径优化 |