forked from EngineX-Cambricon/enginex-mlu370-vllm
update README
This commit is contained in:
@@ -172,6 +172,4 @@ curl http://localhost:80/v1/chat/completions \
|
||||
|------|------|----------|
|
||||
| v0.0.2 | 2026-02-04 | **Qwen3 模型支持**:实现 QK Normalization 架构适配,修复 rope_scaling 和 tokenizer 兼容性问题,解决张量连续性导致的 view 操作失败 |
|
||||
| v0.0.3 | 2026-02-06 | **Transformers 通用后端**:支持通过 `auto_map` 加载任意自定义 HuggingFace 模型,新增 registry 回退逻辑、Linear 返回值处理、RMSNorm 维度恢复等 |
|
||||
| v0.0.4 | 2026-02-06 | **CNNL Tensor 溢出修复**:解决极小模型在大显存设备上部署时 KV cache 元素数超过 int32 限制的问题,在 mlu_worker 和 cache_engine 中添加双重防护 |
|
||||
|
||||
详细文档请参考 `doc/` 目录下各版本的完整记录。
|
||||
| v0.0.3.1 | 2026-02-06 | **CNNL Tensor 溢出修复**:解决极小模型在大显存设备上部署时 KV cache 元素数超过 int32 限制的问题,在 mlu_worker 和 cache_engine 中添加双重防护 |
|
||||
|
||||
Reference in New Issue
Block a user