============= 版本号:v0.5.3 发布时间:2024.02.01 v0.5.3 版产品特性: - 完善 Continuous Batching功能,并在外部客户场景验证了性能与精度正确性 - 新增 Paged Attention功能 - 新增 pipeline parallel模式,已验证 llama系列模型 - 进一步优化llama、baichuan、chatglm模型性能。包括:优化显存分配方案,进一步提高最大batch_size;使用FA减小内存占用等方案。 - 极大提高了编译模型的速度 - 新增 smooth quant功能,已在 llama系列、qwen系列、bloom 等开源模型上验证了正确性 - 验证了 QWen-72b模型的精度正确性,支持float16、int8以及分布式功能 v0.5.3 bug fix: - llama系列模型,在定长、多batch下的精度问题 - 变长的精度问题 v0.5.3 已知问题: - 不支持 float32模型精度,需要自行转到 float16 下版本规划: - 初版 cpp runtime - 进一步强化重点客户关注的通用Feature 发版链接和Docker - [XTRT-LLM产出](https://klx-sdk-release-public.su.bcebos.com/xtrt_llm/release/v0.5.3/output.tar.gz) - Ubuntu Docker: docker pull iregistry.baidu-int.com/isa/xtcl_ubuntu2004:v4.3 ============= 版本号:v0.5.2.2 发布时间:2024.01.26 v0.5.2.2版产品特性 - 统一了XTRT和XPyTorch的底层依赖模块 - 修复了若干已知问题 发版链接和Docker - [XTRT-LLM产出](https://klx-sdk-release-public.su.bcebos.com/xtrt_llm/release/v0.5.2.2/output.tar.gz) - Ubuntu Docker: docker pull iregistry.baidu-int.com/isa/xtcl_ubuntu2004:v4.3 ============= 版本号:v0.5.2 发布时间:2023.12.28 v0.5.2版产品特性 - 验证了Baichuan2-7B, Baichuan2-13B模型的正确性,支持FP16和INT8分布式功能,支持了Baichuan-13B的分布式运行 - 验证了Qwen-7B, Qwen-14B模型的正确性,支持FP16和INT8分布式功能 - 验证了ChatGLM-6B模型的正确性,支持FP16和INT8功能 - 验证了Bloom模型的正确性,支持FP16和INT8分布式功能 - 验证了GPT-Neox-20B模型的正确性,支持FP16和INT8分布式功能 - 增加运行时Memory Cache和分桶算法,提升首字延迟性能 - 框架层面增加服务调度功能,完成Continuous Batching的初版Demo 下版本规划 - 完整支持Continuous Batching,Remove Padding功能 - 接入外部客户的大模型验证,交付等实际项目,开发重点客户关注的通用Feature - 模型适配KL3 ============= 版本号:v0.5.1 发布时间:2023.12.7 使用场景 XTRT-LLM在如下场景下为前场同学提供帮助与支持 - 如客户当前使用TensorRT-LLM进行GPU模型的推理与部署,XTRT-LLM可快速完成迁移与适配,提供高性能版本的XPU推理能力,降低客户对接成本 - 如客户指定开源LLM进行POC和性能PK,对于XTRT-LLM已经验证支持的模型,可直接加载Huggingface上的公版权重,进行高性能版本的模型推理 v0.5.1版产品特性 - 实现并对齐了Nvidia TensorRT-LLM v0.5版本的基础数据结构,完成了核心功能的验证,兼容TensorRT-LLM的Python前端组网 - 验证了LLama-7B, LLama-13B, LLama-65B和LLama2-70B全系模型的正确性,支持FP16和INT8分布式功能 - 验证了Baichuan-7B, Baichuan-13B模型的正确性,支持FP16和INT8功能 - 验证了ChatGLM2-6B, ChatGLM3-6B模型的正确性,支持FP16和INT8功能 - 验证了GPT-J模型的正确性,支持FP16和INT8功能 下版本规划 - 整体支持10+个大模型,进一步优化模型性能,下一版仍以月粒度发版 - 逐步接入外部客户的大模型验证,交付等实际项目,并开发客户关注的Feature - 模型适配KL3