Files
r200_8f_xtrt_llm/README.md
2025-08-06 15:49:14 +08:00

82 lines
3.5 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

=============
版本号v0.5.3
发布时间2024.02.01
v0.5.3 版产品特性:
- 完善 Continuous Batching功能并在外部客户场景验证了性能与精度正确性
- 新增 Paged Attention功能
- 新增 pipeline parallel模式已验证 llama系列模型
- 进一步优化llama、baichuan、chatglm模型性能。包括优化显存分配方案进一步提高最大batch_size使用FA减小内存占用等方案。
- 极大提高了编译模型的速度
- 新增 smooth quant功能已在 llama系列、qwen系列、bloom 等开源模型上验证了正确性
- 验证了 QWen-72b模型的精度正确性支持float16、int8以及分布式功能
v0.5.3 bug fix
- llama系列模型在定长、多batch下的精度问题
- 变长的精度问题
v0.5.3 已知问题:
- 不支持 float32模型精度需要自行转到 float16
下版本规划:
- 初版 cpp runtime
- 进一步强化重点客户关注的通用Feature
发版链接和Docker
- [XTRT-LLM产出](https://klx-sdk-release-public.su.bcebos.com/xtrt_llm/release/v0.5.3/output.tar.gz)
- Ubuntu Docker: docker pull iregistry.baidu-int.com/isa/xtcl_ubuntu2004:v4.3
=============
版本号v0.5.2.2
发布时间2024.01.26
v0.5.2.2版产品特性
- 统一了XTRT和XPyTorch的底层依赖模块
- 修复了若干已知问题
发版链接和Docker
- [XTRT-LLM产出](https://klx-sdk-release-public.su.bcebos.com/xtrt_llm/release/v0.5.2.2/output.tar.gz)
- Ubuntu Docker: docker pull iregistry.baidu-int.com/isa/xtcl_ubuntu2004:v4.3
=============
版本号v0.5.2
发布时间2023.12.28
v0.5.2版产品特性
- 验证了Baichuan2-7B, Baichuan2-13B模型的正确性支持FP16和INT8分布式功能支持了Baichuan-13B的分布式运行
- 验证了Qwen-7B, Qwen-14B模型的正确性支持FP16和INT8分布式功能
- 验证了ChatGLM-6B模型的正确性支持FP16和INT8功能
- 验证了Bloom模型的正确性支持FP16和INT8分布式功能
- 验证了GPT-Neox-20B模型的正确性支持FP16和INT8分布式功能
- 增加运行时Memory Cache和分桶算法提升首字延迟性能
- 框架层面增加服务调度功能完成Continuous Batching的初版Demo
下版本规划
- 完整支持Continuous BatchingRemove Padding功能
- 接入外部客户的大模型验证交付等实际项目开发重点客户关注的通用Feature
- 模型适配KL3
=============
版本号v0.5.1
发布时间2023.12.7
使用场景
XTRT-LLM在如下场景下为前场同学提供帮助与支持
- 如客户当前使用TensorRT-LLM进行GPU模型的推理与部署XTRT-LLM可快速完成迁移与适配提供高性能版本的XPU推理能力降低客户对接成本
- 如客户指定开源LLM进行POC和性能PK对于XTRT-LLM已经验证支持的模型可直接加载Huggingface上的公版权重进行高性能版本的模型推理
v0.5.1版产品特性
- 实现并对齐了Nvidia TensorRT-LLM v0.5版本的基础数据结构完成了核心功能的验证兼容TensorRT-LLM的Python前端组网
- 验证了LLama-7B, LLama-13B, LLama-65B和LLama2-70B全系模型的正确性支持FP16和INT8分布式功能
- 验证了Baichuan-7B, Baichuan-13B模型的正确性支持FP16和INT8功能
- 验证了ChatGLM2-6B, ChatGLM3-6B模型的正确性支持FP16和INT8功能
- 验证了GPT-J模型的正确性支持FP16和INT8功能
下版本规划
- 整体支持10+个大模型,进一步优化模型性能,下一版仍以月粒度发版
- 逐步接入外部客户的大模型验证交付等实际项目并开发客户关注的Feature
- 模型适配KL3