r200_8f_xtrt_llm/README.md

=============
版本号：v0.5.3
发布时间：2024.02.01

v0.5.3 版产品特性：
- 完善 Continuous Batching功能，并在外部客户场景验证了性能与精度正确性
- 新增 Paged Attention功能
- 新增 pipeline parallel模式，已验证 llama系列模型
- 进一步优化llama、baichuan、chatglm模型性能。包括：优化显存分配方案，进一步提高最大batch_size；使用FA减小内存占用等方案。
- 极大提高了编译模型的速度
- 新增 smooth quant功能，已在 llama系列、qwen系列、bloom 等开源模型上验证了正确性
- 验证了 QWen-72b模型的精度正确性，支持float16、int8以及分布式功能

v0.5.3 bug fix：
- llama系列模型，在定长、多batch下的精度问题
- 变长的精度问题

v0.5.3 已知问题：
- 不支持 float32模型精度，需要自行转到 float16

下版本规划：
- 初版 cpp runtime
- 进一步强化重点客户关注的通用Feature

发版链接和Docker
- [XTRT-LLM产出](https://klx-sdk-release-public.su.bcebos.com/xtrt_llm/release/v0.5.3/output.tar.gz)
- Ubuntu Docker: docker pull iregistry.baidu-int.com/isa/xtcl_ubuntu2004:v4.3


=============
版本号：v0.5.2.2
发布时间：2024.01.26

v0.5.2.2版产品特性
- 统一了XTRT和XPyTorch的底层依赖模块
- 修复了若干已知问题

发版链接和Docker
- [XTRT-LLM产出](https://klx-sdk-release-public.su.bcebos.com/xtrt_llm/release/v0.5.2.2/output.tar.gz)
- Ubuntu Docker: docker pull iregistry.baidu-int.com/isa/xtcl_ubuntu2004:v4.3


=============
版本号：v0.5.2
发布时间：2023.12.28

v0.5.2版产品特性
- 验证了Baichuan2-7B, Baichuan2-13B模型的正确性，支持FP16和INT8分布式功能，支持了Baichuan-13B的分布式运行
- 验证了Qwen-7B, Qwen-14B模型的正确性，支持FP16和INT8分布式功能
- 验证了ChatGLM-6B模型的正确性，支持FP16和INT8功能
- 验证了Bloom模型的正确性，支持FP16和INT8分布式功能
- 验证了GPT-Neox-20B模型的正确性，支持FP16和INT8分布式功能
- 增加运行时Memory Cache和分桶算法，提升首字延迟性能
- 框架层面增加服务调度功能，完成Continuous Batching的初版Demo

下版本规划
- 完整支持Continuous Batching，Remove Padding功能
- 接入外部客户的大模型验证，交付等实际项目，开发重点客户关注的通用Feature
- 模型适配KL3


=============
版本号：v0.5.1
发布时间：2023.12.7

使用场景
XTRT-LLM在如下场景下为前场同学提供帮助与支持
- 如客户当前使用TensorRT-LLM进行GPU模型的推理与部署，XTRT-LLM可快速完成迁移与适配，提供高性能版本的XPU推理能力，降低客户对接成本
- 如客户指定开源LLM进行POC和性能PK，对于XTRT-LLM已经验证支持的模型，可直接加载Huggingface上的公版权重，进行高性能版本的模型推理

v0.5.1版产品特性
- 实现并对齐了Nvidia TensorRT-LLM v0.5版本的基础数据结构，完成了核心功能的验证，兼容TensorRT-LLM的Python前端组网
- 验证了LLama-7B, LLama-13B, LLama-65B和LLama2-70B全系模型的正确性，支持FP16和INT8分布式功能
- 验证了Baichuan-7B, Baichuan-13B模型的正确性，支持FP16和INT8功能
- 验证了ChatGLM2-6B, ChatGLM3-6B模型的正确性，支持FP16和INT8功能
- 验证了GPT-J模型的正确性，支持FP16和INT8功能

下版本规划
- 整体支持10+个大模型，进一步优化模型性能，下一版仍以月粒度发版
- 逐步接入外部客户的大模型验证，交付等实际项目，并开发客户关注的Feature
- 模型适配KL3
-												add pkgs

											
										
										
											2025-08-06 15:49:14 +08:00
+								=============
 								版本号：v0.5.3
 								发布时间：2024.02.01
-												Initial commit

											
										
										
											2025-08-06 11:44:56 +08:00
-												add pkgs

											
										
										
											2025-08-06 15:49:14 +08:00
+								v0.5.3 版产品特性：
 								- 完善 Continuous Batching功能，并在外部客户场景验证了性能与精度正确性
 								- 新增 Paged Attention功能
 								- 新增 pipeline parallel模式，已验证 llama系列模型
 								- 进一步优化llama、baichuan、chatglm模型性能。包括：优化显存分配方案，进一步提高最大batch_size；使用FA减小内存占用等方案。
 								- 极大提高了编译模型的速度
 								- 新增 smooth quant功能，已在 llama系列、qwen系列、bloom 等开源模型上验证了正确性
 								- 验证了 QWen-72b模型的精度正确性，支持float16、int8以及分布式功能
 								v0.5.3 bug fix：
 								- llama系列模型，在定长、多batch下的精度问题
 								- 变长的精度问题
 								v0.5.3 已知问题：
 								- 不支持 float32模型精度，需要自行转到 float16
 								下版本规划：
 								- 初版 cpp runtime
 								- 进一步强化重点客户关注的通用Feature
 								发版链接和Docker
 								- [XTRT-LLM产出](https://klx-sdk-release-public.su.bcebos.com/xtrt_llm/release/v0.5.3/output.tar.gz)
 								- Ubuntu Docker: docker pull iregistry.baidu-int.com/isa/xtcl_ubuntu2004:v4.3
 								=============
 								版本号：v0.5.2.2
 								发布时间：2024.01.26
 								v0.5.2.2版产品特性
 								- 统一了XTRT和XPyTorch的底层依赖模块
 								- 修复了若干已知问题
 								发版链接和Docker
 								- [XTRT-LLM产出](https://klx-sdk-release-public.su.bcebos.com/xtrt_llm/release/v0.5.2.2/output.tar.gz)
 								- Ubuntu Docker: docker pull iregistry.baidu-int.com/isa/xtcl_ubuntu2004:v4.3
 								=============
 								版本号：v0.5.2
 								发布时间：2023.12.28
 								v0.5.2版产品特性
 								- 验证了Baichuan2-7B, Baichuan2-13B模型的正确性，支持FP16和INT8分布式功能，支持了Baichuan-13B的分布式运行
 								- 验证了Qwen-7B, Qwen-14B模型的正确性，支持FP16和INT8分布式功能
 								- 验证了ChatGLM-6B模型的正确性，支持FP16和INT8功能
 								- 验证了Bloom模型的正确性，支持FP16和INT8分布式功能
 								- 验证了GPT-Neox-20B模型的正确性，支持FP16和INT8分布式功能
 								- 增加运行时Memory Cache和分桶算法，提升首字延迟性能
 								- 框架层面增加服务调度功能，完成Continuous Batching的初版Demo
 								下版本规划
 								- 完整支持Continuous Batching，Remove Padding功能
 								- 接入外部客户的大模型验证，交付等实际项目，开发重点客户关注的通用Feature
 								- 模型适配KL3
 								=============
 								版本号：v0.5.1
 								发布时间：2023.12.7
 								使用场景
 								XTRT-LLM在如下场景下为前场同学提供帮助与支持
 								- 如客户当前使用TensorRT-LLM进行GPU模型的推理与部署，XTRT-LLM可快速完成迁移与适配，提供高性能版本的XPU推理能力，降低客户对接成本
 								- 如客户指定开源LLM进行POC和性能PK，对于XTRT-LLM已经验证支持的模型，可直接加载Huggingface上的公版权重，进行高性能版本的模型推理
 								v0.5.1版产品特性
 								- 实现并对齐了Nvidia TensorRT-LLM v0.5版本的基础数据结构，完成了核心功能的验证，兼容TensorRT-LLM的Python前端组网
 								- 验证了LLama-7B, LLama-13B, LLama-65B和LLama2-70B全系模型的正确性，支持FP16和INT8分布式功能
 								- 验证了Baichuan-7B, Baichuan-13B模型的正确性，支持FP16和INT8功能
 								- 验证了ChatGLM2-6B, ChatGLM3-6B模型的正确性，支持FP16和INT8功能
 								- 验证了GPT-J模型的正确性，支持FP16和INT8功能
 								下版本规划
 								- 整体支持10+个大模型，进一步优化模型性能，下一版仍以月粒度发版
 								- 逐步接入外部客户的大模型验证，交付等实际项目，并开发客户关注的Feature
 								- 模型适配KL3