enginex-bi_150-llama.cpp/README.md

# enginex-bi_150-llama.cpp

运行于【天数智芯-天垓150】算力卡的【文本生成】引擎，基于 llama.cpp (b7516) 引擎进行架构特别适配优化。

## Build Docker Image

```bash
docker build -t enginex-iluvatar/iluvatar-llama.cpp:b7516-bi150 .
```

最新镜像：git.modelhub.org.cn:9443/enginex-iluvatar/iluvatar-llama.cpp:b7516-bi150

运行容器
**注意**：必须使用 `--no-mmap` 参数关闭内存映射，否则会报错 
```bash
docker run -it --rm \
-v <model_dir>:/app/models \
--privileged \
-e CUDA_VISIBLE_DEVICES=0 \
git.modelhub.org.cn:9443/enginex-iluvatar/iluvatar-llama.cpp:b7516-bi150
/app/llama-cli -m /app/models/xxx.gguf --no-mmap -p "你好"
```
-												Initial commit

											
										
										
											2026-01-23 11:11:32 +08:00
+								# enginex-bi_150-llama.cpp
-												同步 b7516

											
										
										
											2026-01-23 11:34:20 +08:00
+								运行于【天数智芯-天垓150】算力卡的【文本生成】引擎，基于 llama.cpp (b7516) 引擎进行架构特别适配优化。
-												fix(ggml-cuda): 修正CUDA编译标志和WARP_SIZE配置

更新CUDA编译标志以使用正确的fast-math和extended-lambda选项
调整WARP_SIZE为64以适配目标硬件
移除-Wmissing-noreturn警告选项
修复cudaStreamWaitEvent调用缺少参数的问题

											
										
										
											2026-01-23 16:42:43 +08:00
 								## Build Docker Image
 								```bash
 								docker build -t enginex-iluvatar/iluvatar-llama.cpp:b7516-bi150 .
 								```
-												docs: 添加容器运行说明及注意事项

添加运行容器的命令示例，并强调必须使用 `--no-mmap` 参数以避免错误

											
										
										
											2026-01-23 16:47:14 +08:00
+								最新镜像：git.modelhub.org.cn:9443/enginex-iluvatar/iluvatar-llama.cpp:b7516-bi150
 								运行容器
 								**注意**：必须使用 `--no-mmap` 参数关闭内存映射，否则会报错
 								```bash
 								docker run -it --rm \
 								-v <model_dir>:/app/models \
 								--privileged \
 								-e CUDA_VISIBLE_DEVICES=0 \
 								git.modelhub.org.cn:9443/enginex-iluvatar/iluvatar-llama.cpp:b7516-bi150
 								/app/llama-cli -m /app/models/xxx.gguf --no-mmap -p "你好"
 								```