minicpm4-8b-gguf

Go to file

ModelHub XC 11e710dd3f 初始化项目，由ModelHub XC社区提供模型

Model: xiaowangge/minicpm4-8b-gguf
Source: Original Platform

2026-06-22 03:07:13 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-06-22 03:07:13 +08:00

configuration.json

初始化项目，由ModelHub XC社区提供模型

2026-06-22 03:07:13 +08:00

minicpm4-8b-fp16.gguf

初始化项目，由ModelHub XC社区提供模型

2026-06-22 03:07:13 +08:00

minicpm4-8b-q4_K_M.gguf

初始化项目，由ModelHub XC社区提供模型

2026-06-22 03:07:13 +08:00

minicpm4-8b-q8_0.gguf

初始化项目，由ModelHub XC社区提供模型

2026-06-22 03:07:13 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-06-22 03:07:13 +08:00

README.md

frameworks, license, tasks, language, base_model, base_model_relation

frameworks

license

tasks

language

base_model

base_model_relation

Pytorch

Apache License 2.0

text-generation

OpenBMB/MiniCPM4-8B

quantized

介绍

该模型基于 https://www.modelscope.cn/models/OpenBMB/MiniCPM4-8B 转换。
开源许可遵循 MiniCPM4-8B。

模型下载

SDK 下载

# 安装 ModelScope
pip install modelscope

# SDK模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('xiaowangge/minicpm4-8b-gguf')

Git 下载

# Git模型下载
git clone https://www.modelscope.cn/xiaowangge/minicpm4-8b-gguf.git

快速开始

本地构建或下载预构建形式的 llama.cpp 文件，使用 llama-cli 推理。

源码构建 llama-cli

# 克隆 llama.cpp 源码
git clone -b  https://github.com/ggml-org/llama.cpp
# 进入目录
cd llama.cpp
# 构建配置，开启 CUDA 加速，禁用 CURL
cmake -B build -DGGML_CUDA=ON -DLLAMA_CURL=OFF
# 多任务加速构建
cmake --build build --config Release -j 10
# 测试
build/bin/llama-cli -h

llama-cli 推理

# GPU 加速
build/bin/llama-cli -m ./minicpm4-8b-fp16.gguf -c 1024 -ngl 128 -n 512 -p "介绍下你自己"

ollama 推理

如果不想进行复杂的 llama.cpp 编译或配置，可使用 ollama(version>=0.9.2) 快速推理。

ollama run xiaowangge/minicpm4