Files

ModelHub XC eb24bf5930 初始化项目，由ModelHub XC社区提供模型

Model: hiratagoh/NVIDIA-Nemotron-Nano-9B-v2-Japanese-GGUF
Source: Original Platform

2026-04-13 01:04:58 +08:00

license, license_name, license_link, base_model, datasets, track_downloads, language, pipeline_tag

license

license_name

license_link

base_model

datasets

track_downloads

language

pipeline_tag

other

nvidia-nemotron-open-model-license

nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japanese

TFMC/imatrix-dataset-for-japanese-llm

true

text-generation

NVIDIA-Nemotron-Nano-9B-v2-Japanese-GGUF

GGUF変換と量子化

nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japaneseを llama.cppのconvert_hf_to_gguf.pyでGGUF形式変換し、llama-quantizeで量子化しました。

元モデルが軽量ですので、実行環境が許せばBF16かQ8_0での利用をお勧めします。

iMatrixは TFMC/imatrix-dataset-for-japanese-llm のc4_en_ja_imatrix.txtを教師データに使用しllama-imatrixで生成しました。

IQ4_XS量子化ではllama-quantizeで

llama_model_quantize_impl : tensor cols 4480 x 131072 are not divisible by 256, required for iq4_xs - using fallback quantization iq4_nl

などとログ出力され、4ビット量子化されたLayerの多くはIQ4_NLになってます。表面上はIQ4_XSと表記していますが、中身はほぼIQ4_NLです。