Model: hiratagoh/NVIDIA-Nemotron-Nano-9B-v2-Japanese-GGUF Source: Original Platform
license, license_name, license_link, base_model, datasets, track_downloads, language, pipeline_tag
| license | license_name | license_link | base_model | datasets | track_downloads | language | pipeline_tag | |||
|---|---|---|---|---|---|---|---|---|---|---|
| other | nvidia-nemotron-open-model-license | https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-nemotron-open-model-license/ | nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japanese |
|
true |
|
text-generation |
NVIDIA-Nemotron-Nano-9B-v2-Japanese-GGUF
GGUF変換と量子化
nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japaneseを
llama.cppのconvert_hf_to_gguf.pyでGGUF形式変換し、llama-quantizeで量子化しました。
元モデルが軽量ですので、実行環境が許せばBF16かQ8_0での利用をお勧めします。
iMatrix生成
iMatrixは
TFMC/imatrix-dataset-for-japanese-llm
のc4_en_ja_imatrix.txtを教師データに使用しllama-imatrixで生成しました。
IQ4_XS量子化
IQ4_XS量子化ではllama-quantizeで
llama_model_quantize_impl : tensor cols 4480 x 131072 are not divisible by 256, required for iq4_xs - using fallback quantization iq4_nl
などとログ出力され、4ビット量子化されたLayerの多くはIQ4_NLになってます。表面上はIQ4_XSと表記していますが、中身はほぼIQ4_NLです。
Description