Will perform strided perplexity calculation -> adjusting context size from 3072 to 3264
llama_model_loader: loaded meta data with 39 key-value pairs and 363 tensors from granite-4.1-8b-Q3_K.gguf (version GGUF V3 (latest))
llama_model_loader: - type  f32:   81 tensors
llama_model_loader: - type q2_K:    1 tensors
llama_model_loader: - type q3_K:    1 tensors
llama_model_loader: - type q4_K:   33 tensors
llama_model_loader: - type iq2_xxs:    1 tensors
llama_model_loader: - type iq2_xs:    2 tensors
llama_model_loader: - type iq3_xxs:   31 tensors
llama_model_loader: - type iq3_s:  165 tensors
llama_model_loader: - type iq4_xs:   48 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = IQ4_XS - 4.25 bpw
print_info: file size   = 3.58 GiB (3.50 BPW) 

====== Perplexity statistics ======
Mean PPL(Q)                   :   9.381594 ±   0.070128
Mean PPL(base)                :   8.691178 ±   0.065443
Cor(ln(PPL(Q)), ln(PPL(base))):  96.18%
Mean ln(PPL(Q)/PPL(base))     :   0.076441 ±   0.002075
Mean PPL(Q)/PPL(base)         :   1.079439 ±   0.002240
Mean PPL(Q)-PPL(base)         :   0.690416 ±   0.019310

====== KL divergence statistics ======
Mean    KLD:   0.173887 ±   0.001079
Maximum KLD:  14.743266
99.9%   KLD:   5.111659
99.0%   KLD:   1.928733
95.0%   KLD:   0.623000
90.0%   KLD:   0.364871
Median  KLD:   0.072451
10.0%   KLD:   0.001391
 5.0%   KLD:   0.000306
 1.0%   KLD:   0.000027
 0.1%   KLD:   0.000001
Minimum KLD:  -0.000004

====== Token probability statistics ======
Mean    Δp: -2.503 ± 0.031 %
Maximum Δp: 96.204%
99.9%   Δp: 57.084%
99.0%   Δp: 26.183%
95.0%   Δp: 10.344%
90.0%   Δp:  5.013%
75.0%   Δp:  0.347%
Median  Δp: -0.138%
25.0%   Δp: -3.676%
10.0%   Δp: -12.687%
 5.0%   Δp: -21.160%
 1.0%   Δp: -51.918%
 0.1%   Δp: -92.971%
Minimum Δp: -99.997%
RMS Δp    : 12.185 ± 0.069 %
Same top p: 82.732 ± 0.100 %