Will perform strided perplexity calculation -> adjusting context size from 3072 to 3264
llama_model_loader: loaded meta data with 39 key-value pairs and 363 tensors from granite-4.1-8b-Q5_K.gguf (version GGUF V3 (latest))
llama_model_loader: - type  f32:   81 tensors
llama_model_loader: - type q5_1:    1 tensors
llama_model_loader: - type q4_K:   26 tensors
llama_model_loader: - type q5_K:  246 tensors
llama_model_loader: - type q6_K:    4 tensors
llama_model_loader: - type iq4_xs:    5 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q5_K - Medium
print_info: file size   = 5.63 GiB (5.50 BPW) 

====== Perplexity statistics ======
Mean PPL(Q)                   :   8.766150 ±   0.066421
Mean PPL(base)                :   8.691178 ±   0.065443
Cor(ln(PPL(Q)), ln(PPL(base))):  99.48%
Mean ln(PPL(Q)/PPL(base))     :   0.008589 ±   0.000770
Mean PPL(Q)/PPL(base)         :   1.008626 ±   0.000776
Mean PPL(Q)-PPL(base)         :   0.074972 ±   0.006775

====== KL divergence statistics ======
Mean    KLD:   0.018940 ±   0.000165
Maximum KLD:   5.148437
99.9%   KLD:   0.762867
99.0%   KLD:   0.213410
95.0%   KLD:   0.065414
90.0%   KLD:   0.037975
Median  KLD:   0.006922
10.0%   KLD:   0.000082
 5.0%   KLD:   0.000017
 1.0%   KLD:   0.000001
 0.1%   KLD:  -0.000003
Minimum KLD:  -0.000006

====== Token probability statistics ======
Mean    Δp: -0.182 ± 0.011 %
Maximum Δp: 91.879%
99.9%   Δp: 30.364%
99.0%   Δp: 10.955%
95.0%   Δp:  4.408%
90.0%   Δp:  2.363%
75.0%   Δp:  0.367%
Median  Δp: -0.001%
25.0%   Δp: -0.575%
10.0%   Δp: -2.918%
 5.0%   Δp: -5.194%
 1.0%   Δp: -12.983%
 0.1%   Δp: -33.902%
Minimum Δp: -90.554%
RMS Δp    :  4.061 ± 0.040 %
Same top p: 94.120 ± 0.062 %