Will perform strided perplexity calculation -> adjusting context size from 3072 to 3264
llama_model_loader: loaded meta data with 39 key-value pairs and 363 tensors from granite-4.1-8b-Q6_K.gguf (version GGUF V3 (latest))
llama_model_loader: - type  f32:   81 tensors
llama_model_loader: - type q8_0:   35 tensors
llama_model_loader: - type q4_K:    2 tensors
llama_model_loader: - type q5_K:   75 tensors
llama_model_loader: - type q6_K:  170 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q6_K
print_info: file size   = 6.65 GiB (6.50 BPW) 

====== Perplexity statistics ======
Mean PPL(Q)                   :   8.755199 ±   0.066400
Mean PPL(base)                :   8.691178 ±   0.065443
Cor(ln(PPL(Q)), ln(PPL(base))):  99.74%
Mean ln(PPL(Q)/PPL(base))     :   0.007339 ±   0.000550
Mean PPL(Q)/PPL(base)         :   1.007366 ±   0.000554
Mean PPL(Q)-PPL(base)         :   0.064021 ±   0.004871

====== KL divergence statistics ======
Mean    KLD:   0.007326 ±   0.000066
Maximum KLD:   2.273445
99.9%   KLD:   0.273010
99.0%   KLD:   0.081142
95.0%   KLD:   0.025136
90.0%   KLD:   0.014795
Median  KLD:   0.002831
10.0%   KLD:   0.000033
 5.0%   KLD:   0.000007
 1.0%   KLD:   0.000000
 0.1%   KLD:  -0.000003
Minimum KLD:  -0.000027

====== Token probability statistics ======
Mean    Δp: -0.107 ± 0.007 %
Maximum Δp: 79.111%
99.9%   Δp: 18.154%
99.0%   Δp:  7.012%
95.0%   Δp:  2.856%
90.0%   Δp:  1.538%
75.0%   Δp:  0.232%
Median  Δp: -0.001%
25.0%   Δp: -0.371%
10.0%   Δp: -1.892%
 5.0%   Δp: -3.299%
 1.0%   Δp: -7.834%
 0.1%   Δp: -21.254%
Minimum Δp: -87.374%
RMS Δp    :  2.562 ± 0.030 %
Same top p: 96.165 ± 0.051 %