Will perform strided perplexity calculation -> adjusting context size from 3072 to 3264
llama_model_loader: loaded meta data with 39 key-value pairs and 363 tensors from granite-4.1-8b-Q1_L.gguf (version GGUF V3 (latest))
llama_model_loader: - type  f32:   81 tensors
llama_model_loader: - type q2_K:    2 tensors
llama_model_loader: - type iq2_xxs:    1 tensors
llama_model_loader: - type iq2_xs:   22 tensors
llama_model_loader: - type iq1_s:  209 tensors
llama_model_loader: - type iq2_s:   17 tensors
llama_model_loader: - type iq1_m:   31 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = IQ1_M - 1.75 bpw
print_info: file size   = 1.79 GiB (1.75 BPW) 

====== Perplexity statistics ======
Mean PPL(Q)                   :  87.318832 ±   0.781580
Mean PPL(base)                :   8.691178 ±   0.065443
Cor(ln(PPL(Q)), ln(PPL(base))):  57.61%
Mean ln(PPL(Q)/PPL(base))     :   2.307258 ±   0.007692
Mean PPL(Q)/PPL(base)         :  10.046835 ±   0.077278
Mean PPL(Q)-PPL(base)         :  78.627654 ±   0.745801

====== KL divergence statistics ======
Mean    KLD:   2.889523 ±   0.005948
Maximum KLD:  18.836405
99.9%   KLD:  13.080500
99.0%   KLD:  10.150911
95.0%   KLD:   7.400433
90.0%   KLD:   6.028920
Median  KLD:   2.342337
10.0%   KLD:   0.519454
 5.0%   KLD:   0.230382
 1.0%   KLD:   0.035005
 0.1%   KLD:   0.005322
Minimum KLD:   0.000491

====== Token probability statistics ======
Mean    Δp: -31.301 ± 0.094 %
Maximum Δp: 92.012%
99.9%   Δp: 58.470%
99.0%   Δp: 27.386%
95.0%   Δp:  4.750%
90.0%   Δp:  0.243%
75.0%   Δp: -0.866%
Median  Δp: -17.956%
25.0%   Δp: -60.731%
10.0%   Δp: -90.577%
 5.0%   Δp: -97.636%
 1.0%   Δp: -99.874%
 0.1%   Δp: -99.991%
Minimum Δp: -100.000%
RMS Δp    : 47.467 ± 0.088 %
Same top p: 34.309 ± 0.125 %