memory : handle kv_unified for hybrid models (#15050)

2025-08-03 15:43:07 -04:00
parent 97366dc6ab
commit 11a3811164
3 changed files with 4 additions and 1 deletions
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -17598,6 +17598,7 @@ llama_memory_i * llama_model::create_memory(const llama_memory_params & params,
                        /* recurrent_kv_size */ std::max((uint32_t) 1, cparams.n_seq_max),
                        /* n_seq_max         */ cparams.n_seq_max,
                        /* offload           */ cparams.offload_kqv,
+                        /* unified           */ cparams.kv_unified,
                        /* filter_attn       */ (arch == LLM_ARCH_FALCON_H1) ? [&](int32_t) { return true; } : (llama_memory_hybrid::layer_filter_cb)nullptr,
                        /* filter_recr       */ (arch == LLM_ARCH_FALCON_H1) ? [&](int32_t) { return true; } : (llama_memory_hybrid::layer_filter_cb)nullptr);
                } else {