Vikras-MixP/README.md

---
library_name: transformers
tags:
- quantized
- custom
- nonlinear
- mixed-precision
- merged
- MoK
language:
- ru
- en
metrics:
- perplexity
pipeline_tag: text-generation
---

# Vikras — Experimental Family of Language Models

[EN below](#vikras--experimental-family-of-language-models-en)

## Содержание

- [Коротко о проекте](#коротко-о-проекте)
- [Текущий релиз: HCT/YeAM](#текущий-релиз-hctyeam)
- [HCT (архитектура) / YeAM (инвариант реализации)](#hct-архитектура--yeam-инвариант-реализации)
- [Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)](#предыдущий-релиз-vikra-mixedprc-mixp_49b_s)
- [MixP_4.9b_S: детали](#mixp_49b_s-детали)
- [Планы развития](#планы-развития)
- [Использование](#использование)
- [Заключение](#заключение)

---

## Коротко о проекте

**Vikra** — экспериментальное семейство языковых моделей, исследующее влияние:

- геометрии представлений
- квантования
- гибридных мерджей

на численную динамику трансформеров.

Проект **Vikras** не ограничивается одной базой или одной архитектурой: это семейство моделей, объединённых идеей численной инвариантности эксперимента.

- **Vikra_%** — имя конкретной модели
- **Vikras** — семейство экспериментов
- **S / M / L** — степень агрессивности и распределения битности
- **MixP / FullP / HCT** — схемы и инварианты квантования/мерджей

---

## Текущий релиз: HCT/YeAM

### Релизы

- **Vikra-HCT-YeAM-PhiMma-1B**
  - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B
  - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-LLaGemma-1B**
  - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B
  - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B**
  - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
  - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf
- **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B**
  - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
  - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf

---

## HCT (архитектура) / YeAM (инвариант реализации)

**HCT** — архитектурный инвариант: практический способ собирать совместимые модели и производные релизы при переносе между базами/семействами.

**YeAM (Yet Another Merge)** — инвариант реализации HCT и самостоятельная схема мерджа HF→HF: это не «ещё один SLERP/DARE/TILES» и не косметическая вариация усреднения.

YeAM выдаёт стандартный HF-результат (safetensors + index) и поддерживает:

- прямой weight-to-weight мердж
- направленное добавление знаний в выбранную модель (knowledge distillation / knowledge injection), согласованное по нескольким источникам
- дополнительный мердж Attention-слоёв как отдельную технику поверх YeAM
- мердж меньших моделей в более крупные (scale-up merge) при сохранении совместимого HF-формата

Математически YeAM работает в **реальной 4D-постановке**: обновления кодируются геометрически и согласуются через пересечения лучей в пространстве параметров. Это даёт управляемый мердж с сохранением структуры и без вырождения в наивное усреднение.

---

## Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)

### Краткое описание

12.25B Mistral-based language model
Hybrid mixed-precision merged GGUF quantization
Экспериментальный режим анизотропного квантования

Полная версия мерджа (без квантования):
https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP

GGUF-квант:
https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf

---

## MixP_4.9b_S: детали

### Архитектура (для MixP релиза)

| Параметр | Значение |
|---|---|
| Architecture | Mistral-based |
| Params | ~12.25B |
| Layers | 40 |
| Hidden size | 5120 |
| FFN size | 14336 |
| Heads | 32 (8 KV heads, GQA) |
| Context | 1,024,000 |
| Vocab | 131,072 (Tekken BPE) |
| RoPE theta | 1,000,000 |

### MixP_4.9b_S — схема квантования

Гибридная mixed precision схема с покомпонентным распределением типов.

| Tensor group | Quant type | BPW |
|---|---|---|
| token_embd, output | BF16 | 16 |
| attn_norm, ffn_norm, output_norm | F32 | 32 |
| attn_q | Q4_K | 4.5 |
| attn_k | Q5_K | 5.5 |
| attn_v | Q3_K | 3.44 |
| attn_output | Q4_K | 4.5 |
| ffn_gate | Q3_K | 3.44 |
| ffn_up | Q5_K | 5.5 |
| ffn_down | Q5_K / Q6_K | 5.5–6.56 |

Итого:

- Quantized layers only: ~4.89 BPW
- Full model average: ~6.11 BPW
- File size: ~8.71 GB

### Ключевая идея MixP

MixP — это не «сжать всё одинаково».

Это **анизотропное квантование информационных каналов**:

• Q/K сохраняются в более высокой точности
• V и gate намеренно квантованы до Q3_K
• Нормы и выходной слой остаются в высокой точности

Такое распределение изменяет численную динамику модели:

• усиливается структурная sparsification
• меняется распределение норм скрытых представлений
• меняется энтропия логитов
• появляется режимная чувствительность

Это не новая архитектура.
Это изменение численной геометрии существующей.

### Наблюдаемые эффекты

- сохранение top-1 предсказаний на простых задачах
- рост entropy без разрушения максимальной вероятности
- расширение hidden norm на сложных задачах
- бифуркация режимов: простые задачи ≈ инвариантны, сложные — чувствительны

Эти эффекты описываются как геометрический сдвиг представлений, а не как универсальное улучшение качества.


### math_subattention (рабочая гипотеза)

В экспериментах наблюдается эффект, условно обозначенный как:

“math_subattention”

Под этим подразумевается:

• уменьшение вклада мелких компонент V
• усиление доминирующих направлений residual stream
• повышенная инерция предыдущего токена
• снижение частоты мелких переключений логитов

Это не claim о новой архитектуре.
Это рабочая гипотеза о динамике, возникающей при Q3_K symmetric quantization.

Термин используется описательно.

### Перплексия

Метрика измерена на wikitext-2-raw-test (full):

| Model | Precision | PPL |
|---|---|---|
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 |
| Baseline BF16 | Full | 6.02 ± 0.03 |

---

## Планы развития

Планируются подсемейства:

- MixP — Mixed Precision
- FullP — Full Precision версии
- HCT — multi-merge эксперименты
- S / M / L — варианты распределения битности

Все модели семейства называются **Vikra**.
Репозиторий — **Vikras**.

---

## Использование

```bash
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```

```bash
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```

---

## Заключение

Vikras — исследовательский проект.

Он исследует, как меняется поведение трансформера, если его:

- сжимать
- смешивать
- изменять численную геометрию

Если вам интересны hidden space dynamics / regime sensitivity / anisotropic quantization — добро пожаловать.

---

# Vikras — Experimental Family of Language Models (EN)

## Table of Contents

- [Project overview](#project-overview)
- [Current Release: HCT/YeAM](#current-release-hctyeam)
- [HCT (architecture) / YeAM (implementation invariant)](#hct-architecture--yeam-implementation-invariant)
- [Previous Release: Vikra MixedPrc (MixP_4.9b_S)](#previous-release-vikra-mixedprc-mixp_49b_s)
- [MixP_4.9b_S: details](#mixp_49b_s-details)
- [Roadmap](#roadmap)
- [Usage](#usage)
- [Closing](#closing)

---

## Project overview

**Vikra** is an experimental family of language models exploring how:

- representation geometry
- quantization
- hybrid merges

affect transformer numerical dynamics.

The **Vikras** project is not tied to a single base model or architecture.
It is a family of models unified by a numerical invariance philosophy of experimentation.

- **Vikra_%** — a specific model
- **Vikras** — the experimental family
- **S / M / L** — aggressiveness and bit allocation variants
- **MixP / FullP / HCT** — quantization / merge invariants

---

## Current Release: HCT/YeAM

### Releases

- **Vikra-HCT-YeAM-PhiMma-1B**
  - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B
  - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-LLaGemma-1B**
  - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B
  - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B**
  - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
  - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf
- **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B**
  - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
  - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf

---

## HCT (architecture) / YeAM (implementation invariant)

**HCT** is an architectural invariant.
In English: **Heterogeneous Compatibility Transfer** — a practical way to assemble compatible checkpoints and derived releases while moving across bases / model families.

**YeAM (Yet Another Merge)** is an implementation invariant of HCT and a standalone HF→HF merge scheme: it is not “just another SLERP/DARE/TILES” and not a cosmetic variant of averaging.

YeAM produces a standard HF output (safetensors + index) and supports:

- direct weight-to-weight merging
- targeted knowledge injection into a chosen model (knowledge distillation mode), aligned across multiple sources
- an additional Attention-layer merge as a second technique on top of YeAM
- merging smaller models into larger ones (scale-up merge) while keeping a compatible HF format

YeAM operates in a **real 4D formulation**: updates are encoded geometrically and aligned via ray intersections in parameter space. This produces controlled merges that preserve structure instead of collapsing into naive averaging.

---

## Previous Release: Vikra MixedPrc (MixP_4.9b_S)

### Short Description

12.25B Mistral-based language model
Hybrid mixed-precision merged GGUF quantization
Experimental anisotropic quantization regime

Full merge version (non-quantized):
https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP

GGUF quant:
https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf

---

## MixP_4.9b_S: details

### Architecture (for the MixP release)

| Parameter | Value |
|---|---|
| Architecture | Mistral-based |
| Params | ~12.25B |
| Layers | 40 |
| Hidden size | 5120 |
| FFN size | 14336 |
| Heads | 32 (8 KV heads, GQA) |
| Context | 1,024,000 |
| Vocab | 131,072 (Tekken BPE) |
| RoPE theta | 1,000,000 |

### MixP_4.9b_S — Quantization Scheme

A hybrid mixed-precision scheme with per-tensor type allocation.

| Tensor group | Quant type | BPW |
|---|---|---|
| token_embd, output | BF16 | 16 |
| attn_norm, ffn_norm, output_norm | F32 | 32 |
| attn_q | Q4_K | 4.5 |
| attn_k | Q5_K | 5.5 |
| attn_v | Q3_K | 3.44 |
| attn_output | Q4_K | 4.5 |
| ffn_gate | Q3_K | 3.44 |
| ffn_up | Q5_K | 5.5 |
| ffn_down | Q5_K / Q6_K | 5.5–6.56 |

Totals:

- Quantized layers only: ~4.89 BPW
- Full model average: ~6.11 BPW
- File size: ~8.71 GB

### Core idea of MixP

MixP is not “compress everything equally”.

It is **anisotropic quantization of information channels**:

- Q/K remain in higher precision
- V and gate are intentionally quantized down to Q3_K
- norms and the output layer remain in higher precision

This redistribution changes the numerical dynamics of the model:

- increased structural sparsification
- shifts in hidden norm distribution
- changes in logit entropy
- regime sensitivity

This is not a new architecture.
It is a modification of the numerical geometry of an existing one.

### Observed effects

- preservation of top-1 predictions on simple tasks
- increased entropy without collapse of maximum probability
- expansion of hidden norms on complex tasks
- mode bifurcation: simple tasks ≈ invariant, complex tasks sensitive

These effects are interpreted as a geometric shift of representations rather than a universal quality improvement.

### math_subattention (working hypothesis)

In experiments, an effect informally referred to as:

“math_subattention”

This describes:

- reduced contribution of small V components
- dominance of stronger residual directions
- increased inertia from previous token state
- reduced frequency of small logit switching

This is not an architectural claim.
It is a working hypothesis of dynamics emerging from Q3_K symmetric quantization.

The term is used descriptively.

### Perplexity

Measured on wikitext-2-raw-test (full):

| Model | Precision | PPL |
|---|---|---|
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 |
| Baseline BF16 | Full | 6.02 ± 0.03 |

---

## Roadmap

Planned subfamilies:

- MixP — Mixed Precision
- FullP — Full Precision variants
- HCT — multi-merge experiments
- S / M / L — different bit allocation regimes

All models in the family are called **Vikra**.
The repository is **Vikras**.

---

## Usage

```bash
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```

```bash
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```

---

## Closing

Vikras is a research project.

It explores how transformer behavior changes when we:

- compress
- merge
- alter numerical geometry

If you are interested in hidden space dynamics / regime sensitivity / anisotropic quantization — welcome.