464 lines
16 KiB
Markdown
464 lines
16 KiB
Markdown
---
|
||
library_name: transformers
|
||
tags:
|
||
- quantized
|
||
- custom
|
||
- nonlinear
|
||
- mixed-precision
|
||
- merged
|
||
- MoK
|
||
language:
|
||
- ru
|
||
- en
|
||
metrics:
|
||
- perplexity
|
||
pipeline_tag: text-generation
|
||
---
|
||
|
||
# Vikras — Experimental Family of Language Models
|
||
|
||
[EN below](#vikras--experimental-family-of-language-models-en)
|
||
|
||
## Содержание
|
||
|
||
- [Коротко о проекте](#коротко-о-проекте)
|
||
- [Текущий релиз: HCT/YeAM](#текущий-релиз-hctyeam)
|
||
- [HCT (архитектура) / YeAM (инвариант реализации)](#hct-архитектура--yeam-инвариант-реализации)
|
||
- [Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)](#предыдущий-релиз-vikra-mixedprc-mixp_49b_s)
|
||
- [MixP_4.9b_S: детали](#mixp_49b_s-детали)
|
||
- [Планы развития](#планы-развития)
|
||
- [Использование](#использование)
|
||
- [Заключение](#заключение)
|
||
|
||
---
|
||
|
||
## Коротко о проекте
|
||
|
||
**Vikra** — экспериментальное семейство языковых моделей, исследующее влияние:
|
||
|
||
- геометрии представлений
|
||
- квантования
|
||
- гибридных мерджей
|
||
|
||
на численную динамику трансформеров.
|
||
|
||
Проект **Vikras** не ограничивается одной базой или одной архитектурой: это семейство моделей, объединённых идеей численной инвариантности эксперимента.
|
||
|
||
- **Vikra_%** — имя конкретной модели
|
||
- **Vikras** — семейство экспериментов
|
||
- **S / M / L** — степень агрессивности и распределения битности
|
||
- **MixP / FullP / HCT** — схемы и инварианты квантования/мерджей
|
||
|
||
---
|
||
|
||
## Текущий релиз: HCT/YeAM
|
||
|
||
### Релизы
|
||
|
||
- **Vikra-HCT-YeAM-PhiMma-1B**
|
||
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B
|
||
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf
|
||
- **Vikra-HCT-YeAM-LLaGemma-1B**
|
||
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B
|
||
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf
|
||
- **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B**
|
||
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
|
||
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf
|
||
- **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B**
|
||
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
|
||
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf
|
||
|
||
---
|
||
|
||
## HCT (архитектура) / YeAM (инвариант реализации)
|
||
|
||
**HCT** — архитектурный инвариант: практический способ собирать совместимые модели и производные релизы при переносе между базами/семействами.
|
||
|
||
**YeAM (Yet Another Merge)** — инвариант реализации HCT и самостоятельная схема мерджа HF→HF: это не «ещё один SLERP/DARE/TILES» и не косметическая вариация усреднения.
|
||
|
||
YeAM выдаёт стандартный HF-результат (safetensors + index) и поддерживает:
|
||
|
||
- прямой weight-to-weight мердж
|
||
- направленное добавление знаний в выбранную модель (knowledge distillation / knowledge injection), согласованное по нескольким источникам
|
||
- дополнительный мердж Attention-слоёв как отдельную технику поверх YeAM
|
||
- мердж меньших моделей в более крупные (scale-up merge) при сохранении совместимого HF-формата
|
||
|
||
Математически YeAM работает в **реальной 4D-постановке**: обновления кодируются геометрически и согласуются через пересечения лучей в пространстве параметров. Это даёт управляемый мердж с сохранением структуры и без вырождения в наивное усреднение.
|
||
|
||
---
|
||
|
||
## Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)
|
||
|
||
### Краткое описание
|
||
|
||
12.25B Mistral-based language model
|
||
Hybrid mixed-precision merged GGUF quantization
|
||
Экспериментальный режим анизотропного квантования
|
||
|
||
Полная версия мерджа (без квантования):
|
||
https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP
|
||
|
||
GGUF-квант:
|
||
https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf
|
||
|
||
---
|
||
|
||
## MixP_4.9b_S: детали
|
||
|
||
### Архитектура (для MixP релиза)
|
||
|
||
| Параметр | Значение |
|
||
|---|---|
|
||
| Architecture | Mistral-based |
|
||
| Params | ~12.25B |
|
||
| Layers | 40 |
|
||
| Hidden size | 5120 |
|
||
| FFN size | 14336 |
|
||
| Heads | 32 (8 KV heads, GQA) |
|
||
| Context | 1,024,000 |
|
||
| Vocab | 131,072 (Tekken BPE) |
|
||
| RoPE theta | 1,000,000 |
|
||
|
||
### MixP_4.9b_S — схема квантования
|
||
|
||
Гибридная mixed precision схема с покомпонентным распределением типов.
|
||
|
||
| Tensor group | Quant type | BPW |
|
||
|---|---|---|
|
||
| token_embd, output | BF16 | 16 |
|
||
| attn_norm, ffn_norm, output_norm | F32 | 32 |
|
||
| attn_q | Q4_K | 4.5 |
|
||
| attn_k | Q5_K | 5.5 |
|
||
| attn_v | Q3_K | 3.44 |
|
||
| attn_output | Q4_K | 4.5 |
|
||
| ffn_gate | Q3_K | 3.44 |
|
||
| ffn_up | Q5_K | 5.5 |
|
||
| ffn_down | Q5_K / Q6_K | 5.5–6.56 |
|
||
|
||
Итого:
|
||
|
||
- Quantized layers only: ~4.89 BPW
|
||
- Full model average: ~6.11 BPW
|
||
- File size: ~8.71 GB
|
||
|
||
### Ключевая идея MixP
|
||
|
||
MixP — это не «сжать всё одинаково».
|
||
|
||
Это **анизотропное квантование информационных каналов**:
|
||
|
||
• Q/K сохраняются в более высокой точности
|
||
• V и gate намеренно квантованы до Q3_K
|
||
• Нормы и выходной слой остаются в высокой точности
|
||
|
||
Такое распределение изменяет численную динамику модели:
|
||
|
||
• усиливается структурная sparsification
|
||
• меняется распределение норм скрытых представлений
|
||
• меняется энтропия логитов
|
||
• появляется режимная чувствительность
|
||
|
||
Это не новая архитектура.
|
||
Это изменение численной геометрии существующей.
|
||
|
||
### Наблюдаемые эффекты
|
||
|
||
- сохранение top-1 предсказаний на простых задачах
|
||
- рост entropy без разрушения максимальной вероятности
|
||
- расширение hidden norm на сложных задачах
|
||
- бифуркация режимов: простые задачи ≈ инвариантны, сложные — чувствительны
|
||
|
||
Эти эффекты описываются как геометрический сдвиг представлений, а не как универсальное улучшение качества.
|
||
|
||
|
||
### math_subattention (рабочая гипотеза)
|
||
|
||
В экспериментах наблюдается эффект, условно обозначенный как:
|
||
|
||
“math_subattention”
|
||
|
||
Под этим подразумевается:
|
||
|
||
• уменьшение вклада мелких компонент V
|
||
• усиление доминирующих направлений residual stream
|
||
• повышенная инерция предыдущего токена
|
||
• снижение частоты мелких переключений логитов
|
||
|
||
Это не claim о новой архитектуре.
|
||
Это рабочая гипотеза о динамике, возникающей при Q3_K symmetric quantization.
|
||
|
||
Термин используется описательно.
|
||
|
||
### Перплексия
|
||
|
||
Метрика измерена на wikitext-2-raw-test (full):
|
||
|
||
| Model | Precision | PPL |
|
||
|---|---|---|
|
||
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 |
|
||
| Baseline BF16 | Full | 6.02 ± 0.03 |
|
||
|
||
---
|
||
|
||
## Планы развития
|
||
|
||
Планируются подсемейства:
|
||
|
||
- MixP — Mixed Precision
|
||
- FullP — Full Precision версии
|
||
- HCT — multi-merge эксперименты
|
||
- S / M / L — варианты распределения битности
|
||
|
||
Все модели семейства называются **Vikra**.
|
||
Репозиторий — **Vikras**.
|
||
|
||
---
|
||
|
||
## Использование
|
||
|
||
```bash
|
||
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
|
||
```
|
||
|
||
```bash
|
||
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
|
||
```
|
||
|
||
---
|
||
|
||
## Заключение
|
||
|
||
Vikras — исследовательский проект.
|
||
|
||
Он исследует, как меняется поведение трансформера, если его:
|
||
|
||
- сжимать
|
||
- смешивать
|
||
- изменять численную геометрию
|
||
|
||
Если вам интересны hidden space dynamics / regime sensitivity / anisotropic quantization — добро пожаловать.
|
||
|
||
---
|
||
|
||
# Vikras — Experimental Family of Language Models (EN)
|
||
|
||
## Table of Contents
|
||
|
||
- [Project overview](#project-overview)
|
||
- [Current Release: HCT/YeAM](#current-release-hctyeam)
|
||
- [HCT (architecture) / YeAM (implementation invariant)](#hct-architecture--yeam-implementation-invariant)
|
||
- [Previous Release: Vikra MixedPrc (MixP_4.9b_S)](#previous-release-vikra-mixedprc-mixp_49b_s)
|
||
- [MixP_4.9b_S: details](#mixp_49b_s-details)
|
||
- [Roadmap](#roadmap)
|
||
- [Usage](#usage)
|
||
- [Closing](#closing)
|
||
|
||
---
|
||
|
||
## Project overview
|
||
|
||
**Vikra** is an experimental family of language models exploring how:
|
||
|
||
- representation geometry
|
||
- quantization
|
||
- hybrid merges
|
||
|
||
affect transformer numerical dynamics.
|
||
|
||
The **Vikras** project is not tied to a single base model or architecture.
|
||
It is a family of models unified by a numerical invariance philosophy of experimentation.
|
||
|
||
- **Vikra_%** — a specific model
|
||
- **Vikras** — the experimental family
|
||
- **S / M / L** — aggressiveness and bit allocation variants
|
||
- **MixP / FullP / HCT** — quantization / merge invariants
|
||
|
||
---
|
||
|
||
## Current Release: HCT/YeAM
|
||
|
||
### Releases
|
||
|
||
- **Vikra-HCT-YeAM-PhiMma-1B**
|
||
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B
|
||
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf
|
||
- **Vikra-HCT-YeAM-LLaGemma-1B**
|
||
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B
|
||
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf
|
||
- **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B**
|
||
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
|
||
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf
|
||
- **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B**
|
||
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
|
||
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf
|
||
|
||
---
|
||
|
||
## HCT (architecture) / YeAM (implementation invariant)
|
||
|
||
**HCT** is an architectural invariant.
|
||
In English: **Heterogeneous Compatibility Transfer** — a practical way to assemble compatible checkpoints and derived releases while moving across bases / model families.
|
||
|
||
**YeAM (Yet Another Merge)** is an implementation invariant of HCT and a standalone HF→HF merge scheme: it is not “just another SLERP/DARE/TILES” and not a cosmetic variant of averaging.
|
||
|
||
YeAM produces a standard HF output (safetensors + index) and supports:
|
||
|
||
- direct weight-to-weight merging
|
||
- targeted knowledge injection into a chosen model (knowledge distillation mode), aligned across multiple sources
|
||
- an additional Attention-layer merge as a second technique on top of YeAM
|
||
- merging smaller models into larger ones (scale-up merge) while keeping a compatible HF format
|
||
|
||
YeAM operates in a **real 4D formulation**: updates are encoded geometrically and aligned via ray intersections in parameter space. This produces controlled merges that preserve structure instead of collapsing into naive averaging.
|
||
|
||
---
|
||
|
||
## Previous Release: Vikra MixedPrc (MixP_4.9b_S)
|
||
|
||
### Short Description
|
||
|
||
12.25B Mistral-based language model
|
||
Hybrid mixed-precision merged GGUF quantization
|
||
Experimental anisotropic quantization regime
|
||
|
||
Full merge version (non-quantized):
|
||
https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP
|
||
|
||
GGUF quant:
|
||
https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf
|
||
|
||
---
|
||
|
||
## MixP_4.9b_S: details
|
||
|
||
### Architecture (for the MixP release)
|
||
|
||
| Parameter | Value |
|
||
|---|---|
|
||
| Architecture | Mistral-based |
|
||
| Params | ~12.25B |
|
||
| Layers | 40 |
|
||
| Hidden size | 5120 |
|
||
| FFN size | 14336 |
|
||
| Heads | 32 (8 KV heads, GQA) |
|
||
| Context | 1,024,000 |
|
||
| Vocab | 131,072 (Tekken BPE) |
|
||
| RoPE theta | 1,000,000 |
|
||
|
||
### MixP_4.9b_S — Quantization Scheme
|
||
|
||
A hybrid mixed-precision scheme with per-tensor type allocation.
|
||
|
||
| Tensor group | Quant type | BPW |
|
||
|---|---|---|
|
||
| token_embd, output | BF16 | 16 |
|
||
| attn_norm, ffn_norm, output_norm | F32 | 32 |
|
||
| attn_q | Q4_K | 4.5 |
|
||
| attn_k | Q5_K | 5.5 |
|
||
| attn_v | Q3_K | 3.44 |
|
||
| attn_output | Q4_K | 4.5 |
|
||
| ffn_gate | Q3_K | 3.44 |
|
||
| ffn_up | Q5_K | 5.5 |
|
||
| ffn_down | Q5_K / Q6_K | 5.5–6.56 |
|
||
|
||
Totals:
|
||
|
||
- Quantized layers only: ~4.89 BPW
|
||
- Full model average: ~6.11 BPW
|
||
- File size: ~8.71 GB
|
||
|
||
### Core idea of MixP
|
||
|
||
MixP is not “compress everything equally”.
|
||
|
||
It is **anisotropic quantization of information channels**:
|
||
|
||
- Q/K remain in higher precision
|
||
- V and gate are intentionally quantized down to Q3_K
|
||
- norms and the output layer remain in higher precision
|
||
|
||
This redistribution changes the numerical dynamics of the model:
|
||
|
||
- increased structural sparsification
|
||
- shifts in hidden norm distribution
|
||
- changes in logit entropy
|
||
- regime sensitivity
|
||
|
||
This is not a new architecture.
|
||
It is a modification of the numerical geometry of an existing one.
|
||
|
||
### Observed effects
|
||
|
||
- preservation of top-1 predictions on simple tasks
|
||
- increased entropy without collapse of maximum probability
|
||
- expansion of hidden norms on complex tasks
|
||
- mode bifurcation: simple tasks ≈ invariant, complex tasks sensitive
|
||
|
||
These effects are interpreted as a geometric shift of representations rather than a universal quality improvement.
|
||
|
||
### math_subattention (working hypothesis)
|
||
|
||
In experiments, an effect informally referred to as:
|
||
|
||
“math_subattention”
|
||
|
||
This describes:
|
||
|
||
- reduced contribution of small V components
|
||
- dominance of stronger residual directions
|
||
- increased inertia from previous token state
|
||
- reduced frequency of small logit switching
|
||
|
||
This is not an architectural claim.
|
||
It is a working hypothesis of dynamics emerging from Q3_K symmetric quantization.
|
||
|
||
The term is used descriptively.
|
||
|
||
### Perplexity
|
||
|
||
Measured on wikitext-2-raw-test (full):
|
||
|
||
| Model | Precision | PPL |
|
||
|---|---|---|
|
||
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 |
|
||
| Baseline BF16 | Full | 6.02 ± 0.03 |
|
||
|
||
---
|
||
|
||
## Roadmap
|
||
|
||
Planned subfamilies:
|
||
|
||
- MixP — Mixed Precision
|
||
- FullP — Full Precision variants
|
||
- HCT — multi-merge experiments
|
||
- S / M / L — different bit allocation regimes
|
||
|
||
All models in the family are called **Vikra**.
|
||
The repository is **Vikras**.
|
||
|
||
---
|
||
|
||
## Usage
|
||
|
||
```bash
|
||
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
|
||
```
|
||
|
||
```bash
|
||
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
|
||
```
|
||
|
||
---
|
||
|
||
## Closing
|
||
|
||
Vikras is a research project.
|
||
|
||
It explores how transformer behavior changes when we:
|
||
|
||
- compress
|
||
- merge
|
||
- alter numerical geometry
|
||
|
||
If you are interested in hidden space dynamics / regime sensitivity / anisotropic quantization — welcome.
|