Files
Vikras-MixP/README.md
ModelHub XC 7a7da18513 初始化项目,由ModelHub XC社区提供模型
Model: srs6901/Vikras-MixP
Source: Original Platform
2026-04-12 18:44:00 +08:00

464 lines
16 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
library_name: transformers
tags:
- quantized
- custom
- nonlinear
- mixed-precision
- merged
- MoK
language:
- ru
- en
metrics:
- perplexity
pipeline_tag: text-generation
---
# Vikras — Experimental Family of Language Models
[EN below](#vikras--experimental-family-of-language-models-en)
## Содержание
- [Коротко о проекте](#коротко-о-проекте)
- [Текущий релиз: HCT/YeAM](#текущий-релиз-hctyeam)
- [HCT (архитектура) / YeAM (инвариант реализации)](#hct-архитектура--yeam-инвариант-реализации)
- [Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)](#предыдущий-релиз-vikra-mixedprc-mixp_49b_s)
- [MixP_4.9b_S: детали](#mixp_49b_s-детали)
- [Планы развития](#планы-развития)
- [Использование](#использование)
- [Заключение](#заключение)
---
## Коротко о проекте
**Vikra** — экспериментальное семейство языковых моделей, исследующее влияние:
- геометрии представлений
- квантования
- гибридных мерджей
на численную динамику трансформеров.
Проект **Vikras** не ограничивается одной базой или одной архитектурой: это семейство моделей, объединённых идеей численной инвариантности эксперимента.
- **Vikra_%** — имя конкретной модели
- **Vikras** — семейство экспериментов
- **S / M / L** — степень агрессивности и распределения битности
- **MixP / FullP / HCT** — схемы и инварианты квантования/мерджей
---
## Текущий релиз: HCT/YeAM
### Релизы
- **Vikra-HCT-YeAM-PhiMma-1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-LLaGemma-1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf
- **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf
---
## HCT (архитектура) / YeAM (инвариант реализации)
**HCT** — архитектурный инвариант: практический способ собирать совместимые модели и производные релизы при переносе между базами/семействами.
**YeAM (Yet Another Merge)** — инвариант реализации HCT и самостоятельная схема мерджа HF→HF: это не «ещё один SLERP/DARE/TILES» и не косметическая вариация усреднения.
YeAM выдаёт стандартный HF-результат (safetensors + index) и поддерживает:
- прямой weight-to-weight мердж
- направленное добавление знаний в выбранную модель (knowledge distillation / knowledge injection), согласованное по нескольким источникам
- дополнительный мердж Attention-слоёв как отдельную технику поверх YeAM
- мердж меньших моделей в более крупные (scale-up merge) при сохранении совместимого HF-формата
Математически YeAM работает в **реальной 4D-постановке**: обновления кодируются геометрически и согласуются через пересечения лучей в пространстве параметров. Это даёт управляемый мердж с сохранением структуры и без вырождения в наивное усреднение.
---
## Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)
### Краткое описание
12.25B Mistral-based language model
Hybrid mixed-precision merged GGUF quantization
Экспериментальный режим анизотропного квантования
Полная версия мерджа (без квантования):
https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP
GGUF-квант:
https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf
---
## MixP_4.9b_S: детали
### Архитектура (для MixP релиза)
| Параметр | Значение |
|---|---|
| Architecture | Mistral-based |
| Params | ~12.25B |
| Layers | 40 |
| Hidden size | 5120 |
| FFN size | 14336 |
| Heads | 32 (8 KV heads, GQA) |
| Context | 1,024,000 |
| Vocab | 131,072 (Tekken BPE) |
| RoPE theta | 1,000,000 |
### MixP_4.9b_S — схема квантования
Гибридная mixed precision схема с покомпонентным распределением типов.
| Tensor group | Quant type | BPW |
|---|---|---|
| token_embd, output | BF16 | 16 |
| attn_norm, ffn_norm, output_norm | F32 | 32 |
| attn_q | Q4_K | 4.5 |
| attn_k | Q5_K | 5.5 |
| attn_v | Q3_K | 3.44 |
| attn_output | Q4_K | 4.5 |
| ffn_gate | Q3_K | 3.44 |
| ffn_up | Q5_K | 5.5 |
| ffn_down | Q5_K / Q6_K | 5.56.56 |
Итого:
- Quantized layers only: ~4.89 BPW
- Full model average: ~6.11 BPW
- File size: ~8.71 GB
### Ключевая идея MixP
MixP — это не «сжать всё одинаково».
Это **анизотропное квантование информационных каналов**:
• Q/K сохраняются в более высокой точности
• V и gate намеренно квантованы до Q3_K
• Нормы и выходной слой остаются в высокой точности
Такое распределение изменяет численную динамику модели:
• усиливается структурная sparsification
• меняется распределение норм скрытых представлений
• меняется энтропия логитов
• появляется режимная чувствительность
Это не новая архитектура.
Это изменение численной геометрии существующей.
### Наблюдаемые эффекты
- сохранение top-1 предсказаний на простых задачах
- рост entropy без разрушения максимальной вероятности
- расширение hidden norm на сложных задачах
- бифуркация режимов: простые задачи ≈ инвариантны, сложные — чувствительны
Эти эффекты описываются как геометрический сдвиг представлений, а не как универсальное улучшение качества.
### math_subattention (рабочая гипотеза)
В экспериментах наблюдается эффект, условно обозначенный как:
“math_subattention”
Под этим подразумевается:
• уменьшение вклада мелких компонент V
• усиление доминирующих направлений residual stream
• повышенная инерция предыдущего токена
• снижение частоты мелких переключений логитов
Это не claim о новой архитектуре.
Это рабочая гипотеза о динамике, возникающей при Q3_K symmetric quantization.
Термин используется описательно.
### Перплексия
Метрика измерена на wikitext-2-raw-test (full):
| Model | Precision | PPL |
|---|---|---|
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 |
| Baseline BF16 | Full | 6.02 ± 0.03 |
---
## Планы развития
Планируются подсемейства:
- MixP — Mixed Precision
- FullP — Full Precision версии
- HCT — multi-merge эксперименты
- S / M / L — варианты распределения битности
Все модели семейства называются **Vikra**.
Репозиторий — **Vikras**.
---
## Использование
```bash
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```
```bash
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```
---
## Заключение
Vikras — исследовательский проект.
Он исследует, как меняется поведение трансформера, если его:
- сжимать
- смешивать
- изменять численную геометрию
Если вам интересны hidden space dynamics / regime sensitivity / anisotropic quantization — добро пожаловать.
---
# Vikras — Experimental Family of Language Models (EN)
## Table of Contents
- [Project overview](#project-overview)
- [Current Release: HCT/YeAM](#current-release-hctyeam)
- [HCT (architecture) / YeAM (implementation invariant)](#hct-architecture--yeam-implementation-invariant)
- [Previous Release: Vikra MixedPrc (MixP_4.9b_S)](#previous-release-vikra-mixedprc-mixp_49b_s)
- [MixP_4.9b_S: details](#mixp_49b_s-details)
- [Roadmap](#roadmap)
- [Usage](#usage)
- [Closing](#closing)
---
## Project overview
**Vikra** is an experimental family of language models exploring how:
- representation geometry
- quantization
- hybrid merges
affect transformer numerical dynamics.
The **Vikras** project is not tied to a single base model or architecture.
It is a family of models unified by a numerical invariance philosophy of experimentation.
- **Vikra_%** — a specific model
- **Vikras** — the experimental family
- **S / M / L** — aggressiveness and bit allocation variants
- **MixP / FullP / HCT** — quantization / merge invariants
---
## Current Release: HCT/YeAM
### Releases
- **Vikra-HCT-YeAM-PhiMma-1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-LLaGemma-1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf
- **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf
---
## HCT (architecture) / YeAM (implementation invariant)
**HCT** is an architectural invariant.
In English: **Heterogeneous Compatibility Transfer** — a practical way to assemble compatible checkpoints and derived releases while moving across bases / model families.
**YeAM (Yet Another Merge)** is an implementation invariant of HCT and a standalone HF→HF merge scheme: it is not “just another SLERP/DARE/TILES” and not a cosmetic variant of averaging.
YeAM produces a standard HF output (safetensors + index) and supports:
- direct weight-to-weight merging
- targeted knowledge injection into a chosen model (knowledge distillation mode), aligned across multiple sources
- an additional Attention-layer merge as a second technique on top of YeAM
- merging smaller models into larger ones (scale-up merge) while keeping a compatible HF format
YeAM operates in a **real 4D formulation**: updates are encoded geometrically and aligned via ray intersections in parameter space. This produces controlled merges that preserve structure instead of collapsing into naive averaging.
---
## Previous Release: Vikra MixedPrc (MixP_4.9b_S)
### Short Description
12.25B Mistral-based language model
Hybrid mixed-precision merged GGUF quantization
Experimental anisotropic quantization regime
Full merge version (non-quantized):
https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP
GGUF quant:
https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf
---
## MixP_4.9b_S: details
### Architecture (for the MixP release)
| Parameter | Value |
|---|---|
| Architecture | Mistral-based |
| Params | ~12.25B |
| Layers | 40 |
| Hidden size | 5120 |
| FFN size | 14336 |
| Heads | 32 (8 KV heads, GQA) |
| Context | 1,024,000 |
| Vocab | 131,072 (Tekken BPE) |
| RoPE theta | 1,000,000 |
### MixP_4.9b_S — Quantization Scheme
A hybrid mixed-precision scheme with per-tensor type allocation.
| Tensor group | Quant type | BPW |
|---|---|---|
| token_embd, output | BF16 | 16 |
| attn_norm, ffn_norm, output_norm | F32 | 32 |
| attn_q | Q4_K | 4.5 |
| attn_k | Q5_K | 5.5 |
| attn_v | Q3_K | 3.44 |
| attn_output | Q4_K | 4.5 |
| ffn_gate | Q3_K | 3.44 |
| ffn_up | Q5_K | 5.5 |
| ffn_down | Q5_K / Q6_K | 5.56.56 |
Totals:
- Quantized layers only: ~4.89 BPW
- Full model average: ~6.11 BPW
- File size: ~8.71 GB
### Core idea of MixP
MixP is not “compress everything equally”.
It is **anisotropic quantization of information channels**:
- Q/K remain in higher precision
- V and gate are intentionally quantized down to Q3_K
- norms and the output layer remain in higher precision
This redistribution changes the numerical dynamics of the model:
- increased structural sparsification
- shifts in hidden norm distribution
- changes in logit entropy
- regime sensitivity
This is not a new architecture.
It is a modification of the numerical geometry of an existing one.
### Observed effects
- preservation of top-1 predictions on simple tasks
- increased entropy without collapse of maximum probability
- expansion of hidden norms on complex tasks
- mode bifurcation: simple tasks ≈ invariant, complex tasks sensitive
These effects are interpreted as a geometric shift of representations rather than a universal quality improvement.
### math_subattention (working hypothesis)
In experiments, an effect informally referred to as:
“math_subattention”
This describes:
- reduced contribution of small V components
- dominance of stronger residual directions
- increased inertia from previous token state
- reduced frequency of small logit switching
This is not an architectural claim.
It is a working hypothesis of dynamics emerging from Q3_K symmetric quantization.
The term is used descriptively.
### Perplexity
Measured on wikitext-2-raw-test (full):
| Model | Precision | PPL |
|---|---|---|
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 |
| Baseline BF16 | Full | 6.02 ± 0.03 |
---
## Roadmap
Planned subfamilies:
- MixP — Mixed Precision
- FullP — Full Precision variants
- HCT — multi-merge experiments
- S / M / L — different bit allocation regimes
All models in the family are called **Vikra**.
The repository is **Vikras**.
---
## Usage
```bash
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```
```bash
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```
---
## Closing
Vikras is a research project.
It explores how transformer behavior changes when we:
- compress
- merge
- alter numerical geometry
If you are interested in hidden space dynamics / regime sensitivity / anisotropic quantization — welcome.