Files
QVikhr-3-8B-Instruction/README.md
ModelHub XC fb8c80b425 初始化项目,由ModelHub XC社区提供模型
Model: Vikhrmodels/QVikhr-3-8B-Instruction
Source: Original Platform
2026-05-31 13:19:12 +08:00

130 lines
6.3 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
library_name: transformers
model_name: QVikhr-3-8B-Instruction
base_model:
- Qwen/Qwen3-8B
language:
- ru
- en
license: apache-2.0
datasets:
- Vikhrmodels/GrandMaster2
---
# QVikhr-3-8B-Instruction
Инструктивная модель на основе **Qwen/Qwen3-8B**, обученная на русскоязычном датасете **GrandMaster2**. Создана для высокоэффективной обработки текстов на русском и английском языках, обеспечивая точные ответы и быстрое выполнение задач.
## Quantized variants:
- GGUF [Vikhrmodels/QVikhr-3-8B-Instruction-GGUF](https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF)
- MLX
- 4 bit [Vikhrmodels/QVikhr-3-8B-Instruction-MLX_4bit](https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-MLX_4bit)
- 8 bit [Vikhrmodels/QVikhr-3-8B-Instruction-MLX_8bit](https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-MLX_8bit)
## Особенности:
- 📚 Основа / Base: [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)
- 🇷🇺 Специализация / Specialization: **RU**
- 💾 Датасет / Dataset: [GrandMaster2](https://huggingface.co/datasets/Vikhrmodels/GrandMaster2)
- 🌍 Поддержка / Support: **Bilingual RU/EN**
## Попробовать:
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1DvostFGC_7jnziSUaZ0gJnADhOi5lrSD?usp=sharing)
## DOoM
| model | score | math_score |physics_score |
|------------------------------------------|-------|-----------|--------------|
| gpt-4.1 |0.466 |0.584 |0.347 |
| QVikhr-3-8B-Instruction |0.445 |0.563 |0.327 |
| Qwen3-8B |0.417 |0.538 |0.296 |
| Gemma 3 27B |0.4 |0.474 |0.327 |
## Описание / Description:
**QVikhr-3-8B-Instruction** — мощная языковая модель, обученная на датасете **GrandMaster-2**, поддерживает генерацию инструкций, контекстные ответы и анализ текста на русском языке. Эта модель оптимизирована для задач инструктивного обучения и обработки текстов. Она подходит для использования в профессиональной среде, а также для интеграции в пользовательские приложения и сервисы.
Модель построена на базе архитектуры [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) и была дообучена на большом русскоязычном датасете [GrandMaster2](https://huggingface.co/datasets/Vikhrmodels/GrandMaster2). Такое специализированное обучение значительно улучшило её способность генерировать точные, контекстно-зависимые ответы и быстро выполнять задачи на русском языке.
Тесты производительности подтверждают значительные улучшения модели. В рейтинге «DOoM» QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B, и приближается к модели gpt-4.1. Это доказывает её превосходные возможности для решения задач связанные с математикой и физикой на русском языке.
## Обучение:
**QVikhr-3-8B-Instruction** была создана с использованием метода SFT (Supervised Fine-Tuning). Мы использовали синтетический датасет **GrandMaster-2**.
## Пример кода для запуска:
**Рекомендуемая температура для генерации: 0.3**.
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
# Load the model and tokenizer
model_name = "Vikhrmodels/QVikhr-3-8B-Instruction"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# Prepare the input text
input_text = "Напиши краткое описание книги Гарри Поттер."
messages = [
{"role": "user", "content": input_text},
]
# Tokenize and generate text
input_ids = tokenizer.apply_chat_template(messages, truncation=True, add_generation_prompt=True, return_tensors="pt")
output = model.generate(
input_ids,
max_length=4096,
temperature=0.3,
num_return_sequences=1,
no_repeat_ngram_size=2,
top_k=50,
top_p=0.95,
)
# Decode and print result
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
````
### Авторы
- Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), [Vikhr Team](https://t.me/vikhrlabs)
- Nikolay Kompanets, [LakoMoor](https://t.me/lakomoordev), [Vikhr Team](https://t.me/vikhrlabs)
- Konstantin Korolev, [Vikhr Team](https://t.me/vikhrlabs)
- Aleksandr Nikolich, [Vikhr Team](https://t.me/vikhrlabs)
### Ссылки
[Vikhr](https://vikhr.org)
[Vikhr Telegram](https://t.me/vikhrlabs)
[Донаты](https://www.tbank.ru/cf/3W1Ko1rj8ah)
### Как цитировать
```bibtex
@inproceedings{nikolich2024vikhr,
title={Vikhr: Advancing Open-Source Bilingual Instruction-Following Large Language Models for Russian and English},
author={Aleksandr Nikolich and Konstantin Korolev and Sergei Bratchikov and Nikolay Kompanets and Igor Kiselev and Artem Shelmanov},
booktitle={Proceedings of the 4th Workshop on Multilingual Representation Learning (MRL) @ EMNLP-2024},
year={2024},
publisher={Association for Computational Linguistics},
url={[https://arxiv.org/pdf/2405.13929](https://arxiv.org/pdf/2405.13929)}
}
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}
```