Update README.md
This commit is contained in:
35
README.md
35
README.md
@@ -7,6 +7,41 @@ base_model:
|
|||||||
- Qwen/Qwen3-8B
|
- Qwen/Qwen3-8B
|
||||||
pipeline_tag: text-generation
|
pipeline_tag: text-generation
|
||||||
---
|
---
|
||||||
|
A-vibe это большая языковая модель, созданная Авито Тех, дочерней технологической компанией Авито, на базе открытой модели Qwen3-8B-Base.
|
||||||
|
Мы адаптировали Qwen3-8B-Base под русский язык и домен Авито с помощью нескольких шагов
|
||||||
|
1. Сделали свой токенизатор, оптимальный для русского и английского языка
|
||||||
|
2. Подменили оригинальный токенизатор Qwen3-8B-Base на собственный токенизатор
|
||||||
|
3. Обучили полученную модель на большом корпусе данных
|
||||||
|
4. Провели SFT этап
|
||||||
|
5. Сделали RL
|
||||||
|
|
||||||
|
В результате нам удалось получить модель, которая выигрывает instruct версию Qwen3-8B по многим русскоязычным бенчмаркам.
|
||||||
|
На SFT и RL этапе нам удалось научить модель Function Calling и улучшить ее навыки в решении математических задач.
|
||||||
|
|
||||||
|
||Qwen3-8B|A-vibe|
|
||||||
|
|:---|:---|:---|
|
||||||
|
|mmlu_ru|0,701|**0,718**|
|
||||||
|
|mmlu_en|0,730|**0,752**|
|
||||||
|
|gpqa_diamond_ru|0,318|**0,343**|
|
||||||
|
|gpqa_diamond_en|**0,369**|0,318|
|
||||||
|
|shlepa|0,454|**0,486**|
|
||||||
|
|baby mmlu|0,682|**0,766**|
|
||||||
|
|math_500_ru|0,546|**0,686**|
|
||||||
|
|math_500_en|**0,736**|0,714|
|
||||||
|
|gsm8k_en|**0,927**|0,910|
|
||||||
|
|DOoM|0,240|**0,280**|
|
||||||
|
|ru_facts|**0,724**|0,718|
|
||||||
|
|rublimp|0,916|**0,930**|
|
||||||
|
|ru_drop|0,318|**0,394**|
|
||||||
|
|BFCL_V3_en|**60,2%**|58,63%|
|
||||||
|
|BFCL_V3_ru|**50.72%**|49.00%|
|
||||||
|
|MERA_text|0,510|**0,618**|
|
||||||
|
|MERA CODE private total|0,336|**0,367**|
|
||||||
|
|
||||||
|
|
||||||
|
В токенизаторе A-vibe плотность токенизации выше, чем у Qwen3-8B поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров.
|
||||||
|
Кроме того, размер самой модели сократился до 7.9B при 8.2B у Qwen3-8B. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 15-25% в сравнении с исходной Qwen3-8B
|
||||||
|
|
||||||
# Quickstart
|
# Quickstart
|
||||||
Ниже представлен фрагмент кода, демонстрирующий, как загрузить токенизатор и модель, а также как сгенерировать ответ.
|
Ниже представлен фрагмент кода, демонстрирующий, как загрузить токенизатор и модель, а также как сгенерировать ответ.
|
||||||
```python
|
```python
|
||||||
|
|||||||
Reference in New Issue
Block a user