Update README.md

2025-10-22 19:25:04 +00:00
parent 46be18874d
commit 5a0a4d22ea
1 changed files with 35 additions and 0 deletions
--- a/README.md
+++ b/README.md
@@ -7,6 +7,41 @@ base_model:
 - Qwen/Qwen3-8B
 pipeline_tag: text-generation
 ---
 A-vibe это большая языковая модель, созданная Авито Тех, дочерней технологической компанией Авито, на базе открытой модели Qwen3-8B-Base.
 Мы адаптировали Qwen3-8B-Base под русский язык и домен Авито с помощью нескольких шагов
 1. Сделали свой токенизатор, оптимальный для русского и английского языка
 2. Подменили оригинальный токенизатор Qwen3-8B-Base на собственный токенизатор
 3. Обучили полученную модель на большом корпусе данных
 4. Провели SFT этап
 5. Сделали RL
 В результате нам удалось получить модель, которая выигрывает instruct версию Qwen3-8B по многим русскоязычным бенчмаркам. 
 На SFT и RL этапе нам удалось научить модель Function Calling и улучшить ее навыки в решении математических задач.
 ||Qwen3-8B|A-vibe|
 |:---|:---|:---|
 |mmlu_ru|0,701|**0,718**|
 |mmlu_en|0,730|**0,752**|
 |gpqa_diamond_ru|0,318|**0,343**|
 |gpqa_diamond_en|**0,369**|0,318|
 |shlepa|0,454|**0,486**|
 |baby mmlu|0,682|**0,766**|
 |math_500_ru|0,546|**0,686**|
 |math_500_en|**0,736**|0,714|
 |gsm8k_en|**0,927**|0,910|
 |DOoM|0,240|**0,280**|
 |ru_facts|**0,724**|0,718|
 |rublimp|0,916|**0,930**|
 |ru_drop|0,318|**0,394**|
 |BFCL_V3_en|**60,2%**|58,63%|
 |BFCL_V3_ru|**50.72%**|49.00%|
 |MERA_text|0,510|**0,618**|
 |MERA CODE private total|0,336|**0,367**|
 В токенизаторе A-vibe плотность токенизации выше, чем у Qwen3-8B поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров.
 Кроме того, размер самой модели сократился до 7.9B при 8.2B у Qwen3-8B. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 15-25% в сравнении с исходной Qwen3-8B
 # Quickstart
 Ниже представлен фрагмент кода, демонстрирующий, как загрузить токенизатор и модель, а также как сгенерировать ответ.
 ```python