From 5a0a4d22ea88155146b244885c6ac96fdc9bf8cc Mon Sep 17 00:00:00 2001 From: anastasiia Date: Wed, 22 Oct 2025 19:25:04 +0000 Subject: [PATCH] Update README.md --- README.md | 35 +++++++++++++++++++++++++++++++++++ 1 file changed, 35 insertions(+) diff --git a/README.md b/README.md index 05a2a53..3877df0 100644 --- a/README.md +++ b/README.md @@ -7,6 +7,41 @@ base_model: - Qwen/Qwen3-8B pipeline_tag: text-generation --- +A-vibe это большая языковая модель, созданная Авито Тех, дочерней технологической компанией Авито, на базе открытой модели Qwen3-8B-Base. +Мы адаптировали Qwen3-8B-Base под русский язык и домен Авито с помощью нескольких шагов +1. Сделали свой токенизатор, оптимальный для русского и английского языка +2. Подменили оригинальный токенизатор Qwen3-8B-Base на собственный токенизатор +3. Обучили полученную модель на большом корпусе данных +4. Провели SFT этап +5. Сделали RL + +В результате нам удалось получить модель, которая выигрывает instruct версию Qwen3-8B по многим русскоязычным бенчмаркам. +На SFT и RL этапе нам удалось научить модель Function Calling и улучшить ее навыки в решении математических задач. + +||Qwen3-8B|A-vibe| +|:---|:---|:---| +|mmlu_ru|0,701|**0,718**| +|mmlu_en|0,730|**0,752**| +|gpqa_diamond_ru|0,318|**0,343**| +|gpqa_diamond_en|**0,369**|0,318| +|shlepa|0,454|**0,486**| +|baby mmlu|0,682|**0,766**| +|math_500_ru|0,546|**0,686**| +|math_500_en|**0,736**|0,714| +|gsm8k_en|**0,927**|0,910| +|DOoM|0,240|**0,280**| +|ru_facts|**0,724**|0,718| +|rublimp|0,916|**0,930**| +|ru_drop|0,318|**0,394**| +|BFCL_V3_en|**60,2%**|58,63%| +|BFCL_V3_ru|**50.72%**|49.00%| +|MERA_text|0,510|**0,618**| +|MERA CODE private total|0,336|**0,367**| + + +В токенизаторе A-vibe плотность токенизации выше, чем у Qwen3-8B поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров. +Кроме того, размер самой модели сократился до 7.9B при 8.2B у Qwen3-8B. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 15-25% в сравнении с исходной Qwen3-8B + # Quickstart Ниже представлен фрагмент кода, демонстрирующий, как загрузить токенизатор и модель, а также как сгенерировать ответ. ```python