初始化项目，由ModelHub XC社区提供模型

Model: Roflmax/bge-m3-russian-legal Source: Original Platform
2026-05-14 18:00:56 +08:00
commit 361fe56caf
12 changed files with 571 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/1_Pooling/config.json
+++ b/1_Pooling/config.json
@@ -0,0 +1,10 @@
 {
    "word_embedding_dimension": 1024,
    "pooling_mode_cls_token": true,
    "pooling_mode_mean_tokens": false,
    "pooling_mode_max_tokens": false,
    "pooling_mode_mean_sqrt_len_tokens": false,
    "pooling_mode_weightedmean_tokens": false,
    "pooling_mode_lasttoken": false,
    "include_prompt": true
 }
--- a/BGE_M3_EXPERIMENTS_RESULTS.md
+++ b/BGE_M3_EXPERIMENTS_RESULTS.md
@@ -0,0 +1,240 @@
 # Результаты экспериментов с BGE-M3 на юридических документах
 **Дата**: 2025-11-11  
 **Модель**: BAAI/bge-m3  
 **Датасет**: Русские юридические документы (court_law, other_law, reg_law)
 ---
 ## 📊 Сводная таблица результатов
 | Эксперимент | Датасет | Размер | Префиксы | Recall@1 | **Recall@5** | Recall@10 | Время обучения |
 |-------------|---------|--------|----------|----------|--------------|-----------|----------------|
 | **Эксперимент 1** | Оригинальный | 87,878 | ❌ НЕТ | 68.2% | 91.7% | 95.8% | ~43 мин |
 | **Эксперимент 2** | Без дубликатов | 26,734 | ❌ НЕТ | 76.9% | **93.6%** | 95.3% | ~13 мин |
 | **Эксперимент 3** 🏆 | Без дубликатов | 26,734 | ✅ **ДА** | 76.9% | **93.8%** | 95.5% | ~13 мин |
 ### 🏆 ПОБЕДИТЕЛЬ: Эксперимент 3
 **Лучшая конфигурация:**
 - Датасет **БЕЗ дубликатов** (26,734 записей)
 - **С префиксами BGE-M3**
 - Query prefix: `"Represent this sentence for searching relevant passages: "`
 - Passage prefix: `""` (пустой)
 ---
 ## 📈 Детальные результаты
 ### Эксперимент 1: Baseline (оригинальный датасет без префиксов)
 **Конфигурация:**
 - Датасет: train.jsonl (87,878 записей)
 - Префиксы: Отключены
 - Модель: BAAI/bge-m3
 - Output: `models/bge-m3-exp1-original-no-prefixes`
 **Результаты (validation set):**
 | Датасет | Recall@1 | Recall@5 | Recall@10 |
 |---------|----------|----------|-----------|
 | court_law | 56.8% | 82.9% | 89.5% |
 | other_law | 84.2% | 96.4% | 97.0% |
 | reg_law | 63.7% | 95.7% | 98.8% |
 | **Среднее** | **68.2%** | **91.7%** | **95.8%** |
 **Время обучения:** 42 минуты 47 секунд
 ---
 ### Эксперимент 2: Датасет без дубликатов без префиксов
 **Конфигурация:**
 - Датасет: Без дубликатов по `chunk_text` (26,734 записей)
 - Удалено дубликатов: 61,144 (69.6%)
  - court_law: 28,090 дубликатов удалено (66.7%)
  - other_law: 15,312 дубликатов удалено (80.0%)
  - reg_law: 17,742 дубликата удалено (66.7%)
 - Префиксы: Отключены
 - Output: `models/bge-m3-exp2-no-duplicates-no-prefixes-v2`
 **Результаты (validation set):**
 | Датасет | Recall@1 | Recall@5 | Recall@10 |
 |---------|----------|----------|-----------|
 | court_law | 67.5% | 87.9% | 92.6% |
 | other_law | 85.1% | 96.7% | 97.4% |
 | reg_law | 75.6% | 96.9% | 98.8% |
 | **Среднее** | **76.9%** | **93.6%** | **95.3%** |
 **Время обучения:** ~13 минут
 **Улучшение vs Эксперимент 1:**
 - Recall@1: +8.7% (68.2% → 76.9%)
 - Recall@5: +1.9% (91.7% → 93.6%)
 - Recall@10: -0.5% (95.8% → 95.3%)
 ---
 ### Эксперимент 3: Датасет без дубликатов С префиксами BGE-M3 🏆
 **Конфигурация:**
 - Датасет: Без дубликатов (26,734 записей)
 - Префиксы: **Включены**
  - Query: `"Represent this sentence for searching relevant passages: "`
  - Passage: `""` (пустой)
 - Output: `models/bge-m3-exp3-no-duplicates-with-prefixes`
 **Результаты (validation set):**
 | Датасет | Recall@1 | Recall@5 | Recall@10 |
 |---------|----------|----------|-----------|
 | court_law | 67.5% | 87.9% | 92.6% |
 | other_law | 85.1% | 96.7% | 97.4% |
 | reg_law | 75.6% | 96.9% | 98.8% |
 | **Среднее** | **76.9%** | **93.8%** | **95.5%** |
 **Результаты (test set):**
 | Метрика | Значение |
 |---------|----------|
 | Recall@1 | 76.9% |
 | **Recall@5** | **92.9%** |
 | Recall@10 | 95.5% |
 **Время обучения:** ~13 минут
 **Улучшение vs Эксперимент 2:**
 - Recall@1: 0% (76.9% = 76.9%)
 - Recall@5: +0.2% (93.6% → 93.8%)
 - Recall@10: +0.2% (95.3% → 95.5%)
 **Улучшение vs Эксперимент 1:**
 - Recall@1: +8.7% (68.2% → 76.9%)
 - Recall@5: +2.1% (91.7% → 93.8%)
 - Recall@10: -0.3% (95.8% → 95.5%)
 ---
 ## 💡 Ключевые выводы
 ### 1. Удаление дубликатов критически важно
 **Удалено 70% датасета** (87,878 → 26,734 записей), но качество **улучшилось**:
 - Recall@5: 91.7% → 93.8% (+2.1%)
 - Recall@1: 68.2% → 76.9% (+8.7%)
 **Причины:**
 - Дубликаты создавали переобучение на повторяющихся примерах
 - Модель училась "запоминать", а не "понимать"
 - Уникальные примеры обеспечивают лучшую генерализацию
 ### 2. Префиксы BGE-M3 дают небольшой прирост
 Префиксы добавили лишь +0.2% к Recall@5, но это ожидаемо:
 - BGE-M3 уже хорошо понимает задачу без префиксов
 - Префиксы полезны для явного указания задачи
 - Рекомендуется использовать для консистентности с baseline моделью
 ### 3. Обучение стало в 3 раза быстрее
 - Было: 43 минуты (87,878 примеров)
 - Стало: 13 минут (26,734 примеров)
 - **Ускорение: 3.3x**
 ### 4. Качество по типам документов
 **Лучшие результаты:**
 - other_law (федеральные законы): Recall@5 = 96.7%
 - reg_law (региональные законы): Recall@5 = 96.9%
 **Худшие результаты:**
 - court_law (судебные решения): Recall@5 = 87.9%
  - Причина: более сложная структура и разнообразие языка
 ---
 ## 🚀 Использование лучшей модели
 ### Hugging Face Hub
 Модель загружена на Hugging Face:
 - **URL**: https://huggingface.co/Roflmax/bge-m3-russian-legal
 - **Статус**: Pull Request (требует подтверждения)
 ### Загрузка и использование
 ```python
 from sentence_transformers import SentenceTransformer
 # Загрузка модели
 model = SentenceTransformer("Roflmax/bge-m3-russian-legal")
 # Для запросов используйте префикс
 query = "Represent this sentence for searching relevant passages: Какое наказание за управление в состоянии опьянения?"
 query_embedding = model.encode(query)
 # Для документов префикс пустой
 documents = [
    "Статья 264 УК РФ. Нарушение правил дорожного движения...",
    "КоАП РФ статья 12.8. Управление транспортным средством..."
 ]
 doc_embeddings = model.encode(documents)
 # Поиск
 from sklearn.metrics.pairwise import cosine_similarity
 similarities = cosine_similarity([query_embedding], doc_embeddings)[0]
 ```
 ---
 ## 📁 Файлы и директории
 **Модели:**
 - `models/bge-m3-exp1-original-no-prefixes/` - Эксперимент 1
 - `models/bge-m3-exp2-no-duplicates-no-prefixes-v2/` - Эксперимент 2
 - `models/bge-m3-exp3-no-duplicates-with-prefixes/` - Эксперимент 3 🏆
 **Датасеты:**
 - `dataset/court_law/train_backup.jsonl` - Оригинальный датасет (с дубликатами)
 - `dataset/court_law/train_no_duplicates.jsonl` - Датасет без дубликатов
 - `dataset/other_law/train_no_duplicates.jsonl` - Датасет без дубликатов
 - `dataset/reg_law/train_no_duplicates.jsonl` - Датасет без дубликатов
 **WandB Runs:**
 - Эксперимент 1: bge-m3-exp1-original-no-prefixes
 - Эксперимент 2: bge-m3-exp2-no-duplicates-no-prefixes-v2
 - Эксперимент 3: bge-m3-exp3-no-duplicates-with-prefixes
 ---
 ## 🔧 Параметры обучения
 | Параметр | Значение |
 |----------|----------|
 | Модель | BAAI/bge-m3 |
 | Размерность эмбеддингов | 1024 |
 | Max sequence length | 512 токенов |
 | Loss function | MultipleNegativesRankingLoss (scale=20.0) |
 | Epochs | 3 |
 | Batch size (train) | 64 |
 | Batch size (eval) | 64 |
 | Learning rate | 2e-5 |
 | Warmup ratio | 0.1 |
 | Precision | bfloat16 |
 | GPU | NVIDIA RTX PRO 6000 Blackwell (97GB) |
 | Best model selection | eval_avg_recall@5 |
 | Eval frequency | Каждые 250 steps |
 | Save strategy | Сохранять 3 лучших чекпоинта |
 ---
 ## ✅ Итоговые рекомендации
 1. **Используйте датасет без дубликатов** для обучения
 2. **Включайте префиксы BGE-M3** для консистентности
 3. **Мониторьте Recall@5** как основную метрику
 4. **Оптимизируйте датасет перед обучением** - дедупликация критична
 5. **Используйте validation set** для выбора лучшей модели
 ---
 **Статус**: ✅ Все эксперименты завершены  
 **Лучшая модель**: `models/bge-m3-exp3-no-duplicates-with-prefixes/final/`  
 **Загружена на HF**: https://huggingface.co/Roflmax/bge-m3-russian-legal
--- a/README.md
+++ b/README.md
@@ -0,0 +1,107 @@
 ---
 language:
 - ru
 license: apache-2.0
 tags:
 - sentence-transformers
 - feature-extraction
 - sentence-similarity
 - legal
 - russian
 - bge-m3
 pipeline_tag: sentence-similarity
 library_name: sentence-transformers
 base_model: BAAI/bge-m3
 ---
 # BGE-M3 Russian Legal Documents
 Это модель для получения эмбеддингов русских юридических документов, дообученная на датасете из трех категорий: судебные решения, федеральные законы и региональные законы.
 ## Модель
 - **Базовая модель**: BAAI/bge-m3
 - **Размерность эмбеддингов**: 1024
 - **Max sequence length**: 512 токенов
 - **Язык**: Русский
 - **Задача**: Semantic search на юридических документах
 ## Метрики качества
 ### Результаты на тестовой выборке
 | Метрика | Значение |
 |---------|----------|
 | **Recall@1** | 76.9% |
 | **Recall@5** | 92.9% |
 | **Recall@10** | 95.5% |
 ### Результаты по типам документов (validation set)
 | Датасет | Recall@1 | Recall@5 | Recall@10 |
 |---------|----------|----------|-----------|
 | **court_law** (судебные решения) | 67.5% | 87.9% | 92.6% |
 | **other_law** (федеральные законы) | 85.1% | 96.7% | 97.4% |
 | **reg_law** (региональные законы) | 75.6% | 96.9% | 98.8% |
 ## Датасет для обучения
 - **Размер**: 26,734 уникальных пар (query, document)
 - **Дедупликация**: Да (70% удалено по chunk_text)
 - **Категории**:
  - court_law: 14,046 примеров
  - other_law: 3,823 примеров
  - reg_law: 8,865 примеров
 ## Использование
 ### Установка
 ```bash
 pip install sentence-transformers
 ```
 ### Получение эмбеддингов
 **ВАЖНО**: Модель обучена с префиксами BGE-M3. Используйте их при инференсе!
 ```python
 from sentence_transformers import SentenceTransformer
 # Загрузка модели
 model = SentenceTransformer("Roflmax/bge-m3-russian-legal")
 # Для запросов используйте префикс
 query = "Represent this sentence for searching relevant passages: Какое наказание за управление в состоянии опьянения?"
 query_embedding = model.encode(query)
 # Для документов префикс пустой (просто текст)
 documents = [
    "Статья 264 УК РФ. Нарушение правил дорожного движения...",
    "КоАП РФ статья 12.8. Управление транспортным средством..."
 ]
 doc_embeddings = model.encode(documents)
 # Поиск похожих документов
 from sklearn.metrics.pairwise import cosine_similarity
 similarities = cosine_similarity([query_embedding], doc_embeddings)[0]
 # Топ-5 результатов
 top_indices = similarities.argsort()[-5:][::-1]
 for idx in top_indices:
    print(f"Document {idx}: similarity={similarities[idx]:.4f}")
 ```
 ## Параметры обучения
 - **Loss function**: MultipleNegativesRankingLoss (scale=20.0)
 - **Epochs**: 3
 - **Batch size**: 64
 - **Learning rate**: 2e-5
 - **Warmup ratio**: 0.1
 - **Precision**: bfloat16
 - **Best model selection**: eval_avg_recall@5
 ## Лицензия
 Apache 2.0
--- a/config.json
+++ b/config.json
@@ -0,0 +1,27 @@
 {
  "architectures": [
    "XLMRobertaModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "dtype": "float32",
  "eos_token_id": 2,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 1024,
  "initializer_range": 0.02,
  "intermediate_size": 4096,
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 8194,
  "model_type": "xlm-roberta",
  "num_attention_heads": 16,
  "num_hidden_layers": 24,
  "output_past": true,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "transformers_version": "4.57.1",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 250002
 }
--- a/config_sentence_transformers.json
+++ b/config_sentence_transformers.json
@@ -0,0 +1,14 @@
 {
  "__version__": {
    "sentence_transformers": "5.1.2",
    "transformers": "4.57.1",
    "pytorch": "2.8.0+cu128"
  },
  "model_type": "SentenceTransformer",
  "prompts": {
    "query": "",
    "document": ""
  },
  "default_prompt_name": null,
  "similarity_fn_name": "cosine"
 }
--- a/model.safetensors
+++ b/model.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:f38579b87e28489e09830abff25921ec3bf10c39ebddbe27b9e90488fcfae862
 size 2271064456
--- a/modules.json
+++ b/modules.json
@@ -0,0 +1,20 @@
 [
  {
    "idx": 0,
    "name": "0",
    "path": "",
    "type": "sentence_transformers.models.Transformer"
  },
  {
    "idx": 1,
    "name": "1",
    "path": "1_Pooling",
    "type": "sentence_transformers.models.Pooling"
  },
  {
    "idx": 2,
    "name": "2",
    "path": "2_Normalize",
    "type": "sentence_transformers.models.Normalize"
  }
 ]
--- a/sentence_bert_config.json
+++ b/sentence_bert_config.json
@@ -0,0 +1,4 @@
 {
    "max_seq_length": 512,
    "do_lower_case": false
 }
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,51 @@
 {
  "bos_token": {
    "content": "<s>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "cls_token": {
    "content": "<s>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "eos_token": {
    "content": "</s>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "mask_token": {
    "content": "<mask>",
    "lstrip": true,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "pad_token": {
    "content": "<pad>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "sep_token": {
    "content": "</s>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "unk_token": {
    "content": "<unk>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/tokenizer.json
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:d9a6af42442a3e3e9f05f618eae0bb2d98ca4f6a6406cb80ef7a4fa865204d61
 size 17083052
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,56 @@
 {
  "added_tokens_decoder": {
    "0": {
      "content": "<s>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "1": {
      "content": "<pad>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "2": {
      "content": "</s>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "3": {
      "content": "<unk>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "250001": {
      "content": "<mask>",
      "lstrip": true,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    }
  },
  "bos_token": "<s>",
  "clean_up_tokenization_spaces": true,
  "cls_token": "<s>",
  "eos_token": "</s>",
  "extra_special_tokens": {},
  "mask_token": "<mask>",
  "model_max_length": 8192,
  "pad_token": "<pad>",
  "sep_token": "</s>",
  "sp_model_kwargs": {},
  "tokenizer_class": "XLMRobertaTokenizer",
  "unk_token": "<unk>"
 }