Adc05102002/bge-m3-vi-base

Go to file

ModelHub XC 6641383a0a 初始化项目，由ModelHub XC社区提供模型

Model: Adc05102002/bge-m3-vi-base
Source: Original Platform

2026-05-28 02:20:16 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-05-28 02:20:16 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 02:20:16 +08:00

model.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-28 02:20:16 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-05-28 02:20:16 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 02:20:16 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 02:20:16 +08:00

README.md

language, license, library_name, pipeline_tag, tags, base_model, model_type

language

license

library_name

pipeline_tag

BGE-M3 Custom Tokenizer (8.5K Vocab)

A customized version of :contentReference[oaicite:0]{index=0} with a newly trained tokenizer optimized for domain-specific multilingual retrieval workloads.

This model replaces the original XLM-R tokenizer vocabulary with a compact 8.5K-token tokenizer trained on a custom corpus.

Highlights

Based on BAAI/bge-m3
Custom tokenizer trained from scratch
Reduced vocabulary size: 8500
Long-context support: 8192 tokens
Multilingual retrieval and embedding model
Optimized for:
- semantic search
- RAG pipelines
- dense retrieval
- domain-specific embeddings

Model Details

Base Model

Architecture: XLM-RoBERTa
Original model: BAAI/bge-m3
Embedding dimension: 1024
Transformer encoder model

Tokenizer

The original tokenizer was replaced with a newly trained tokenizer using:

tokenizer = base_tokenizer.train_new_from_iterator(
    batch_iterator(),
    vocab_size=8500,
    min_frequency=2,
)