---
language:
- ar
library_name: sentence-transformers
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:2772052
- loss:MultipleNegativesRankingLoss
- loss:SoftmaxLoss
- loss:CoSENTLoss
base_model: google-bert/bert-base-multilingual-cased
datasets:
- Omartificial-Intelligence-Space/Arabic-stsb
- Omartificial-Intelligence-Space/Arabic-Quora-Duplicates
widget:
- source_sentence: امرأة تكتب شيئاً
sentences:
- قد يكون من الممكن أن يوجد نظام شمسي مثل نظامنا خارج المجرة
- امرأة تقطع البصل الأخضر.
- مراهق يتحدث إلى فتاة عبر كاميرا الإنترنت
- source_sentence: لاعب التزلج على الجليد يقفز فوق برميل
sentences:
- الرجل كان يمشي
- رجل عجوز يجلس في غرفة الانتظار بالمستشفى.
- متزلج على الجليد يقفز
- source_sentence: العديد من النساء يرتدين ملابس الشرق الأوسط من الذهب والأزرق والأصفر
والأحمر ويؤدون رقصة.
sentences:
- الناس توقفوا على جانب الطريق
- هناك على الأقل إمرأتين
- المرأة وحدها نائمة في قاربها على القمر
- source_sentence: الرجل يرتدي قميصاً أزرق.
sentences:
- رجل يرتدي قميصاً أزرق يميل إلى الجدار بجانب الطريق مع شاحنة زرقاء وسيارة حمراء
مع الماء في الخلفية.
- الرجل يجلس بجانب لوحة لنفسه
- رجل يرتدي قميص أسود يعزف على الجيتار.
- source_sentence: ما هي الدروس التي يمكن أن نتعلمها من أدولف هتلر؟
sentences:
- ما هي الدروس التي يمكن أن نتعلمها من أدولف هتلر؟
- ما مدى قربنا من الحرب العالمية؟
- هل حرق وقود الطائرات يذوب أعمدة الصلب؟
pipeline_tag: sentence-similarity
---
# SentenceTransformer based on google-bert/bert-base-multilingual-cased
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [google-bert/bert-base-multilingual-cased](https://huggingface.co/google-bert/bert-base-multilingual-cased) on the all-nli-pair, all-nli-pair-class, all-nli-pair-score, all-nli-triplet, [stsb](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-stsb) and [quora](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates) datasets. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [google-bert/bert-base-multilingual-cased](https://huggingface.co/google-bert/bert-base-multilingual-cased)
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 768 tokens
- **Similarity Function:** Cosine Similarity
- **Training Datasets:**
- all-nli-pair
- all-nli-pair-class
- all-nli-pair-score
- all-nli-triplet
- [stsb](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-stsb)
- [quora](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates)
- **Language:** ar
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Omartificial-Intelligence-Space/Arabic-base-all-nli-stsb-quora")
# Run inference
sentences = [
'ما هي الدروس التي يمكن أن نتعلمها من أدولف هتلر؟',
'ما هي الدروس التي يمكن أن نتعلمها من أدولف هتلر؟',
'ما مدى قربنا من الحرب العالمية؟',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Training Details
### Training Datasets
#### all-nli-pair
* Dataset: all-nli-pair
* Size: 314,315 training samples
* Columns: anchor and positive
* Approximate statistics based on the first 1000 samples:
| | anchor | positive |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string |
| details |
شخص على حصان يقفز فوق طائرة معطلة | شخص في الهواء الطلق، على حصان. |
| أطفال يبتسمون و يلوحون للكاميرا | هناك أطفال حاضرون |
| صبي يقفز على لوح التزلج في منتصف الجسر الأحمر. | الفتى يقوم بخدعة التزلج |
* Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
#### all-nli-pair-class
* Dataset: all-nli-pair-class
* Size: 942,069 training samples
* Columns: premise, hypothesis, and label
* Approximate statistics based on the first 1000 samples:
| | premise | hypothesis | label |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------|
| type | string | string | int |
| details | شخص على حصان يقفز فوق طائرة معطلة | شخص يقوم بتدريب حصانه للمنافسة | 1 |
| شخص على حصان يقفز فوق طائرة معطلة | شخص في مطعم، يطلب عجة. | 2 |
| شخص على حصان يقفز فوق طائرة معطلة | شخص في الهواء الطلق، على حصان. | 0 |
* Loss: [SoftmaxLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#softmaxloss)
#### all-nli-pair-score
* Dataset: all-nli-pair-score
* Size: 942,069 training samples
* Columns: sentence1, sentence2, and score
* Approximate statistics based on the first 1000 samples:
| | sentence1 | sentence2 | score |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------|
| type | string | string | float |
| details | شخص على حصان يقفز فوق طائرة معطلة | شخص يقوم بتدريب حصانه للمنافسة | 0.5 |
| شخص على حصان يقفز فوق طائرة معطلة | شخص في مطعم، يطلب عجة. | 0.0 |
| شخص على حصان يقفز فوق طائرة معطلة | شخص في الهواء الطلق، على حصان. | 1.0 |
* Loss: [CoSENTLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "pairwise_cos_sim"
}
```
#### all-nli-triplet
* Dataset: all-nli-triplet
* Size: 557,850 training samples
* Columns: anchor, positive, and negative
* Approximate statistics based on the first 1000 samples:
| | anchor | positive | negative |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string | string |
| details | شخص على حصان يقفز فوق طائرة معطلة | شخص في الهواء الطلق، على حصان. | شخص في مطعم، يطلب عجة. |
| أطفال يبتسمون و يلوحون للكاميرا | هناك أطفال حاضرون | الاطفال يتجهمون |
| صبي يقفز على لوح التزلج في منتصف الجسر الأحمر. | الفتى يقوم بخدعة التزلج | الصبي يتزلج على الرصيف |
* Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
#### stsb
* Dataset: [stsb](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-stsb) at [7c6c4bd](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-stsb/tree/7c6c4bd31a465a0f3ed1a3704a31f2682a0f65be)
* Size: 5,749 training samples
* Columns: sentence1, sentence2, and score
* Approximate statistics based on the first 1000 samples:
| | sentence1 | sentence2 | score |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------|
| type | string | string | float |
| details | طائرة ستقلع | طائرة جوية ستقلع | 1.0 |
| رجل يعزف على ناي كبير | رجل يعزف على الناي. | 0.76 |
| رجل ينشر الجبن الممزق على البيتزا | رجل ينشر الجبن الممزق على بيتزا غير مطبوخة | 0.76 |
* Loss: [CoSENTLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "pairwise_cos_sim"
}
```
#### quora
* Dataset: [quora](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates) at [7d49308](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates/tree/7d49308a21bbad3a2762d11f2e8c0cbcc86510fe)
* Size: 10,000 training samples
* Columns: anchor and positive
* Approximate statistics based on the first 1000 samples:
| | anchor | positive |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string |
| details | علم التنجيم: أنا برج الجدي الشمس القمر والقبعة الشمسية... | أنا برج الجدي الثلاثي (الشمس والقمر والصعود في برج الجدي) ماذا يقول هذا عني؟ |
| كيف أكون جيولوجياً جيداً؟ | ماذا علي أن أفعل لأكون جيولوجياً عظيماً؟ |
| كيف أقرأ وأجد تعليقاتي على يوتيوب؟ | كيف يمكنني رؤية كل تعليقاتي على اليوتيوب؟ |
* Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Evaluation Datasets
#### all-nli-triplet
* Dataset: all-nli-triplet
* Size: 6,584 evaluation samples
* Columns: anchor, positive, and negative
* Approximate statistics based on the first 1000 samples:
| | anchor | positive | negative |
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string | string |
| details | امرأتان يتعانقان بينما يحملان حزمة | إمرأتان يحملان حزمة | الرجال يتشاجرون خارج مطعم |
| طفلين صغيرين يرتديان قميصاً أزرق، أحدهما يرتدي الرقم 9 والآخر يرتدي الرقم 2 يقفان على خطوات خشبية في الحمام ويغسلان أيديهما في المغسلة. | طفلين يرتديان قميصاً مرقماً يغسلون أيديهم | طفلين يرتديان سترة يذهبان إلى المدرسة |
| رجل يبيع الدونات لعميل خلال معرض عالمي أقيم في مدينة أنجليس | رجل يبيع الدونات لعميل | امرأة تشرب قهوتها في مقهى صغير |
* Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
#### stsb
* Dataset: [stsb](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-stsb) at [7c6c4bd](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-stsb/tree/7c6c4bd31a465a0f3ed1a3704a31f2682a0f65be)
* Size: 1,500 evaluation samples
* Columns: sentence1, sentence2, and score
* Approximate statistics based on the first 1000 samples:
| | sentence1 | sentence2 | score |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------|
| type | string | string | float |
| details | رجل يرتدي قبعة صلبة يرقص | رجل يرتدي قبعة صلبة يرقص. | 1.0 |
| طفل صغير يركب حصاناً. | طفل يركب حصاناً. | 0.95 |
| رجل يطعم فأراً لأفعى | الرجل يطعم الفأر للثعبان. | 1.0 |
* Loss: [CoSENTLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "pairwise_cos_sim"
}
```
#### quora
* Dataset: [quora](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates) at [7d49308](https://huggingface.co/datasets/Omartificial-Intelligence-Space/arabic-quora-duplicates/tree/7d49308a21bbad3a2762d11f2e8c0cbcc86510fe)
* Size: 1,000 evaluation samples
* Columns: anchor and positive
* Approximate statistics based on the first 1000 samples:
| | anchor | positive |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string |
| details | ما هو قرارك في السنة الجديدة؟ | ما الذي يمكن أن يكون قراري للعام الجديد لعام 2017؟ |
| هل يجب أن أشتري هاتف آيفون 6 أو سامسونج غالاكسي إس 7؟ | أيهما أفضل: الـ iPhone 6S Plus أو الـ Samsung Galaxy S7 Edge؟ |
| ما هي الاختلافات بين التجاوز والتراجع؟ | ما الفرق بين التجاوز والتراجع؟ |
* Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `per_device_train_batch_size`: 128
- `num_train_epochs`: 1
- `warmup_ratio`: 0.1
#### All Hyperparameters