Files
algerianME5/README.md
ModelHub XC 9008e201ad 初始化项目,由ModelHub XC社区提供模型
Model: 81melody/algerianME5
Source: Original Platform
2026-05-14 12:27:39 +08:00

17 KiB
Raw Permalink Blame History

tags, base_model, widget, pipeline_tag, library_name, license, language
tags base_model widget pipeline_tag library_name license language
sentence-transformers
sentence-similarity
feature-extraction
dense
Algerian AI
Algerian
algeria
darja
darija
algerian darija
algerian dialect
rag
ar
multilingual-e5
generated_from_trainer
loss:MultipleNegativesRankingLoss
intfloat/multilingual-e5-base
source_sentence sentences
query: Renault Kangoo 2019
passage: سيارة Renault Kangoo 2019 Confort · مازوت · يدوية · 1.5 DCI 90ch · المسافة: 199,000 كم · السعر: 420 مليون دج · سيسبونسيو 10/10 موتور 10/10 سبيغة 0 كلشي معاود فيها جديد
passage: سيارة Dfsq Dfsq 2013 · بنزين · يدوية · 1.1 · المسافة: 280 كم · السعر: 140 مليون دج · باتنة · مفيهش معاود موتور محطوط جديد
passage: بيع فيلا تيبازة بوسماعيل · فيلا · السعر: 8 مليون دج · تيبازة · agence immobilier LABID agrée par l'état met en vente trés bel villa r+2 de sup 250 m² deux facade dans un résidence clôturé et gardée jour et nuit libre de suite l'villa avec toute commanditée : - rdc : deux garage pour 7 véhicule + studio + jardain - 1ére étage : salon de chambre + cuisine + salle de bain + sanitaire - 2éme étage : salon +3 chambre + sanitaire + Hammam - 3éme étage : grand salon + deux terrasse - chauffage centrale - climatisation - caméra de surveillance - bâché d'eau - acte et livret foncier - les prix : 8 milliards nég lég - pour plus d'informations consultéz agence labid au : -
source_sentence sentences
query: location terrain Oran
passage: كراء عمارة وهران وهران · ارض · 90 م² · السعر: 6 مليون دج · وهران · location plusieurs appartements dans un immeuble de 5 étages et avec ascenseur les appartements sont neuf jamais habité merci de nous contacter pour savoir plus de détails .
passage: سيارة Kia Seltos 2025 LUXuRY · بنزين · اوتوماتيك · 1.5 · السعر: 545 مليون دج · الوادي
passage: سيارة Peugeot 308 2015 Active · مازوت · يدوية · 1.6 e HDI 112ch · المسافة: 375,000 كم · وهران · Je vente 308 jdida machya 375000
source_sentence sentences
query: villa Alger avec jardin
passage: بيع شقة 3 غرف الجزائر العاشور · شقة · 3 غرف · السعر: 3 مليون دج · الجزائر ·vente une appartement a el3achour Hawch chawech De 96m F3 en 3 em etg avec la scenseur tout comoditie chauffage central climatisation cuisine équipée boxe pour stationnement les caméras de surveillance avec act et livret foncièr
passage: كراء شقة دوبلكس 4 غرف الجزائر العاشور · شقة · 4 غرف · مطبخ مجهز · تدفئة مركزية · تكييف · تيراس · مفروش · جناح غرفة النوم · السعر: 29 مليون دج · الجزائر · El Achour Location dun Duplex F4 meublé de haut standing superficie 213 m² Le Duplex se compose : Niveau 1: une entrée, un joli séjour avec une salle à manger, une cuisine équipée haute gamme, sanitaire + hammame, terrasse. Niveau 2 : 3 chambres dont une master bed room, une salle de bain avec jacuzzi, espace bureau, 2 balcons. Équipements : climatisation, chauffage central, double vitrage, stores électriques, visiophone, 1 place de parking. Commodités de la résidence : ascenseur, parking, gardiennage 24h/24, aire de jeux pour enfants, espaces verts pour vos moments de détente.
passage: كراء شقة 5 غرف البليدة البليدة · شقة · 5 غرف · السعر: 5 مليون دج · البليدة · 203m plus ascenseur
source_sentence sentences
query: Cuxi Cuxi 2025
passage: سيارة Volkswagen Golf 7 2016 Trendline + · مازوت · يدوية · 2.0 TDI 110ch · المسافة: 280,000 كم
passage: سيارة Opel Corsa 2001 Corsa · مازوت · يدوية · 1.7 D 60ch · المسافة: 350,000 كم · السعر: 65 مليون دج · موتور نعاود يدور شهرة السبيغة فيها سوباسمو
passage: سيارة Cuxi Cuxi 2025 · بنزين · اوتوماتيك · Yamaha 110 · المسافة: 9,250 كم · السعر: 28 مليون دج · قسنطينة · Cuxi 2025 jdida état 10/10
source_sentence sentences
query: Rani nhawes 3la tonobil Hyundai i10
passage: بيع شقة غرفتين 3 غرف 4 غرف وهران بئر الجير · شقة · 3 غرف · وهران
passage: سيارة Kia Cerato 2008 · مازوت · يدوية · المسافة: 230,000 كم · السعر: 135 مليون دج · سوق اهراس · Problem də terage
passage: سيارة Hyundai i10 2014 GLS · بنزين · يدوية · 1.1 · المسافة: 300,000 كم · عين تموشنت · Fiha bantoura
sentence-similarity sentence-transformers mit
ar
fr

AlgerianME5

algerianME5 is a specialized Sentence-Transformer model designed to map Algerian search queries to a 768-dimensional dense vector space, It is specifically fine-tuned to understand the nuances and the vocabulary of the Algerian car and real estate markets, where listings often mix Arabic, French, and darja in both Arabic and Latin script

Note: For more details about the methodology, data synthesis, and evaluation, please visit the full Medium Story

Key Features :

-Domain Specific: Optimized for real estate and automotive algerian vocabulary “sbigha,” “f3,” “livret foncier”

-Cross lingual Retrieval: Maps informal latin queries "tonobil mliha" to formal Arabic or French listing descriptions

-Robust Embeddings: Based on the powerful intfloat/multilingual-e5-base architecture

Use cases :

-Semantic Search : Find relevant listings even if keywords dont match exactly (use it as a second layer)

-Textual Similarity:Compare two listings to find duplicates or similar items

-Clustering Group listings by sub-market or vehicle/property type

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-base
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer


model = SentenceTransformer("81melody/algerianME5")
sentences = [
    'query: Rani nhawes 3la tonobil Hyundai i10',
    'passage: سيارة Hyundai i10 2014 GLS · بنزين · يدوية · 1.1 · المسافة: 300,000 كم · عين تموشنت · Fiha bantoura',
    'passage: سيارة Kia Cerato 2008 · مازوت · يدوية · المسافة: 230,000 كم · السعر: 135 مليون دج · سوق اهراس · Problem də terage',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)

OR

from sentence_transformers import SentenceTransformer , util
model = SentenceTransformer("81melody/algerianME5")
listings = [
    # REAL ESTATE
    "بيع شقة 4 غرف الجزائر شراقة · شقة · 4 غرف · السعر: 4 مليون دج · Appartement Composé De 1 Suite Parentale... Résidence sécurisée",
    "كراء شقة 4 غرف وهران وهران · شقة · 4 غرف · Location appartement par jour pour familles",
    "بيع ارض تلمسان مغنية · ارض · الجزائر · بلان فالسانك مليح",
    "كراء محل الجزائر الابيار · محل تجاري · 105 م² · Local avec Deux rideaux",
    
    # CARS
    "سيارة MG Zs Ev 2024 Comfort · بنزين · يدوية · 1.5 VTi-Tech 106ch · المسافة: 67,000 كم · Très beau SUV comme neuf",
    "سيارة Hyundai Grand i10 2018 Restylée DZ · بنزين · يدوية · 1.2 ess 87ch · السعر: 265 مليون دج · صبيغة فيها لال و لامان",
    "سيارة Renault Clio 4 2018 GT Line + · مازوت · يدوية · 1.5 DCI 85ch · السعر: 330 مليون دج"
]
queries = [
    "شقة 4 غرف الجزائر",              
    "dar lel bi3 fi Alger centre",    
    "ard lel bi3 telemcan"   ,           
    "chhal souma MG Zs Ev",          
    "Grand I10 2018 Restylée DZ",     
    "tonobil mliha fiha sbigha shwia" 
]
  q_prefix = "query: "
  p_prefix = "passage: "

  encoded_listings = model.encode(
      [f"{p_prefix}{l}" for l in listings], 
      convert_to_tensor=True,
      show_progress_bar=False
  )
  for query in queries:
      print(f"\nQuery: '{query}'")
      
      
      query_emb = model.encode(f"{q_prefix}{query}", convert_to_tensor=True)
      hits = util.semantic_search(query_emb, encoded_listings, top_k=3)[0]


      for i, hit in enumerate(hits):
          score = hit['score']
          doc_id = hit['corpus_id']
          display_text = listings[doc_id][:100] + "..." if len(listings[doc_id]) > 100 else listings[doc_id]
          print(f"[Score: {score:.3f}] {display_text}")

Training Details

Training Dataset

  • Size: 100,000 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 7 tokens
    • mean: 11.07 tokens
    • max: 22 tokens
    • min: 17 tokens
    • mean: 82.2 tokens
    • max: 256 tokens
  • Samples:
    sentence_0 sentence_1
    query: بيع محل وهران بئر passage: بيع محل وهران بئر الجير · محل تجاري · 750 م² · السعر: 20 مليار دج · وهران · On vous propose en vente un local de 750 m² (550 m² en rez-de-chaussée et 200 m² sous pente) , avec deux rideaux électriques , pour le prix de : 20 Milliards fixe .

    Pour plus de détails veuillez nous contacter
    query: شقة الجزائر برج passage: بيع شقة الجزائر برج الكيفان · شقة · 1 غرف · 64 م² · وثائق: دفتر عقاري · عقد موثق · الجزائر · 🔔OPPORTUNITÉ EN OR 🔔
    T2 à vendre +paiement par tranche dans 24mois

    ❄️À seulement quelques pas de la piscine, dans une site sécurisée et bien située, ce T2 en semi-finis une valeur sûre pour tout investisseur avisé.

    Pourquoi ce bien est exceptionnel ?
    Localisation stratégique, très demandée
    Retour sur investissement rapide
    Prêt à être exploité dès lachat !
    Un petit prix pour un grand potentiel.
    Les bonnes affaires ne durent jamais longtemps…
    Saisissez cette opportunité maintenant !
    query: GX3 PRO 2025 X3 Pro passage: سيارة Geely GX3 PRO 2025 X3 pro livane · بنزين · اوتوماتيك · 1.5 · المسافة: جديدة · بجاية · Vent une livane x3pro neuf carte grise Safia
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss
... ... ...
2.32 14500 0.2827
2.4 15000 0.3062
2.48 15500 0.3045
2.56 16000 0.2841

Framework Versions

  • Python: 3.12.13
  • Sentence Transformers: 5.3.0
  • Transformers: 5.0.0
  • PyTorch: 2.10.0+cu128
  • Accelerate: 1.13.0
  • Datasets: 4.0.0
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}

Contact

Iam interested in any further related work, contact me at mohamed.himeur@student.unamur.be