Files
MPropositionneur-V2/README.md
ModelHub XC 21e826238f 初始化项目,由ModelHub XC社区提供模型
Model: Zual/MPropositionneur-V2
Source: Original Platform
2026-05-01 10:48:50 +08:00

2.5 KiB

language, tags, license, base_model
language tags license base_model
fr
en
es
pt
it
de
text-generation
information-extraction
atomic-propositions
distillation
apache-2.0 Qwen/Qwen3-0.6B

MPropositioneur-V2

MPropositioneur-V2 est un petit modèle de langage (basé sur Qwen3-0.6B) spécialisé dans l'extraction de propositions atomiques. Il a été entraîné par distillation pour décomposer des phrases ou des passages complexes en une liste de déclarations simples, atomiques et indépendantes.

Développé par Luc Pommeret au LISN (CNRS).

Intention d'usage

Ce modèle vise à améliorer la qualité et la granularité des informations dans les tâches de :

  • RAG (Retrieval-Augmented Generation) : En indexant des propositions atomiques au lieu de gros paragraphes.
  • Extraction d'Information Ouverte (OpenIE).
  • Simplification de texte et analyse du discours.

Exemple d'utilisation (Python)

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import json

model_id = "Zual/MPropositioneur-V2"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto")

texte = "Le chat et le chien sont dans la cuisine."

prompt = f"<|im_start|>user\nAtomize: {texte}<|im_end|>\n<|im_start|>assistant\n"
inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=8192).to(model.device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=2048, do_sample=False)

generated_ids = outputs[0][inputs.input_ids.shape[1]:]
result = tokenizer.decode(generated_ids, skip_special_tokens=True).strip()

# La sortie est une liste JSON : ["p1", "p2", ...]
propositions = json.loads(result)
for p in propositions:
    print(f"• {p}")

Sortie attendue :

• Le chat est dans la cuisine.
• Le chien est dans la cuisine.

Détails techniques

  • Architecture de base : Qwen3-0.6B
  • Format de prompt : <|im_start|>user\nAtomize: {texte}<|im_end|>\n<|im_start|>assistant\n
  • Format de sortie : liste JSON de chaînes ["p1", "p2", ...]
  • Objectif : Générer une liste d'assertions atomiques décontextualisées mais fidèles sémantiquement à la phrase d'origine.
  • Multilingue : Entraîné pour supporter plusieurs langues, notamment le français et l'anglais.

Auteur

Développé par Luc Pommeret au LISN (Laboratoire Interdisciplinaire des Sciences du Numérique), CNRS.