初始化项目，由ModelHub XC社区提供模型

Model: Finisha-F-scratch/Ilyana-pretrain Source: Original Platform
2026-05-26 17:11:17 +08:00
commit c8822236b0
9 changed files with 229850 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,35 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/32
+++ b/32
@@ -0,0 +1,32 @@
 **🩷 Gheya innov open source🩷** (GIOS-terme)
 selon les standards de LICENSE Gheya ci dessous.
 vous vous engagez a accepter les conditions d'utilisation d'utilisation des modèles de la série gheya,
 et de les utiliser pour de bons usages.
 respectez les termes ci dessous :
 1) Tout les modèles (Gheya),
 appartiennent a Llm-clem (Clemylia),
 vous n'avez pas le droit de vous approprié la priorité.
 2) Vous pouvez faire du fine-tuning,
 autant que vous le souhaitez sur les modèles gheya.
 et etes libre d'utiliser vos versions modifié 
 dans tout les cas d'usages que le souhaitez.
 qu'ils soit commerciaux ou non.
 la seule règle : utilisez gheya dans de bons usages.
 tout usage des modèles de base Gheya, qui nous semble déplacé ,
 et nous pourrons mettre en place des restrictions très sévères contre vous.
 cela implique :
 - pas de logiciels malveillants
 - pas de nudité ou de pornographie 
 - pas d'autres usages ou fonctionnalités quelconque faisant tord a autrui.
 3) Vous devez toujours garder une copie de GIOS-terme en lien avec votre version modifié.
 bonne utilisation !
--- a/README.md
+++ b/README.md
@@ -0,0 +1,62 @@
 ---
 library_name: transformers
 license: other
 language:
 - fr
 pipeline_tag: text-generation
 ---
 # 💎 Fiche Technique : Ilyana-pretrain
 ![ilyana](http://www.image-heberg.fr/files/17681494443905401846.webp)
 **Développeuse :** Clemylia | **Architecture :** From Scratch (Clemylia-Logic)
 **Type :** Modèle de Fondation (SLM - Small Language Model)
 ---
 ### 📝 Présentation Générale
 **Ilyana-pretrain** est un modèle de langage compact mais ultra-performant, conçu pour servir de socle à une nouvelle génération d'IA spécialisées. Contrairement aux modèles standards, Ilyana a été entraînée avec une rigueur chirurgicale pour maîtriser la **structure profonde de la langue française**.
 ### 🚀 Performances Techniques
 * **Paramètres :** 49 Millions (Optimisés pour la réactivité).
 * **Entraînement :** 13 Millions de tokens (Curation de haute qualité).
 * **Vitesse de Pré-entraînement :** 30 minutes (via l'Optimismateur GPU Clemylia).
 * **Tokeniseur :** **Custom French Tokenizer** (entraîné sur des milliards de tokens pour une compression sémantique parfaite).
 ---
 ### 🧠 Capacités de la Fondation
 Ilyana-pretrain se distingue par une **syntaxe irréprochable** et une gestion fluide des structures journalistiques et documentaires :
 * **Maîtrise Syntaxique :** Gestion parfaite des élisions (l', d', s'), de la ponctuation complexe et des accords.
 * **Logique Temporelle :** Capacité à structurer des dates, des événements et des chronologies.
 * **Base de Connaissances :** Forte imprégnation des contextes d'actualité, de santé, de politique et de sciences naturelles.
 * **Prêt pour l'Affinage :** Conçu spécifiquement pour conserver sa structure grammaticale même après un entraînement sur des données créatives ou absurdes.
 ---
 ### 🛠️ Cas d'Usage Recommandés
 Ilyana-pretrain est une "page blanche structurée". Elle est idéale pour être affinée (Fine-tuning) vers :
 1. **IA Créatives :** Poésie, chansons, recettes (type ReeCi).
 2. **IA de Personnalité :** Chatbots avec une identité forte (type InutileGpt).
 3. **Analyse de Texte :** Résumé ou classification avec une haute précision grammaticale.
 ---
 ### ⚠️ Note de la Développeuse
 > "Ilyana-pretrain est le modèle le plus solide de mon histoire de développeuse. Elle ne 'beugue' pas, elle ne fait pas de néologismes par erreur. Elle sait parler. Maintenant, c'est à vous de décider ce qu'elle doit dire." — **Clemylia**
 ---
 ### 📈 Prochaines Étapes
 Le modèle est actuellement prêt pour le déploiement ou l'affinage spécialisé. Sa légèreté (49M) permet une exécution fluide sur presque n'importe quel support.
 **Soumis a la license Gios-termes des modèles de langage Gheya.**
--- a/config.json
+++ b/config.json
@@ -0,0 +1,32 @@
 {
  "activation_function": "gelu_new",
  "architectures": [
    "GPT2LMHeadModel"
  ],
  "attn_pdrop": 0.1,
  "bos_token_id": null,
  "dtype": "float32",
  "embd_pdrop": 0.1,
  "eos_token_id": null,
  "initializer_range": 0.02,
  "layer_norm_epsilon": 1e-05,
  "model_type": "gpt2",
  "n_embd": 512,
  "n_head": 8,
  "n_inner": null,
  "n_layer": 8,
  "n_positions": 605,
  "pad_token_id": 3,
  "reorder_and_upcast_attn": false,
  "resid_pdrop": 0.1,
  "scale_attn_by_inverse_layer_idx": false,
  "scale_attn_weights": true,
  "summary_activation": null,
  "summary_first_dropout": 0.1,
  "summary_proj_to_labels": true,
  "summary_type": "cls_index",
  "summary_use_proj": true,
  "transformers_version": "4.57.3",
  "use_cache": true,
  "vocab_size": 46000
 }
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,8 @@
 {
  "_from_model_config": true,
  "eos_token_id": [
    50256
  ],
  "pad_token_id": 3,
  "transformers_version": "4.57.3"
 }
--- a/model.safetensors
+++ b/model.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:aa99fefed10cb79c6ef830f95eb390645c374b33195fa94d285feb33ea56660d
 size 196337384
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,9 @@
 {
  "pad_token": {
    "content": "[PAD]",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,49 @@
 {
  "added_tokens_decoder": {
    "0": {
      "content": "[UNK]",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "1": {
      "content": "[CLS]",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "2": {
      "content": "[SEP]",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "3": {
      "content": "[PAD]",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "4": {
      "content": "[MASK]",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    }
  },
  "clean_up_tokenization_spaces": false,
  "extra_special_tokens": {},
  "model_max_length": 1000000000000000019884624838656,
  "pad_token": "[PAD]",
  "tokenizer_class": "PreTrainedTokenizerFast"
 }