62 lines
2.7 KiB
Markdown
62 lines
2.7 KiB
Markdown
|
|
---
|
||
|
|
library_name: transformers
|
||
|
|
license: other
|
||
|
|
language:
|
||
|
|
- fr
|
||
|
|
pipeline_tag: text-generation
|
||
|
|
---
|
||
|
|
|
||
|
|
# 💎 Fiche Technique : Ilyana-pretrain
|
||
|
|
|
||
|
|

|
||
|
|
|
||
|
|
**Développeuse :** Clemylia | **Architecture :** From Scratch (Clemylia-Logic)
|
||
|
|
**Type :** Modèle de Fondation (SLM - Small Language Model)
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
### 📝 Présentation Générale
|
||
|
|
|
||
|
|
**Ilyana-pretrain** est un modèle de langage compact mais ultra-performant, conçu pour servir de socle à une nouvelle génération d'IA spécialisées. Contrairement aux modèles standards, Ilyana a été entraînée avec une rigueur chirurgicale pour maîtriser la **structure profonde de la langue française**.
|
||
|
|
|
||
|
|
### 🚀 Performances Techniques
|
||
|
|
|
||
|
|
* **Paramètres :** 49 Millions (Optimisés pour la réactivité).
|
||
|
|
* **Entraînement :** 13 Millions de tokens (Curation de haute qualité).
|
||
|
|
* **Vitesse de Pré-entraînement :** 30 minutes (via l'Optimismateur GPU Clemylia).
|
||
|
|
* **Tokeniseur :** **Custom French Tokenizer** (entraîné sur des milliards de tokens pour une compression sémantique parfaite).
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
### 🧠 Capacités de la Fondation
|
||
|
|
|
||
|
|
Ilyana-pretrain se distingue par une **syntaxe irréprochable** et une gestion fluide des structures journalistiques et documentaires :
|
||
|
|
|
||
|
|
* **Maîtrise Syntaxique :** Gestion parfaite des élisions (l', d', s'), de la ponctuation complexe et des accords.
|
||
|
|
* **Logique Temporelle :** Capacité à structurer des dates, des événements et des chronologies.
|
||
|
|
* **Base de Connaissances :** Forte imprégnation des contextes d'actualité, de santé, de politique et de sciences naturelles.
|
||
|
|
* **Prêt pour l'Affinage :** Conçu spécifiquement pour conserver sa structure grammaticale même après un entraînement sur des données créatives ou absurdes.
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
### 🛠️ Cas d'Usage Recommandés
|
||
|
|
|
||
|
|
Ilyana-pretrain est une "page blanche structurée". Elle est idéale pour être affinée (Fine-tuning) vers :
|
||
|
|
|
||
|
|
1. **IA Créatives :** Poésie, chansons, recettes (type ReeCi).
|
||
|
|
2. **IA de Personnalité :** Chatbots avec une identité forte (type InutileGpt).
|
||
|
|
3. **Analyse de Texte :** Résumé ou classification avec une haute précision grammaticale.
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
### ⚠️ Note de la Développeuse
|
||
|
|
|
||
|
|
> "Ilyana-pretrain est le modèle le plus solide de mon histoire de développeuse. Elle ne 'beugue' pas, elle ne fait pas de néologismes par erreur. Elle sait parler. Maintenant, c'est à vous de décider ce qu'elle doit dire." — **Clemylia**
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
### 📈 Prochaines Étapes
|
||
|
|
|
||
|
|
Le modèle est actuellement prêt pour le déploiement ou l'affinage spécialisé. Sa légèreté (49M) permet une exécution fluide sur presque n'importe quel support.
|
||
|
|
|
||
|
|
**Soumis a la license Gios-termes des modèles de langage Gheya.**
|