97 lines
4.6 KiB
Markdown
97 lines
4.6 KiB
Markdown
---
|
||
library_name: transformers
|
||
base_model: CohereLabs/tiny-aya-global
|
||
tags:
|
||
- hebrew
|
||
- safe-ai
|
||
- kosher-ai
|
||
- fine-tuned
|
||
- cohere
|
||
- aya
|
||
language:
|
||
- he
|
||
- en
|
||
license: cc-by-nc-4.0
|
||
---
|
||
|
||
# tiny-aya-kosher-3.3B: מודל שפה מותאם לערכי הצניעות וההלכה
|
||
|
||
## Model Details
|
||
|
||
### Model Description
|
||
|
||
Haredi-Aya-3B הוא מודל שפה ממוזג (Merged) המבוסס על Tiny-Aya-Global. המודל עבר כוונון עדין (Fine-tuning) .ממוקד כדי להתאים את תגובותיו לערכי הציבור החרדי, תוך דגש על סינון תכנים שאינם הולמים, מניעת עיסוק בנושאי כפירה, עבודה זרה, ושמירה על גדרי הצניעות .
|
||
|
||
- **Developed by:** EMD123
|
||
- **Model type:** Causal Language Model (Fine-tuned with QLoRA)
|
||
- **Language(s) (NLP):** Hebrew (Primary), English
|
||
- **License:** CC-BY-NC-4.0 (Non-Commercial use only)
|
||
- **Finetuned from model:** CohereLabs/tiny-aya-global
|
||
|
||
## Uses
|
||
|
||
### Direct Use
|
||
|
||
המודל נועד לשמש כעוזר בינה מלאכותית "כשר". הוא מתאים לשימוש במערכות המיועדות למשתמשים שומרי תורה ומצוות המעוניינים בכלי עבודה חכם שאינו נחשף לתכנים אסורים או שאינם הולמים את רוח הקהילה.
|
||
|
||
### Out-of-Scope Use
|
||
|
||
אין להשתמש במודל לצרכים מסחריים (בהתאם לרישיון ה-NC). המודל אינו מיועד לספק פסיקה הלכתית רשמית או ייעוץ רוחני, אלא לשמש ככלי עזר טכנולוגי בלבד.
|
||
|
||
## Bias, Risks, and Limitations
|
||
|
||
למרות האימון הממוקד, מודלי שפה עלולים להזות (Hallucinate) או לעקוף מגבלות בסיטואציות מסוימות. המודל הותאם לסרב לתכנים מסוימים, אך ייתכנו מקרים של סירוב-יתר (False Positive) גם לשאלות תמימות אם הן מזכירות מילים רגישות.
|
||
|
||
### Recommendations
|
||
|
||
מומלץ להשתמש בטמפרטורה (Temperature) נמוכה (0.1-0.3) כדי לקבל תשובות עקביות ומדויקות יותר מבחינת ערכי הסינון.
|
||
|
||
## How to Get Started with the Model
|
||
|
||
כדי להפעיל את המודל בצורה נכונה, יש להשתמש בתבנית הצ'אט הרשמית של Aya:
|
||
|
||
```python
|
||
from transformers import AutoModelForCausalLM, AutoTokenizer
|
||
|
||
model_id = "[EMD123]/tiny-aya-kosher-3.3B"
|
||
tokenizer = AutoTokenizer.from_pretrained(model_id)
|
||
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype="auto")
|
||
|
||
messages = [{"role": "user", "content": "האם תוכל לעזור לי בכתיבת מכתב רשמי?"}]
|
||
input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to("cuda")
|
||
|
||
outputs = model.generate(input_ids, max_new_tokens=256, temperature=0.2, do_sample=True)
|
||
print(tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True))
|
||
```
|
||
|
||
## Training Details
|
||
### Training Data
|
||
המודל אומן על דאטה-סט ייעודי שנבנה ידנית וכולל כ-520 דוגמאות:
|
||
|
||
דוגמאות סינון: הנחיות לסירוב מנומס ומנומק לנושאים שאינם צנועים, כפירה, ודתות אחרות.
|
||
|
||
דוגמאות שימור: שאלות בידע כללי, קוד ושפה כדי לשמר את יכולות הליבה של המודל.
|
||
|
||
שיחות רב-סיבוביות (Multi-turn): דוגמאות המלמדות את המודל לשמור על עקביות לאורך שיחה שלמה.
|
||
|
||
### Training Procedure
|
||
האימון התבצע בשיטת QLoRA (4-bit quantization) על גבי כרטיס מסך NVIDIA T4 בסביבת Google Colab.
|
||
|
||
**Training regime:** bf16 mixed precision
|
||
|
||
**Learning Rate:** 2e-4
|
||
|
||
**Epochs:** 2 (Early stopping applied to prevent overfitting)
|
||
|
||
**Batch Size:** 2 (Gradient Accumulation Steps: 4)
|
||
|
||
## Technical Specifications
|
||
### Model Architecture and Objective
|
||
המודל מבוסס על ארכיטקטורת Command-R של Cohere, המותאמת במיוחד לביצועים רב-לשוניים יעילים במודל קומפקטי (3B).
|
||
|
||
## License & Policy
|
||
מודל זה כפוף לרישיון Creative Commons Attribution-NonCommercial 4.0 International.
|
||
בנוסף, המשתמשים מחויבים לציות למדיניות השימוש של Cohere Lab (Acceptable Use Policy).
|
||
|
||
## More Information
|
||
המודל נוצר מתוך צורך חיוני בכלים טכנולוגיים מתקדמים המכבדים את עולמם הערכי של המשתמשים הדתיים והחרדים. |