初始化项目，由ModelHub XC社区提供模型

Model: norallm/normistral-7b-scratch Source: Original Platform
2026-06-12 13:38:20 +08:00
commit da600e3042
15 changed files with 66320 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,39 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 normistral-7b-scratch.Q4_K_M.gguf filter=lfs diff=lfs merge=lfs -text
 normistral-7b-scratch.Q5_K_M.gguf filter=lfs diff=lfs merge=lfs -text
 normistral-7b-scratch.Q6_K.gguf filter=lfs diff=lfs merge=lfs -text
 normistral-7b-scratch.Q8_0.gguf filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,401 @@
 ---
 language:
 - 'no'
 - nb
 - nn
 inference: true
 tags:
 - mistral
 - gpt
 - generative
 license: apache-2.0
 pipeline_tag: text-generation
 datasets:
 - uonlp/CulturaX
 - NbAiLab/NCC
 - vikp/starcoder_filtered
 ---
 # **NorMistral-7b-scratch**
 <img align="center" src="https://huggingface.co/ltg/norbert3-base/resolve/main/norbert.png" width=12.5%>
 NorMistral-7b-scratch is a large Norwegian language model pretrained from scratch on a total of 260 billion subword tokens (using six repetitions of open Norwegian texts).
 This model is a part of the NORA.LLM family developed in collaboration between [the Language Technology Group at the University of Oslo](https://huggingface.co/ltg), [the High Performance Language Technologies (HPLT) project](https://hplt-project.org/), [the National Library of Norway](https://huggingface.co/NbAiLab), and [the University of Turku](https://huggingface.co/TurkuNLP).
 All the models are pre-trained on the same dataset and with the same tokenizer.
 NorMistral-7b-scratch has over 7 billion parameters and is based on [the Mistral architecture](https://huggingface.co/mistralai/Mistral-7B-v0.1).
 The NORA.LLM language model family includes (as of now):
 - [**NorMistral-7b-warm**](https://huggingface.co/norallm/normistral-7b-warm) -- an LLM initialized from [Mistral-7b-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) and continuously pretrained on Norwegian data;
 - [**NorMistral-7b-scratch**](https://huggingface.co/norallm/normistral-7b-scratch) -- a Mistral-based LLM pretrained from scratch on Norwegian data;
 - [**NorBLOOM-7b-scratch**](https://huggingface.co/norallm/NorBLOOM-7b-scratch) -- a BLOOM-based LLM pretrained from scratch on Norwegian data.
 *Disclaimer: This model is pretrained on raw (mostly web-based) textual data.
 It is not finetuned to follow instructions, and it can generate harmful completions after inappropriate user prompts.
 It is primarily intended for research purposes.*
 _____
 ## Pretraining corpus
 The model is pretrained exclusively on publicly available data. We combine the resources from [the public part of the NCC corpus](https://huggingface.co/datasets/NbAiLab/NCC), from [the cleaned HPLT corpus](https://hplt-project.org/datasets/v1.2), and from [CulturaX](https://huggingface.co/datasets/uonlp/CulturaX).
 This resulted in over 34B subword tokens of Norwegian (Bokmål or Nynorsk) in total, which amounts to about 26.7B whitespace-separated tokens.
 We also augment the corpus with [Starcoder](https://huggingface.co/datasets/vikp/starcoder_filtered); 20% of the 260B tokens are sampled from this code corpus.
 The natural language data is repeated six times to get the pretraining budget of 260B tokens, in accordance with findings from [Muennighoff et al. (2023)](https://neurips.cc/virtual/2023/poster/70706).
 _____
 ## Model details
 **Model Developers:** Language Technology Group at the University of Oslo.
 **Variations:** NorMistral is currently published as two 7B variants: one trained entirely from *scratch* and one *warm*-started from the Mistral model.
 **Input:** Textual input.
 **Output:** Generated text.
 **Model Architecture:** NorMistral is an auto-regressive language model that uses an optimized transformer architecture based on the Mistral/Llama language models.
 ||Training Data|Params|Context Length|Tokens|LR|
 |---|---|---|---|---|---|
 |NorMistral-7b-warm|NCC+HPLT+CulturaX+Starcoder|7B|2k|260B|1.0 x 10<sup>-4</sup>|
 |NorMistral-7b-scratch|NCC+HPLT+CulturaX+Starcoder|7B|2k|260B|3.0 x 10<sup>-4</sup>|
 |NorBLOOM-7b-scratch|NCC+HPLT+CulturaX+Starcoder|7B|2k|260B|1.2 x 10<sup>-4</sup>|
 **Tokenizer:** Byte-based BPE tokenizer trained on the same Norwegian corpus as this model. The vocabulary size is 32,768 tokens.
 **Training FLOPs** The approximate amount is 1.22e+22 FLOPs; calculated as in [Chowdhery et al. (2022)](https://arxiv.org/abs/2204.02311).
 **Model Dates:** The models were pretrained between December 2023 and January 2024.
 **Status:** These are only pretrained language models; instruction-finetuned models will follow soon.
 **License:** [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0)
 **Research Paper:** Forthcoming
 _____
 ## Initial evaluation
 *Disclaimer: our model evaluation is an ongoing phase and is not claimed to be exhaustive. We provide our initial evaluation results on standard natural language understanding and generation tasks, and our evaluation design will be extended. 
 The user should perform evaluation for their particular model application scenario, including safety and bias evaluations.*
 The perplexity on the heldout [validation set from the Norwegian Colossal Corpus (NCC)](https://huggingface.co/datasets/NbAiLab/NCC) is 7.43 and the final training perplexity is 4.76.
 Our initial downstream evaluation is conducted on reading comprehension, sentiment analysis and machine translation tasks using open-source peer-reviewed datasets and benchmarks in native Norwegian.
 We release [our codebase here](https://github.com/ltgoslo/norallm). We compare against other pretrained generative language models that officially support Norwegian: [NB-GPT-J](https://huggingface.co/NbAiLab/nb-gpt-j-6B), [GPT-Sw3 6.7B](https://huggingface.co/AI-Sweden-Models/gpt-sw3-6.7b), [GPT-Sw3 6.7B v2](https://huggingface.co/AI-Sweden-Models/gpt-sw3-6.7b-v2), and [Falcon-7B](https://huggingface.co/tiiuae/falcon-7b); we also include evaluation of [Mistral-7b-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1).
 ### Sentiment analysis
 [NoReC](https://huggingface.co/datasets/ltg/norec_sentence) ([Øvrelid et al., 2020](https://aclanthology.org/2020.lrec-1.618/)) is a dataset for sentence-level sentiment analysis derived from the Norwegian Review Corpus [(Velldal et al., 2018)](https://aclanthology.org/L18-1661/).
 We use the binary formulation of this task (positive vs. negative).
 <details>
 <summary>Method (click to expand)</summary>
 * Evaluation setting: zero-shot and few-shot perplexity-based evaluation.
 * Prompt: ```"Tekst: {text}\nSentiment:{label}"```, where the ```label``` is either "positiv" or "negativ".
 * Few-shot results show the average scores across 5 repetitions
 * Evaluation script: https://github.com/ltgoslo/norallm/blob/main/initial_evaluation/sentiment_analysis.py
 * Performance metric: macro-averaged F1-score.
 </details>
 <details open>
 <summary>Macro-averaged F1-scores on the sentence-level sentiment analysis task (NoReC)</summary>
 |Model|0-shot (macro F1)|1-shot (macro F1)|16-shot (macro F1)|
 |---|---|---|---|
 |NorMistral-7b-warm|60.6|**77.8**|**87.3**|
 |NorMistral-7b-scratch|47.3|62.2|80.1|
 |NorBLOOM-7b|**75.7**|73.8|65.5|
 |NB-GPT-J|48.4|56.5|65.2|
 |GPT-Sw3-6.7B|61.5|72.2|76.5|
 |GPT-Sw3-6.7B-v2|42.4|69.1|83.4|
 |Falcon-7B|53.3|61.6|74.9|
 |Mistral-7B-v0.1|70.2|72.9|84.8|
 </details>
 ### Reading comprehension
 [NorQuAD](https://huggingface.co/datasets/ltg/norquad) ([Ivanova et al., 2023](https://aclanthology.org/2023.nodalida-1.17/)) is a dataset for extractive question answering in Norwegian designed similarly to [SQuAD (Rajpurkar et al., 2016)](https://aclanthology.org/D16-1264/). 
 <details>
 <summary>Method (click to expand)</summary>
 * Evaluation setting: zero-shot and few-shot settings via natural language generation using the greedy decoding strategy.
 * Prompt: ```"Tittel: {title}\n\nTekst: {text}\n\nSpørsmål: {question}\n\nSvar:{answer}"``` Based on [Brown et al. (2020)](https://arxiv.org/abs/2005.14165).
 * Few-shot results show the average scores across 5 repetitions
 * Evaluation script: https://github.com/ltgoslo/norallm/blob/main/initial_evaluation/norquad.py
 * Performance metrics: macro-averaged F1-score and exact match (EM).
 </details>
 <details open>
 <summary>Performance results on the extractive question answering task (NorQuAD)</summary>
 |Model|0-shot (F1/EM)|1-shot (F1/EM)|2-shot (F1/EM)|
 |---|---|---|---|
 |NorMistral-7b-warm|**48.6**/**24.8**|63.6/40.0|66.5/43.8|
 |NorMistral-7b-scratch|34.0/15.7|46.5/25.8|48.5/27.8|
 |NorBLOOM-7b|35.0/13.3|47.7/28.0|49.3/30.1|
 |NB-GPT-J|24.4/6.8|32.8/11.6|35.0/12.3|
 |GPT-Sw3-6.7B|46.5/22.0|55.9/32.0|58.1/34.3|
 |GPT-Sw3-6.7B-v2|46.9/22.5|61.1/38.9|66.0/44.5|
 |Falcon-7B|15.8/7.0|27.3/13.9|27.4/13.1|
 |Mistral-7B-v0.1|46.4/22.4|**64.9**/**41.1**|**71.7**/**49.4**|
 </details>
 ### Grammatical error correction
 [ASK-RAW](https://huggingface.co/datasets/ltg/ask-gec) is dataset for Norwegian grammatical error correction (GEC) created by [Matias Jentoft (2023)](https://www.duo.uio.no/handle/10852/103885).
 <details>
 <summary>Method (click to expand)</summary>
 * Evaluation setting: zero-shot and few-shot settings via natural language generation using the greedy decoding strategy.
 * Prompt: ```"Her er eksempler på perfekt korrigering av grammatiske feil:\n\nTekst: {source_text}\nKorreksjon:{target_text}"```
 * Few-shot results show the average scores across 5 repetitions
 * Evaluation script: https://github.com/ltgoslo/norallm/blob/main/initial_evaluation/gec.py
 * Performance metrics: the evaluation metric uses [ERRANT](https://github.com/chrisjbryant/errant/tree/main), which identifies edit-spans and then calculates the F_{0.5} scores between the gold edits and predicted edits. 
 </details>
 <details open>
 <summary>Results on [the ASK corpus](https://huggingface.co/datasets/ltg/ask-gec) (ERRANT F_{0.5})</summary>
 |Model|0-shot (F0.5)|1-shot (F0.5)|32-shot (F0.5)|
 |---|---|---|---|
 |NorMistral-7b-warm|**40.8**|41.8|48.5|
 |NorMistral-7b-scratch|22.1|28.8|42.1|
 |NorBLOOM-7b|8.7|24.5|32.0|
 |NB-GPT-J|9.1|28.2|30.6|
 |GPT-Sw3-6.7B|30.5|42.9|**50.6**|
 |GPT-Sw3-6.7B-v2|40.6|**43.4**|49.8|
 |Falcon-7B|10.8|12.4|15.5|
 |Mistral-7B-v0.1|26.0|27.4|30.6|
 </details>
 ### Machine translation
 [Tatoeba](https://huggingface.co/datasets/Helsinki-NLP/tatoeba_mt) [(Tiedemann, 2020)](https://aclanthology.org/2020.wmt-1.139/) is a benchmark for machine translation, which includes hundreds of language pairs. We consider six language pairs (English <-> Bokmål, English <-> Nynorsk, and Bokmål <-> Nynorsk).
 <details>
 <summary>Method (click to expand)</summary>
 * Evaluation setting: zero-shot and few-shot settings via natural language generation using the greedy decoding strategy.
 * Prompt: ```"{source_language}: {source_text}\n{target_language}:{target_text}"```, where the ```source_language``` and ```target_language``` are ```Engelsk```, ```Bokmål```, or ```Nynorsk```. Based on [Garcia et al. (2023)](https://arxiv.org/abs/2302.01398).
 * Few-shot results show the average scores across 5 repetitions
 * Evaluation script: https://github.com/ltgoslo/norallm/blob/main/initial_evaluation/machine_translation.py
 * Performance metrics: BLEU ([Papineni et al., 2002](https://aclanthology.org/P02-1040/)) and chrF++ ([Popović, 2015](https://aclanthology.org/W15-3049/)).
 </details>
 <details open>
 <summary>English → Norwegian Bokmål</summary>
 |Model|0-shot (BLEU/chrF++)|1-shot (BLEU/chrF++)|5-shot (BLEU/chrF++)|
 |---|---|---|---|
 |NorMistral-7b-warm|**55.8**/**70.7**|**56.7**/**71.5**|57.7/72.4|
 |NorMistral-7b-scratch|46.4/62.9|50.4/66.3|52.1/67.6|
 |NorBLOOM-7b|37.1/53.6|50.1/65.8|52.0/67.6|
 |NB-GPT-J|8.6/39.1|35.9/64.5|47.2/68.7|
 |GPT-Sw3-6.7B|21.8/55.2|54.5/69.6|**58.6**/**73.2**|
 |GPT-Sw3-6.7B-v2|20.6/53.2|51.2/66.6|58.4/73.0|
 |Falcon-7B|19.1/40.1|20.6/41.8|22.1/43.6|
 |Mistral-7B-v0.1|32.5/51.9|35.4/55.1|36.3/56.0|
 </details>
 <details open>
 <summary>English → Norwegian Nynorsk</summary>
 |Model|0-shot (BLEU/chrF++)|1-shot (BLEU/chrF++)|5-shot (BLEU/chrF++)|
 |---|---|---|---|
 |NorMistral-7b-warm|**43.6**/**62.0**|**44.2**/**63.2**|44.3/**63.7**|
 |NorMistral-7b-scratch|38.0/56.9|39.2/57.9|40.7/59.3|
 |NorBLOOM-7b|35.6/54.7|36.6/56.3|38.1/57.4|
 |NB-GPT-J|1.7/14.7|6.3/34.1|35.2/60.4|
 |GPT-Sw3-6.7B|13.4/44.3|43.6/62.5|**44.5**/63.5|
 |GPT-Sw3-6.7B-v2|14.8/45.5|43.7/62.3|44.0/63.6|
 |Falcon-7B|6.4/28.6|8.3/30.5|9.3/32.1|
 |Mistral-7B-v0.1|11.6/35.7|13.5/38.7|15.0/40.0|
 </details>
 <details open>
 <summary>Norwegian Bokmål → English</summary>
 |Model|0-shot (BLEU/chrF++)|1-shot (BLEU/chrF++)|5-shot (BLEU/chrF++)|
 |---|---|---|---|
 |NorMistral-7b-warm|**56.7**/**70.6**|**57.7**/**71.7**|**58.5**/**72.2**|
 |NorMistral-7b-scratch|48.1/62.9|51.5/66.6|52.6/67.6|
 |NorBLOOM-7b|46.0/61.5|51.3/66.7|51.7/66.9|
 |NB-GPT-J|23.9/55.3|32.3/63.1|48.5/68.7|
 |GPT-Sw3-6.7B|47.9/67.8|52.4/70.6|50.0/70.7|
 |GPT-Sw3-6.7B-v2|38.8/59.6|49.0/68.6|50.7/70.6|
 |Falcon-7B|42.4/58.5|47.3/62.3|48.6/63.3|
 |Mistral-7B-v0.1|53.8/68.2|54.6/69.0|56.9/70.7|
 </details>
 <details open>
 <summary>Norwegian Nynorsk → English</summary>
 |Model|0-shot (BLEU/chrF++)|1-shot (BLEU/chrF++)|5-shot (BLEU/chrF++)|
 |---|---|---|---|
 |NorMistral-7b-warm|**55.1**/**68.4**|**55.5**/**69.5**|56.0/69.8|
 |NorMistral-7b-scratch|47.1/61.9|49.4/64.2|52.3/66.2|
 |NorBLOOM-7b|45.0/59.3|48.3/64.0|49.0/64.7|
 |NB-GPT-J|2.9/19.5|10.1/41.0|44.4/66.9|
 |GPT-Sw3-6.7B|47.8/66.2|49.1/68.1|49.6/69.4|
 |GPT-Sw3-6.7B-v2|46.3/67.5|48.9/69.3|**58.2**/**72.8**|
 |Falcon-7B|21.6/40.6|31.7/47.4|36.6/57.1|
 |Mistral-7B-v0.1|40.7/57.1|46.2/60.7|49.9/63.8|
 </details>
 <details open>
 <summary>Norwegian Bokmål → Norwegian Nynorsk</summary>
 |Model|0-shot (BLEU/chrF++)|1-shot (BLEU/chrF++)|5-shot (BLEU/chrF++)|
 |---|---|---|---|
 |NorMistral-7b-warm|**75.8**/**87.5**|74.0/**86.9**|75.3/87.5|
 |NorMistral-7b-scratch|38.0/56.9|39.2/57.9|40.7/59.3|
 |NorBLOOM-7b|71.5/84.4|70.1/84.1|71.9/85.1|
 |NB-GPT-J|6.6/35.5|9.6/41.0|26.0/64.7|
 |GPT-Sw3-6.7B|63.6/82.8|74.7/86.0|75.8/86.9|
 |GPT-Sw3-6.7B-v2|57.5/81.1|**75.3**/86.7|**76.7**/**87.6**|
 |Falcon-7B|28.7/59.2|29.8/60.8|32.1/62.3|
 |Mistral-7B-v0.1|32.0/62.2|32.9/62.6|35.2/63.9|
 </details>
 <details open>
 <summary>Norwegian Nynorsk → Norwegian Bokmål</summary>
 |Model|0-shot (BLEU/chrF++)|1-shot (BLEU/chrF++)|5-shot (BLEU/chrF++)|
 |---|---|---|---|
 |NorMistral-7b-warm|**88.1**/**93.6**|**89.2**/**94.3**|**89.3**/**94.6**|
 |NorMistral-7b-scratch|85.1/91.4|86.6/92.4|87.4/93.0|
 |NorBLOOM-7b|78.7/88.5|84.2/90.7|87.4/93.0|
 |NB-GPT-J|2.7/18.5|6.9/35.6|52.9/84.3|
 |GPT-Sw3-6.7B|652.3/82.4|86.1/92.5|87.8/93.6|
 |GPT-Sw3-6.7B-v2|72.0/88.6|86.1/92.5|88.2/93.9|
 |Falcon-7B|36.7/61.6|38.3/63.5|45.8/68.1|
 |Mistral-7B-v0.1|57.0/74.8|59.9/77.5|62.6/79.1|
 </details>
 _____
 ## Hardware and Software
 **Training Factors:** The models were pretrained using the Megatron-DeepSpeed library on [the LUMI cluster in Finland](https://lumi-supercomputer.eu/).
 **Carbon Footprint:** Pretraining one model took approximately 70k GPU hours of computation on AMD MI250X GPUs (assuming 2 GPUs per one AMD MI250X device), each of which draws 500W.
 LUMI is [one of the most eco-efficient data centers in the world](https://www.lumi-supercomputer.eu/sustainable-future/), and its energy consumption is covered 100% with renewable electricity.
 _____
 ## Example usage
 Let's try to use this model for English-to-Norwegian machine translation using simple zero-shot prompting:
 ```python
 from transformers import AutoTokenizer, AutoModelForCausalLM
 # First, we will have to import the tokenizer and the language model
 tokenizer = AutoTokenizer.from_pretrained("norallm/normistral-7b-scratch")
 model = AutoModelForCausalLM.from_pretrained("norallm/normistral-7b-scratch").cuda().eval()
 # Now we will define the zero-shot prompt template
 prompt = """Engelsk: {0}
 Bokmål:"""
 # A function that will take care of generating the output
@torch.no_grad()
 def generate(text):
    text = prompt.format(text)
    input_ids = tokenizer(text, return_tensors='pt').input_ids.cuda()
    prediction = model.generate(
        input_ids,
        max_new_tokens=64,
        do_sample=False,
        eos_token_id=tokenizer('\n').input_ids
    )
    return tokenizer.decode(prediction[0, input_ids.size(1):]).strip()
 # Now you can simply call the generate function with an English text you want to translate:
 generate("I'm super excited about this Norwegian NORA model! Can it translate these sentences?")
 # > this should output: 'Jeg er super spent på denne norske NORA modellen! Kan den oversette disse setningene?'
 ```
 ## Example usage on a GPU with ~16GB VRAM (try for yourself [in Google Colab](https://colab.research.google.com/drive/1AQgJ8lN-SNOqkUKj4xpQI5rr0R7V2Xzy?usp=sharing))
 Install bitsandbytes if you want to load in 8bit
 ```bash
 pip install bitsandbytes
 pip install accelerate
 ```
 ```python
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 tokenizer = AutoTokenizer.from_pretrained(
    "norallm/normistral-7b-scratch"
 )
 # This setup needs about 8gb VRAM
 # Setting `load_in_8bit=False` -> 15gb VRAM
 # Using `torch.float32` and `load_in_8bit=False` -> 21gb VRAM
 model = AutoModelForCausalLM.from_pretrained(
    "norallm/normistral-7b-scratch",
    device_map='auto',
    load_in_8bit=True,
    torch_dtype=torch.bfloat16
 )
 ```
 ### Citation
 ```bibtex
@inproceedings{samuel-etal-2025-small,
    title = "Small Languages, Big Models: {A} Study of Continual Training on Languages of {Norway}",
    author = "Samuel, David  and
      Mikhailov, Vladislav  and
      Velldal, Erik  and
      {\O}vrelid, Lilja  and
      Charpentier, Lucas Georges Gabriel  and
      Kutuzov, Andrey  and
      Oepen, Stephan",
    editor = "Johansson, Richard  and
      Stymne, Sara",
    booktitle = "Proceedings of the Joint 25th Nordic Conference on Computational Linguistics and 11th Baltic Conference on Human Language Technologies (NoDaLiDa/Baltic-HLT 2025)",
    month = mar,
    year = "2025",
    address = "Tallinn, Estonia",
    publisher = "University of Tartu Library",
    url = "https://aclanthology.org/2025.nodalida-1.61/",
    pages = "573--608",
    ISBN = "978-9908-53-109-0"
 }
 ```
--- a/config.json
+++ b/config.json
@@ -0,0 +1,25 @@
 {
  "architectures": [
    "MistralForCausalLM"
  ],
  "bos_token_id": 1,
  "eos_token_id": 2,
  "pad_token_id": 2,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 2048,
  "model_type": "mistral",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "rms_norm_eps": 1e-05,
  "rope_theta": 10000.0,
  "sliding_window": 2048,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.34.0.dev0",
  "use_cache": true,
  "vocab_size": 32768
 }
--- a/model-00001-of-00003.safetensors
+++ b/model-00001-of-00003.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:3cd4af1eab64194aebe9faaaec1615ee99c5eb5c8a8f560ee53f6af6c1c23b8b
 size 4832013168
--- a/model-00002-of-00003.safetensors
+++ b/model-00002-of-00003.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:ddfb80044668fe41e034c322ede99cc02a3b8f7b861be37f8ac6af2d6ce36dc5
 size 4798475552
--- a/model-00003-of-00003.safetensors
+++ b/model-00003-of-00003.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:4251fdf152e92e9b88c59393fb0b225ee8533b6d5447b78cebb52221e19ae7f6
 size 4865592216
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,298 @@
 {
  "metadata": {
    "total_size": 14496047104
  },
  "weight_map": {
    "lm_head.weight": "model-00003-of-00003.safetensors",
    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.norm.weight": "model-00003-of-00003.safetensors"
  }
 }
--- a/normistral-7b-scratch.Q4_K_M.gguf
+++ b/normistral-7b-scratch.Q4_K_M.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b825a777a30cbff9181067b67a95efba38c3f34d426113943b9c41067d3d2ef4
 size 4373360096
--- a/normistral-7b-scratch.Q5_K_M.gguf
+++ b/normistral-7b-scratch.Q5_K_M.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:17078129bdf2568664de2d9cb61d51d48d7476475c80229b725f3dd6aa1b9e04
 size 5136723424
--- a/normistral-7b-scratch.Q6_K.gguf
+++ b/normistral-7b-scratch.Q6_K.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b0876bc485f7a5db0b0d579b045fee0868997290d7180993490b346d9163112b
 size 5947796960
--- a/normistral-7b-scratch.Q8_0.gguf
+++ b/normistral-7b-scratch.Q8_0.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:2e1084de3d94d9b561678bde202be4e2c32c934ce73b3901214b548372ef9016
 size 7703113184
--- a/pytorch_model.bin
+++ b/pytorch_model.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:9974eba4a7d380ce3a1710693dfa814512bcf2bd9360af3159da7b5a715475fc
 size 14496143545
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1 @@
 {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "cls_token": "</s>"}
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,2 @@
 {"unk_token": "<unk>", "eos_token": "</s>", "bos_token": "<s>", "tokenizer_class": "PreTrainedTokenizerFast"}
		`@@ -0,0 +1 @@`
							`{"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "cls_token": "</s>"}`
		`@@ -0,0 +1,2 @@`
							`{"unk_token": "<unk>", "eos_token": "</s>", "bos_token": "<s>", "tokenizer_class": "PreTrainedTokenizerFast"}`