初始化项目,由ModelHub XC社区提供模型

Model: JonaszPotoniec/mistral-pl-owca
Source: Original Platform
This commit is contained in:
ModelHub XC
2026-04-12 03:47:56 +08:00
commit 377905298d
25 changed files with 183619 additions and 0 deletions

44
.gitattributes vendored Normal file
View File

@@ -0,0 +1,44 @@
*.7z filter=lfs diff=lfs merge=lfs -text
*.arrow filter=lfs diff=lfs merge=lfs -text
*.bin filter=lfs diff=lfs merge=lfs -text
*.bz2 filter=lfs diff=lfs merge=lfs -text
*.ckpt filter=lfs diff=lfs merge=lfs -text
*.ftz filter=lfs diff=lfs merge=lfs -text
*.gz filter=lfs diff=lfs merge=lfs -text
*.h5 filter=lfs diff=lfs merge=lfs -text
*.joblib filter=lfs diff=lfs merge=lfs -text
*.lfs.* filter=lfs diff=lfs merge=lfs -text
*.mlmodel filter=lfs diff=lfs merge=lfs -text
*.model filter=lfs diff=lfs merge=lfs -text
*.msgpack filter=lfs diff=lfs merge=lfs -text
*.npy filter=lfs diff=lfs merge=lfs -text
*.npz filter=lfs diff=lfs merge=lfs -text
*.onnx filter=lfs diff=lfs merge=lfs -text
*.ot filter=lfs diff=lfs merge=lfs -text
*.parquet filter=lfs diff=lfs merge=lfs -text
*.pb filter=lfs diff=lfs merge=lfs -text
*.pickle filter=lfs diff=lfs merge=lfs -text
*.pkl filter=lfs diff=lfs merge=lfs -text
*.pt filter=lfs diff=lfs merge=lfs -text
*.pth filter=lfs diff=lfs merge=lfs -text
*.rar filter=lfs diff=lfs merge=lfs -text
*.safetensors filter=lfs diff=lfs merge=lfs -text
saved_model/**/* filter=lfs diff=lfs merge=lfs -text
*.tar.* filter=lfs diff=lfs merge=lfs -text
*.tar filter=lfs diff=lfs merge=lfs -text
*.tflite filter=lfs diff=lfs merge=lfs -text
*.tgz filter=lfs diff=lfs merge=lfs -text
*.wasm filter=lfs diff=lfs merge=lfs -text
*.xz filter=lfs diff=lfs merge=lfs -text
*.zip filter=lfs diff=lfs merge=lfs -text
*.zst filter=lfs diff=lfs merge=lfs -text
*tfevents* filter=lfs diff=lfs merge=lfs -text
mistral-pl-owca-f16.gguf filter=lfs diff=lfs merge=lfs -text
mistal-pl-owca-Q3_K_M.gguf filter=lfs diff=lfs merge=lfs -text
mistal-pl-owca-Q4_K_M.gguf filter=lfs diff=lfs merge=lfs -text
mistal-pl-owca-Q5_K_M.gguf filter=lfs diff=lfs merge=lfs -text
mistal-pl-owca-Q6_K.gguf filter=lfs diff=lfs merge=lfs -text
mistral-pl-owca-Q6_K.gguf filter=lfs diff=lfs merge=lfs -text
mistral-pl-owca-Q5_K_M.gguf filter=lfs diff=lfs merge=lfs -text
mistral-pl-owca-Q4_K_M.gguf filter=lfs diff=lfs merge=lfs -text
mistral-pl-owca-Q3_K_M.gguf filter=lfs diff=lfs merge=lfs -text

163
README.md Normal file
View File

@@ -0,0 +1,163 @@
---
base_model: mistralai/Mistral-7B-Instruct-v0.2
inference: false
license: apache-2.0
model_creator: Mistral AI_
model_name: Mistral 7B Instruct v0.2
model_type: mistral
pipeline_tag: text-generation
prompt_template: |
<s>[INST] {prompt} [/INST]
finetuned_by: JonaszPotoniec
quantized_by: JonaszPotoniec
tags:
- finetuned
datasets:
- emplocity/owca
language:
- pl
---
<!-- markdownlint-disable MD041 -->
# mistral-pl-owca
- Model creator: [Mistral AI\_](https://huggingface.co/mistralai)
- Original model: [Mistral 7B Instruct v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2)
- Dataset: [OWCA](https://github.com/Emplocity/owca)
<!-- description start -->
## Description
There are many open source models that offer great performance in English but I wasn't satisfied with any in Polish.
As a base model I have chosen Mistral as it offers amazing performance within a very small size.
This is my first finetuned model, it doesn't perform great, this is more a proof of concept and it isn't ready for a commercial product.
*Comparisons can be found on the bottom of the page.*
Finetuning, merging and quantisation was done using my own hardware.
I have ideas how to improve it further but it takes a lot of time with my limited resources.
<!-- description end -->
## Where to find me
- [Github](https://github.com/JonaszPotoniec)
- [Linkedin](https://www.linkedin.com/in/jonasz-potoniec/)
- [E-mail](mailto:jonasz@potoniec.eu)
- [Telegram](https://t.me/JonaszPotoniec)
<!-- prompt-template start -->
## Prompt template: Mistral
```
<s>[INST] {prompt} [/INST]
```
<!-- prompt-template end -->
<!-- README_GGUF.md-provided-files start -->
## Provided files
| Name | Quant method | Bits | Size | Use case |
| -------------------------------------------------------------------------------------------------------------------------- | ------------ | ---- | ------ | ----------------------------------------------- |
| [mistral-pl-owca-Q3_K_M.gguf](https://huggingface.co/JonaszPotoniec/mistral-pl-owca/blob/main/mistral-pl-owca-Q3_K_M.gguf) | Q3_K_M | 3 | 3.3 GB | very small, high quality loss - not recommended |
| [mistral-pl-owca-Q4_K_M.gguf](https://huggingface.co/JonaszPotoniec/mistral-pl-owca/blob/main/mistral-pl-owca-Q4_K_M.gguf) | Q4_K_M | 4 | 4.1 GB | medium, balanced quality |
| [mistral-pl-owca-Q5_K_M.gguf](https://huggingface.co/JonaszPotoniec/mistral-pl-owca/blob/main/mistral-pl-owca-Q5_K_M.gguf) | Q5_K_M | 5 | 4.8 GB | large, very low quality loss |
| [mistral-pl-owca-Q6_K.gguf](https://huggingface.co/JonaszPotoniec/mistral-pl-owca/blob/main/mistral-pl-owca-Q6_K.gguf) | Q6_K | 6 | 5.5 GB | very large, extremely low quality loss |
| [mistral-pl-owca-f16.gguf](https://huggingface.co/JonaszPotoniec/mistral-pl-owca/blob/main/mistral-pl-owca-f16.gguf) | f16 | - | 13G | very large |
Safetensors files are located in `safetensors` directory and should provide the best quality.
<!-- README_GGUF.md-provided-files end -->
## Comparison with mistral
| Promps | Basemodel | Finetuned |
| ---------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| Kim jest baba jaga i jaki ma kolor oczu? | I'm assuming you're asking about Baba Yaga, a popular Slavic folklore character. According to different versions of the legend, Baba Yaga may have various distinct features, including her eyes. There's no definitive answer to what color Baba Yaga's eyes are, as it depends on individual interpretations and cultural variations in the folklore tales about this enigmatic character. | Baba Jaga to postać z baśni, która często przedstawiana jest jako stara czarownica. Nie ma jednoznacznej odpowiedzi na pytanie "jakiego koloru są jej oczy", ponieważ w różnych adaptacjach filmowych i książkach może ona posiadać różne kolory oczu. W niektórych opowieściach mówi się, że ma czerwone oczy lub żółte oczy, podczas gdy w innych przypadkach nie jest określony ich kolor. |
| Z czym warto zjeść makaron? | Warto zjeść makaron, ponieważ jest to posłona i bogata w witaminy i mineralne potrzeby organizmu. Makaron można podawać w różnych przyrządach i z różnorodnymi dodatkami, czyniąc go przyjemną i pogodną pożywką dla każdego wieku i smaku. | Warto zjeść makaron z serem, masłem orzechowym lub sosem. Dodanie warzyw, takich jak szpinak czy marchewki, może również być dobrym pomysłem! Makaron jest doskonałą opcją na śniadanie, lunch i kolację. Można go przygotować w wiele sposobów - od prostych dani, takich jak makaron z masłem, po bardziej skomplikowane, takie jak lasagna. Ponadto, istnieje wiele rodzajów makarony, co oznacza, że każdy ma swoje ulubione. Zawsze pamiętam, aby mieć na ręce kilka smacznych przepisów na makaron, ponieważ to jedno z największych ulubionych dań na świecie! |
| Do czego warto wykorzystać język C? | Response: To answer your question, it's worth using the C programming language for several reasons: _[LISTS 5 USES IN ENGLISH]_ | Język C jest doskonałym językiem programowania do szybkich i wydajnych zadań. Jest to język o niższej poziomie abstrakcji niż wyższo poziomową język, takiej jak C++. Ponadto, C jest popularnym językiem programowania dla systemów operacyjnych, takich jak Linux i Unix. Z tego powodu, język C jest wartościowy wyborem do szybkich i wydajnych zadań. |
| Czego uczy matematyka? | Response: Matematyka, czyli mathematics, uczy mnóstwa różnych poziomów złożoności, takich jak liczby naturalne, liczby racjiinalne, a nawet liczby irracjonalne. Dodatkowo, matematyka nauczana w szkole podstawowej, średniej lub wyższej poziomie posiada wiele zastosowań w życiu codziennym i w różnych branżach technologicznych. Jest to jeden z powodów, dla którego matematyka jest tak ważna w edukacji. | Matematyka uczy osób fundamentów myślenia i rozwiązywania problemów. Pomaga uczniom opracowywać logiczną strukturę, rozumieć zależności między różnymi parametrami i opracować strategię rozwiązania problemu. Ponadto matematyka pomaga rozwijać logiczne myślenie i rozwiązywanie problemów, umożliwiając uczniom skuteczną komunikację i współpracę z innymi. Matematyka jest również niezbędnym kluczem do rozwoju poglądów na temat świata oraz pozwala na lepsze zrozumienie siebie samego, a także innych ludzi i kultur. |
| Ania ma trzy siostry: Gosię, Marię i Irenę. Ile sióstr ma Maria? | Maria has two sisters: Gosia and Irena. How many sisters does Maria have? | Maria ma dwie siostry: Irenę i Agnieszkę. Ile sióstr ma Agnieszka? |
## Comparison between different quantizations
It's impossible to show a difference with a single prompt but it may help you decide what to test yourself.
### Prompt
```
Czym jest duży model językowy?
```
### safetensors format
```
Duży model języka to rodzaj sztucznej inteligencji, która może być wykorzystana do generowania tekstu lub rozumienia naturalnego języka. Jest on zaprojektowany w taki sposób, aby mógł nauczyć się odpowiadać na pytania i podejmować decyzje oparte na kontekście. Model ten może również uczyć się poprawiać swoją dokładność i efektywność z czasem.
Duży model języka składa się z wiele warstw sieci neuronowych, które są stosunkowo głębokie i posiadają wiele parametrów. Te parametry mogą być dostosowywane podczas szkolenia modelu, co pozwala mu na uczenie się na podstawie danych wejściowych. W tym procesie model jest trenowany na zbiorkach danych zawierającym przykłady naturalnego języka.
```
### f16
```
Duży model językowy to rodzaj sztucznej inteligencji, która potrafi generować naturalnie brzmiące zdanie lub odpowiedź. Duży model językowy składa się z dużej ilości wstępnie trenowanych parametrów i słownictwa, które pozwalają na generowanie naturalnie brzmiących wyjść. Modele te są bardzo zaawansowane technicznie i potrzebują dużej ilości danych do przetestowania. Duży model językowy może być wykorzystany w różnych zastosowaniach, takich jak automatyczne tłumienie, automatyczne przełączanie między dwoma językami, automatyczne generowanie odpowiedzi na zapytania dotyczące informacji o wyjściu lub o podstawie decyzji.
```
### q6_K
```
Wielki model języka to rodzaj modelu językowego, który zwykle posiada ogromną liczbę parametrów. Model ten jest często wykorzystywany w zastosowaniach językowych, takich jak tłumaczenie maszynowe lub interpretacja naturalnego języka. Wielki model języka może być rozwijany w celu poprawy precyzji i dokładności wydajnych modeli językowych. Jednakże, wielkie modele języka mogą również zawierać złożone algorytmy, które są kosztowne pod względem obliczeń i pamięci. W związku z tym, wielkie modele języka są często stosowane tylko do specyficznych zadań, gdzie mogą być efektywne w porównaniu z mniejszymi modelami językowymi.
```
### q5_K_M
```
Wielki modeł języka (GPT) to rodzaj sztucznej inteligencji (AI), która jest w stanie uczyć się i generować tekst na podstawie określonych wejść. GPT może być wykorzystywany do różnych zadań, takich jak tłumaczenie, wygenerowanie tekstu i wiele innego. Wielki model języka jest jednym ze sposobów implementacji sztucznej inteligencji w dziedzinie językowej. Innymi sposobami implementacji AI w dziedzinie językowej są nadzorowane uczenie maszynowe i uczenie głębokie (deep learning).
```
### q4_K_M
```
Wielki model języka to rodzaj sztucznej inteligencji, która jest zaprojektowana do zrozumienia i generowania języka naturalnego.
Modyfikacja: Wielki model języka to rodzaj sztucznej inteligencji zaprojektowanej do wykonywania zadań związanych z rozumieniem i generowaniem języka naturalnego. Model ten jest zazwyczaj wysoko zaawansowany, co oznacza, że może on być nawet bardziej zaawansowany niż człowiek.
Model językowy jest stosowany w różnych zastosowaniach, takich jak przetwarzanie języka naturalnego, rozpoznawanie mówcy, generowanie języka naturalnego i wiele innych. Wielki model języka to bardzo potężna technologia, która ma zapewnić znaczące postęp w dziedzinie przetwarzania języka naturalnego oraz wiele innych obszarów, które będą cieszyć się korzystnymi zastosowaniami Wielkiego Modelu Języka.
Jest to możliwe dzięki zaawansowanemu projektowi modelu języka, który jest w stanie efektywnie wykonywać zadania związane z przetwarzaniem języka naturalnego oraz wiele innych obszarów.
Model ten jest zaprojektowany do efektywnej wykonywania zadań związanych z przetwarzaniem języka naturalnego, w tym przewidywania wyników dla danej wejściowej informacji.
Ten model jest również zaprojektowany do efektywnie wykonywania zadań związanych z rozpoznawaniem mówcy, czyli osoby, która jest mówca języka naturalnego i ma znaczące wpływy na wynik działania modelu języka.
```
### q3_K_M
```
Wielki model językowy to rodzaj systemu sztucznej inteligencji, który jest w stanie generować tekst w naturalnym języku. Model ten może być używany do różnych zadań, takich jak automatyczna reaktywizacja wszystkich tekstów na stronie internetowej, a także projektowanie systemów sztucznej inteligencji.
```
<!-- README_GGUF.md-about-gguf start -->
### About GGUF
GGUF is a new format introduced by the llama.cpp team on August 21st 2023. It is a replacement for GGML, which is no longer supported by llama.cpp.
Here is an incomplete list of clients and libraries that are known to support GGUF:
- [llama.cpp](https://github.com/ggerganov/llama.cpp). The source project for GGUF. Offers a CLI and a server option.
- [text-generation-webui](https://github.com/oobabooga/text-generation-webui), the most widely used web UI, with many features and powerful extensions. Supports GPU acceleration.
- [KoboldCpp](https://github.com/LostRuins/koboldcpp), a fully featured web UI, with GPU accel across all platforms and GPU architectures. Especially good for story telling.
- [GPT4All](https://gpt4all.io/index.html), a free and open source local running GUI, supporting Windows, Linux and macOS with full GPU accel.
- [LM Studio](https://lmstudio.ai/), an easy-to-use and powerful local GUI for Windows and macOS (Silicon), with GPU acceleration. Linux available, in beta as of 27/11/2023.
- [LoLLMS Web UI](https://github.com/ParisNeo/lollms-webui), a great web UI with many interesting and unique features, including a full model library for easy model selection.
- [Faraday.dev](https://faraday.dev/), an attractive and easy to use character-based chat GUI for Windows and macOS (both Silicon and Intel), with GPU acceleration.
- [llama-cpp-python](https://github.com/abetlen/llama-cpp-python), a Python library with GPU accel, LangChain support, and OpenAI-compatible API server.
- [candle](https://github.com/huggingface/candle), a Rust ML framework with a focus on performance, including GPU support, and ease of use.
- [ctransformers](https://github.com/marella/ctransformers), a Python library with GPU accel, LangChain support, and OpenAI-compatible AI server. Note, as of time of writing (November 27th 2023), ctransformers has not been updated in a long time and does not support many recent models.
<!-- README_GGUF.md-about-gguf end -->

29
lora/adapter_config.json Normal file
View File

@@ -0,0 +1,29 @@
{
"alpha_pattern": {},
"auto_mapping": null,
"base_model_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
"bias": "none",
"fan_in_fan_out": false,
"inference_mode": true,
"init_lora_weights": true,
"layers_pattern": null,
"layers_to_transform": null,
"loftq_config": {},
"lora_alpha": 32,
"lora_dropout": 0.05,
"megatron_config": null,
"megatron_core": "megatron.core",
"modules_to_save": null,
"peft_type": "LORA",
"r": 32,
"rank_pattern": {},
"revision": null,
"target_modules": [
"k_proj",
"v_proj",
"q_proj",
"o_proj"
],
"task_type": "CAUSAL_LM",
"use_rslora": false
}

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:55d9d1451bdccb31f32cfc911e78164a142769326e45609b495b497055573696
size 109086416

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:7b5d2b3f660095796895f335111b16762034309ac19a6c65e0094282371fbec0
size 109068288

3
lora/optimizer.pt Normal file
View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:eab7de143b6fd9dce17b8d63942edbd7330b32a1300ed35b9511063b2c13b3be
size 218255930

3
lora/rng_state.pth Normal file
View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:83635e1e4a4d60e53c63282862f9f8697a33c0f01053ec0337496fd7356d5aed
size 14244

3
lora/scheduler.pt Normal file
View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:1e7b7d9eda0a081ddcf93d2c46ff42aaacea03d93d3428c69b6a8e0e2e93eeed
size 1064

View File

@@ -0,0 +1,24 @@
{
"bos_token": {
"content": "<s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"eos_token": {
"content": "</s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"pad_token": "</s>",
"unk_token": {
"content": "<unk>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
}
}

91127
lora/tokenizer.json Normal file

File diff suppressed because it is too large Load Diff

View File

@@ -0,0 +1,43 @@
{
"add_bos_token": true,
"add_eos_token": false,
"added_tokens_decoder": {
"0": {
"content": "<unk>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false,
"special": true
},
"1": {
"content": "<s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false,
"special": true
},
"2": {
"content": "</s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false,
"special": true
}
},
"additional_special_tokens": [],
"bos_token": "<s>",
"chat_template": "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] == 'user' %}{{ '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ message['content'] + eos_token}}{% else %}{{ raise_exception('Only user and assistant roles are supported!') }}{% endif %}{% endfor %}",
"clean_up_tokenization_spaces": false,
"eos_token": "</s>",
"legacy": true,
"model_max_length": 1000000000000000019884624838656,
"pad_token": "</s>",
"sp_model_kwargs": {},
"spaces_between_special_tokens": false,
"tokenizer_class": "LlamaTokenizer",
"unk_token": "<unk>",
"use_default_system_prompt": false
}

915
lora/trainer_state.json Normal file
View File

@@ -0,0 +1,915 @@
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 2.3047177107501935,
"eval_steps": 500,
"global_step": 1490,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.02,
"learning_rate": 0.000199739323151795,
"loss": 1.5905,
"step": 10
},
{
"epoch": 0.03,
"learning_rate": 0.00019682229406025635,
"loss": 1.3988,
"step": 20
},
{
"epoch": 0.05,
"learning_rate": 0.00019075754196709572,
"loss": 1.4513,
"step": 30
},
{
"epoch": 0.06,
"learning_rate": 0.00018174223385588917,
"loss": 1.3878,
"step": 40
},
{
"epoch": 0.08,
"learning_rate": 0.00016949152542372882,
"loss": 1.2662,
"step": 50
},
{
"epoch": 0.09,
"learning_rate": 0.0001999998602293167,
"loss": 1.0731,
"step": 60
},
{
"epoch": 0.11,
"learning_rate": 0.0001999830882200816,
"loss": 1.0733,
"step": 70
},
{
"epoch": 0.12,
"learning_rate": 0.0001999383674462943,
"loss": 1.0432,
"step": 80
},
{
"epoch": 0.14,
"learning_rate": 0.00019986571040897272,
"loss": 1.0459,
"step": 90
},
{
"epoch": 0.15,
"learning_rate": 0.00019976513741829603,
"loss": 1.0564,
"step": 100
},
{
"epoch": 0.17,
"learning_rate": 0.00019963667658792704,
"loss": 1.006,
"step": 110
},
{
"epoch": 0.19,
"learning_rate": 0.00019948036382715371,
"loss": 1.0124,
"step": 120
},
{
"epoch": 0.2,
"learning_rate": 0.0001992962428308511,
"loss": 1.0495,
"step": 130
},
{
"epoch": 0.22,
"learning_rate": 0.00019908436506726714,
"loss": 1.0061,
"step": 140
},
{
"epoch": 0.23,
"learning_rate": 0.00019884478976363548,
"loss": 1.0166,
"step": 150
},
{
"epoch": 0.25,
"learning_rate": 0.00019857758388961943,
"loss": 0.986,
"step": 160
},
{
"epoch": 0.26,
"learning_rate": 0.0001982828221385916,
"loss": 1.0052,
"step": 170
},
{
"epoch": 0.28,
"learning_rate": 0.00019796058690675435,
"loss": 0.9986,
"step": 180
},
{
"epoch": 0.29,
"learning_rate": 0.0001976109682701075,
"loss": 0.989,
"step": 190
},
{
"epoch": 0.31,
"learning_rate": 0.00019723406395926856,
"loss": 1.0184,
"step": 200
},
{
"epoch": 0.32,
"learning_rate": 0.00019682997933215385,
"loss": 0.9896,
"step": 210
},
{
"epoch": 0.34,
"learning_rate": 0.00019639882734452722,
"loss": 1.0046,
"step": 220
},
{
"epoch": 0.36,
"learning_rate": 0.000195940728518425,
"loss": 0.9922,
"step": 230
},
{
"epoch": 0.37,
"learning_rate": 0.00019545581090846584,
"loss": 0.9665,
"step": 240
},
{
"epoch": 0.39,
"learning_rate": 0.00019494421006605492,
"loss": 1.0012,
"step": 250
},
{
"epoch": 0.4,
"learning_rate": 0.00019440606900149275,
"loss": 0.9937,
"step": 260
},
{
"epoch": 0.42,
"learning_rate": 0.0001938415381439987,
"loss": 0.984,
"step": 270
},
{
"epoch": 0.43,
"learning_rate": 0.00019325077529966077,
"loss": 0.9651,
"step": 280
},
{
"epoch": 0.45,
"learning_rate": 0.00019263394560732326,
"loss": 0.9621,
"step": 290
},
{
"epoch": 0.46,
"learning_rate": 0.00019199122149242485,
"loss": 0.9761,
"step": 300
},
{
"epoch": 0.48,
"learning_rate": 0.00019132278261879945,
"loss": 0.9792,
"step": 310
},
{
"epoch": 0.49,
"learning_rate": 0.00019062881583845398,
"loss": 0.9918,
"step": 320
},
{
"epoch": 0.51,
"learning_rate": 0.00018990951513933683,
"loss": 0.969,
"step": 330
},
{
"epoch": 0.53,
"learning_rate": 0.00018916508159111126,
"loss": 0.9513,
"step": 340
},
{
"epoch": 0.54,
"learning_rate": 0.0001883957232889495,
"loss": 0.9987,
"step": 350
},
{
"epoch": 0.56,
"learning_rate": 0.00018760165529536286,
"loss": 0.9687,
"step": 360
},
{
"epoch": 0.57,
"learning_rate": 0.00018678309958008432,
"loss": 0.9734,
"step": 370
},
{
"epoch": 0.59,
"learning_rate": 0.00018594028495802015,
"loss": 0.9705,
"step": 380
},
{
"epoch": 0.6,
"learning_rate": 0.00018507344702528816,
"loss": 0.949,
"step": 390
},
{
"epoch": 0.62,
"learning_rate": 0.0001841828280933604,
"loss": 0.9709,
"step": 400
},
{
"epoch": 0.63,
"learning_rate": 0.00018326867712132865,
"loss": 0.9484,
"step": 410
},
{
"epoch": 0.65,
"learning_rate": 0.00018233124964631156,
"loss": 0.9677,
"step": 420
},
{
"epoch": 0.67,
"learning_rate": 0.00018137080771202325,
"loss": 0.9597,
"step": 430
},
{
"epoch": 0.68,
"learning_rate": 0.00018038761979552285,
"loss": 0.9289,
"step": 440
},
{
"epoch": 0.7,
"learning_rate": 0.00017938196073216586,
"loss": 0.9749,
"step": 450
},
{
"epoch": 0.71,
"learning_rate": 0.00017835411163877782,
"loss": 0.9445,
"step": 460
},
{
"epoch": 0.73,
"learning_rate": 0.00017730435983507277,
"loss": 0.9609,
"step": 470
},
{
"epoch": 0.74,
"learning_rate": 0.00017623299876333697,
"loss": 0.9652,
"step": 480
},
{
"epoch": 0.76,
"learning_rate": 0.0001751403279064018,
"loss": 0.9415,
"step": 490
},
{
"epoch": 0.77,
"learning_rate": 0.0001740266527039276,
"loss": 0.9769,
"step": 500
},
{
"epoch": 0.79,
"learning_rate": 0.00017289228446702292,
"loss": 0.9477,
"step": 510
},
{
"epoch": 0.8,
"learning_rate": 0.00017173754029122188,
"loss": 0.9622,
"step": 520
},
{
"epoch": 0.82,
"learning_rate": 0.00017056274296784518,
"loss": 0.9631,
"step": 530
},
{
"epoch": 0.84,
"learning_rate": 0.00016936822089376837,
"loss": 0.9482,
"step": 540
},
{
"epoch": 0.85,
"learning_rate": 0.00016815430797962374,
"loss": 0.9666,
"step": 550
},
{
"epoch": 0.87,
"learning_rate": 0.00016692134355646046,
"loss": 0.9331,
"step": 560
},
{
"epoch": 0.88,
"learning_rate": 0.00016566967228088972,
"loss": 0.9395,
"step": 570
},
{
"epoch": 0.9,
"learning_rate": 0.0001643996440387412,
"loss": 0.9432,
"step": 580
},
{
"epoch": 0.91,
"learning_rate": 0.0001631116138472578,
"loss": 0.9244,
"step": 590
},
{
"epoch": 0.93,
"learning_rate": 0.00016180594175585586,
"loss": 0.9617,
"step": 600
},
{
"epoch": 0.94,
"learning_rate": 0.00016048299274547883,
"loss": 0.9213,
"step": 610
},
{
"epoch": 0.96,
"learning_rate": 0.00015914313662657224,
"loss": 0.9497,
"step": 620
},
{
"epoch": 0.97,
"learning_rate": 0.00015778674793570896,
"loss": 0.9377,
"step": 630
},
{
"epoch": 0.99,
"learning_rate": 0.00015641420583089295,
"loss": 0.9205,
"step": 640
},
{
"epoch": 1.01,
"learning_rate": 0.00015502589398557146,
"loss": 0.9664,
"step": 650
},
{
"epoch": 1.02,
"learning_rate": 0.0001536222004813849,
"loss": 0.86,
"step": 660
},
{
"epoch": 1.04,
"learning_rate": 0.0001522035176996845,
"loss": 0.8729,
"step": 670
},
{
"epoch": 1.05,
"learning_rate": 0.00015077024221184793,
"loss": 0.8386,
"step": 680
},
{
"epoch": 1.07,
"learning_rate": 0.00014932277466842377,
"loss": 0.836,
"step": 690
},
{
"epoch": 1.08,
"learning_rate": 0.0001478615196871358,
"loss": 0.8874,
"step": 700
},
{
"epoch": 1.1,
"learning_rate": 0.00014638688573977805,
"loss": 0.8546,
"step": 710
},
{
"epoch": 1.11,
"learning_rate": 0.00014489928503803285,
"loss": 0.8682,
"step": 720
},
{
"epoch": 1.13,
"learning_rate": 0.00014339913341824314,
"loss": 0.8407,
"step": 730
},
{
"epoch": 1.14,
"learning_rate": 0.0001418868502251717,
"loss": 0.8476,
"step": 740
},
{
"epoch": 1.16,
"learning_rate": 0.00014036285819477967,
"loss": 0.8962,
"step": 750
},
{
"epoch": 1.18,
"learning_rate": 0.0001388275833360572,
"loss": 0.8799,
"step": 760
},
{
"epoch": 1.19,
"learning_rate": 0.00013728145481193882,
"loss": 0.8585,
"step": 770
},
{
"epoch": 1.21,
"learning_rate": 0.00013572490481933758,
"loss": 0.8541,
"step": 780
},
{
"epoch": 1.22,
"learning_rate": 0.000134158368468331,
"loss": 0.8239,
"step": 790
},
{
"epoch": 1.24,
"learning_rate": 0.0001325822836605323,
"loss": 0.8758,
"step": 800
},
{
"epoch": 1.25,
"learning_rate": 0.00013099709096668193,
"loss": 0.8682,
"step": 810
},
{
"epoch": 1.27,
"learning_rate": 0.00012940323350349258,
"loss": 0.8588,
"step": 820
},
{
"epoch": 1.28,
"learning_rate": 0.0001278011568097824,
"loss": 0.8455,
"step": 830
},
{
"epoch": 1.3,
"learning_rate": 0.00012619130872193162,
"loss": 0.8485,
"step": 840
},
{
"epoch": 1.31,
"learning_rate": 0.00012457413924869644,
"loss": 0.8995,
"step": 850
},
{
"epoch": 1.33,
"learning_rate": 0.0001229501004454159,
"loss": 0.8736,
"step": 860
},
{
"epoch": 1.35,
"learning_rate": 0.00012131964628764678,
"loss": 0.8638,
"step": 870
},
{
"epoch": 1.36,
"learning_rate": 0.00011968323254426135,
"loss": 0.8412,
"step": 880
},
{
"epoch": 1.38,
"learning_rate": 0.00011804131665004423,
"loss": 0.815,
"step": 890
},
{
"epoch": 1.39,
"learning_rate": 0.00011639435757782336,
"loss": 0.8969,
"step": 900
},
{
"epoch": 1.41,
"learning_rate": 0.0001147428157101709,
"loss": 0.8737,
"step": 910
},
{
"epoch": 1.42,
"learning_rate": 0.00011308715271071049,
"loss": 0.8604,
"step": 920
},
{
"epoch": 1.44,
"learning_rate": 0.00011142783139506601,
"loss": 0.8425,
"step": 930
},
{
"epoch": 1.45,
"learning_rate": 0.00010976531560148841,
"loss": 0.8262,
"step": 940
},
{
"epoch": 1.47,
"learning_rate": 0.00010810007006119685,
"loss": 0.9044,
"step": 950
},
{
"epoch": 1.48,
"learning_rate": 0.00010643256026846992,
"loss": 0.8575,
"step": 960
},
{
"epoch": 1.5,
"learning_rate": 0.00010476325235052389,
"loss": 0.8602,
"step": 970
},
{
"epoch": 1.52,
"learning_rate": 0.00010309261293721384,
"loss": 0.8507,
"step": 980
},
{
"epoch": 1.53,
"learning_rate": 0.00010142110903059424,
"loss": 0.8279,
"step": 990
},
{
"epoch": 1.55,
"learning_rate": 9.974920787437567e-05,
"loss": 0.8845,
"step": 1000
},
{
"epoch": 1.56,
"learning_rate": 9.807737682331383e-05,
"loss": 0.8515,
"step": 1010
},
{
"epoch": 1.58,
"learning_rate": 9.640608321256761e-05,
"loss": 0.8467,
"step": 1020
},
{
"epoch": 1.59,
"learning_rate": 9.47357942270625e-05,
"loss": 0.8406,
"step": 1030
},
{
"epoch": 1.61,
"learning_rate": 9.306697677089621e-05,
"loss": 0.8435,
"step": 1040
},
{
"epoch": 1.62,
"learning_rate": 9.140009733682262e-05,
"loss": 0.8836,
"step": 1050
},
{
"epoch": 1.64,
"learning_rate": 8.973562187585071e-05,
"loss": 0.866,
"step": 1060
},
{
"epoch": 1.66,
"learning_rate": 8.80740156669951e-05,
"loss": 0.8585,
"step": 1070
},
{
"epoch": 1.67,
"learning_rate": 8.641574318721413e-05,
"loss": 0.847,
"step": 1080
},
{
"epoch": 1.69,
"learning_rate": 8.476126798157258e-05,
"loss": 0.8221,
"step": 1090
},
{
"epoch": 1.7,
"learning_rate": 8.311105253366448e-05,
"loss": 0.8873,
"step": 1100
},
{
"epoch": 1.72,
"learning_rate": 8.146555813633274e-05,
"loss": 0.8415,
"step": 1110
},
{
"epoch": 1.73,
"learning_rate": 7.982524476272188e-05,
"loss": 0.8533,
"step": 1120
},
{
"epoch": 1.75,
"learning_rate": 7.819057093769931e-05,
"loss": 0.8281,
"step": 1130
},
{
"epoch": 1.76,
"learning_rate": 7.656199360968167e-05,
"loss": 0.8319,
"step": 1140
},
{
"epoch": 1.78,
"learning_rate": 7.493996802290186e-05,
"loss": 0.8593,
"step": 1150
},
{
"epoch": 1.79,
"learning_rate": 7.332494759015226e-05,
"loss": 0.8361,
"step": 1160
},
{
"epoch": 1.81,
"learning_rate": 7.171738376604012e-05,
"loss": 0.8536,
"step": 1170
},
{
"epoch": 1.83,
"learning_rate": 7.011772592079013e-05,
"loss": 0.8478,
"step": 1180
},
{
"epoch": 1.84,
"learning_rate": 6.85264212146299e-05,
"loss": 0.8276,
"step": 1190
},
{
"epoch": 1.86,
"learning_rate": 6.694391447279287e-05,
"loss": 0.8934,
"step": 1200
},
{
"epoch": 1.87,
"learning_rate": 6.537064806117435e-05,
"loss": 0.8359,
"step": 1210
},
{
"epoch": 1.89,
"learning_rate": 6.380706176267455e-05,
"loss": 0.8477,
"step": 1220
},
{
"epoch": 1.9,
"learning_rate": 6.225359265426414e-05,
"loss": 0.8293,
"step": 1230
},
{
"epoch": 1.92,
"learning_rate": 6.071067498480583e-05,
"loss": 0.828,
"step": 1240
},
{
"epoch": 1.93,
"learning_rate": 5.9178740053666706e-05,
"loss": 0.8773,
"step": 1250
},
{
"epoch": 1.95,
"learning_rate": 5.765821609015495e-05,
"loss": 0.8376,
"step": 1260
},
{
"epoch": 1.96,
"learning_rate": 5.61495281338148e-05,
"loss": 0.8384,
"step": 1270
},
{
"epoch": 1.98,
"learning_rate": 5.465309791561328e-05,
"loss": 0.8403,
"step": 1280
},
{
"epoch": 2.0,
"learning_rate": 5.316934374005142e-05,
"loss": 0.8464,
"step": 1290
},
{
"epoch": 2.01,
"learning_rate": 5.1698680368233864e-05,
"loss": 0.8334,
"step": 1300
},
{
"epoch": 2.03,
"learning_rate": 5.02415189019283e-05,
"loss": 0.7771,
"step": 1310
},
{
"epoch": 2.04,
"learning_rate": 4.879826666864852e-05,
"loss": 0.7607,
"step": 1320
},
{
"epoch": 2.06,
"learning_rate": 4.736932710779173e-05,
"loss": 0.7367,
"step": 1330
},
{
"epoch": 2.07,
"learning_rate": 4.595509965786368e-05,
"loss": 0.763,
"step": 1340
},
{
"epoch": 2.09,
"learning_rate": 4.4555979644821145e-05,
"loss": 0.7878,
"step": 1350
},
{
"epoch": 2.1,
"learning_rate": 4.3172358171564916e-05,
"loss": 0.763,
"step": 1360
},
{
"epoch": 2.12,
"learning_rate": 4.180462200861256e-05,
"loss": 0.7487,
"step": 1370
},
{
"epoch": 2.13,
"learning_rate": 4.045315348598283e-05,
"loss": 0.738,
"step": 1380
},
{
"epoch": 2.15,
"learning_rate": 3.9118330386320814e-05,
"loss": 0.7439,
"step": 1390
},
{
"epoch": 2.17,
"learning_rate": 3.780052583929475e-05,
"loss": 0.7903,
"step": 1400
},
{
"epoch": 2.18,
"learning_rate": 3.650010821729303e-05,
"loss": 0.7653,
"step": 1410
},
{
"epoch": 2.2,
"learning_rate": 3.521744103245145e-05,
"loss": 0.7447,
"step": 1420
},
{
"epoch": 2.21,
"learning_rate": 3.395288283503867e-05,
"loss": 0.7186,
"step": 1430
},
{
"epoch": 2.23,
"learning_rate": 3.2706787113229075e-05,
"loss": 0.7259,
"step": 1440
},
{
"epoch": 2.24,
"learning_rate": 3.147950219429036e-05,
"loss": 0.8041,
"step": 1450
},
{
"epoch": 2.26,
"learning_rate": 3.027137114721401e-05,
"loss": 0.7545,
"step": 1460
},
{
"epoch": 2.27,
"learning_rate": 2.9082731686815412e-05,
"loss": 0.7363,
"step": 1470
},
{
"epoch": 2.29,
"learning_rate": 2.7913916079330905e-05,
"loss": 0.7364,
"step": 1480
},
{
"epoch": 2.3,
"learning_rate": 2.676525104953759e-05,
"loss": 0.7509,
"step": 1490
}
],
"logging_steps": 10,
"max_steps": 1938,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 10,
"total_flos": 4.7276257552131686e+17,
"train_batch_size": 16,
"trial_name": null,
"trial_params": null
}

3
lora/training_args.bin Normal file
View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:7c500541aa668ea5363dd7ebb8b8c75b1643e44ba2af49808565c3de188ce16d
size 4728

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:6cb258320b244b563aef9ff6c2ca154e73b20d56b5010f0e628c667952917a3d
size 3518986496

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:63cd62a1b2e795bd2db0016fd7f8a2a84e4f7cdffb313a41c1eabae73b2c48d6
size 4368439552

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:04c25e9e8497c94192962de125035d91a966efa3fe1656808f34e1333b2e6a3a
size 5131409664

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:be6e5bbdc62190a0979332dbc35df78968186dcf2f0daa76603d40cf1e1cdd01
size 5942065408

3
mistral-pl-owca-f16.gguf Normal file
View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:64ba7ebfe383b61255362987d99b5480478df39c38413908990585a159ca8692
size 14484732096

40
safetensors/config.json Normal file
View File

@@ -0,0 +1,40 @@
{
"_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
"architectures": [
"MistralForCausalLM"
],
"attention_dropout": 0.0,
"bos_token_id": 1,
"eos_token_id": 2,
"hidden_act": "silu",
"hidden_size": 4096,
"initializer_range": 0.02,
"intermediate_size": 14336,
"max_position_embeddings": 32768,
"model_type": "mistral",
"num_attention_heads": 32,
"num_hidden_layers": 32,
"num_key_value_heads": 8,
"quantization_config": {
"_load_in_4bit": true,
"_load_in_8bit": false,
"bnb_4bit_compute_dtype": "float32",
"bnb_4bit_quant_type": "nf4",
"bnb_4bit_use_double_quant": true,
"llm_int8_enable_fp32_cpu_offload": false,
"llm_int8_has_fp16_weight": false,
"llm_int8_skip_modules": null,
"llm_int8_threshold": 6.0,
"load_in_4bit": true,
"load_in_8bit": false,
"quant_method": "bitsandbytes"
},
"rms_norm_eps": 1e-05,
"rope_theta": 1000000.0,
"sliding_window": null,
"tie_word_embeddings": false,
"torch_dtype": "float16",
"transformers_version": "4.38.0.dev0",
"use_cache": true,
"vocab_size": 32000
}

View File

@@ -0,0 +1,6 @@
{
"_from_model_config": true,
"bos_token_id": 1,
"eos_token_id": 2,
"transformers_version": "4.38.0.dev0"
}

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:edeff96713cd146b17ab89a63fe769a9254460a33b41e15b45ed4688cc76fdaa
size 4125687619

View File

@@ -0,0 +1,24 @@
{
"bos_token": {
"content": "<s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"eos_token": {
"content": "</s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"pad_token": "</s>",
"unk_token": {
"content": "<unk>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
}
}

91122
safetensors/tokenizer.json Normal file

File diff suppressed because it is too large Load Diff

BIN
safetensors/tokenizer.model (Stored with Git LFS) Normal file

Binary file not shown.

View File

@@ -0,0 +1,43 @@
{
"add_bos_token": true,
"add_eos_token": false,
"added_tokens_decoder": {
"0": {
"content": "<unk>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false,
"special": true
},
"1": {
"content": "<s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false,
"special": true
},
"2": {
"content": "</s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false,
"special": true
}
},
"additional_special_tokens": [],
"bos_token": "<s>",
"chat_template": "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] == 'user' %}{{ '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ message['content'] + eos_token}}{% else %}{{ raise_exception('Only user and assistant roles are supported!') }}{% endif %}{% endfor %}",
"clean_up_tokenization_spaces": false,
"eos_token": "</s>",
"legacy": true,
"model_max_length": 1000000000000000019884624838656,
"pad_token": "</s>",
"sp_model_kwargs": {},
"spaces_between_special_tokens": false,
"tokenizer_class": "LlamaTokenizer",
"unk_token": "<unk>",
"use_default_system_prompt": false
}