初始化项目，由ModelHub XC社区提供模型

Model: Yehor/kulyk-uk-en Source: Original Platform
2026-04-21 14:29:06 +08:00
commit 4e64c9ef5d
10 changed files with 328111 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 kulyk-uk-en-q8_0.gguf filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,92 @@
 ---
 model-index:
 - name: Kulyk-UK-EN
  results:
  - task:
      type: text-generation
    dataset:
      type: facebook/flores
      name: FLORES
      split: devtest
    metrics:
    - type: bleu
      value: 36.27
      name: BLEU
 library_name: transformers
 license: other
 license_name: lfm1.0
 license_link: LICENSE
 language:
 - en
 - uk
 pipeline_tag: text-generation
 tags:
 - liquid
 - lfm2
 - edge
 datasets:
 - lang-uk/FiftyFiveShades
 base_model:
 - LiquidAI/LFM2-350M
 ---
 A lightweight model to do machine translation from Ukrainian to English based on recently published LFM2 model. Use [demo](https://huggingface.co/spaces/Yehor/uk-en-translator) to test it.
 Also, there's another model: [kulyk-en-uk](https://huggingface.co/Yehor/kulyk-en-uk)
 **Run with Docker (CPU)**:
 ```
 docker run -p 3000:3000 --rm ghcr.io/egorsmkv/kulyk-rust:latest
 ```
 **Run using Apptainer (CUDA)**:
 1. Run it using shell:
 ```
 apptainer shell --nv ./kulyk.sif
 Apptainer> /opt/entrypoints/kulyk --verbose --n-len 1024 --model-path-ue /project/models/kulyk-uk-en.gguf --model-path-eu /project/models/kulyk-en-uk.gguf
 ```
 2. Run it as a webservice:
 ```
 apptainer instance start --nv ./kulyk.sif kulyk-ws
 # go to http://localhost:3000
 ```
 **Facts**:
 - Fine-tuned with 40M samples (filtered by quality metric) from ~53.5M for 1.4 epochs 
 - 354M params
 - Requires 1 GB of RAM to run with bf16
 - BLEU on FLORES-200: 36.27
 - Tokens per second: 229.93 (bs=1), 1664.40 (bs=10), 8392.48 (bs=64)
 - License: lfm1.0
 **Info**:
 - Model name is inherited from name of [Sergiy Kulyk](https://en.wikipedia.org/wiki/Sergiy_Kulyk) who was chargé d'affaires of Ukraine in the United States
 **Training Info**:
 - Learning Rate: 3e-5
 - Learning Rate scheduler type: cosine
 - Warmup Ratio: 0.05
 - Max length: 2048
 - Batch Size: 10
 - `packed=True`
 - Sentences <= 1000 chars
 - Gradient accumulation steps: 4
 - Used Flash Attention 2
 - Time for epoch: 32 hours
 - 2 cards of NVIDIA RTX 3090 Ti (24G)
 - `accelerate` with DeepSpeed
 - Memory usage: 22.212GB-22.458GB
 - torch 2.7.1
 **Acknowledgements**:
 - [Dmytro Chaplynskyi](https://huggingface.co/dchaplinsky) for providing compute to train this model
 - [lang-uk](https://huggingface.co/lang-uk) members for their compilation of different MT datasets
--- a/chat_template.jinja
+++ b/chat_template.jinja
@@ -0,0 +1,4 @@
 {{bos_token}}{% for message in messages %}{{'<|im_start|>' + message['role'] + '
 ' + message['content'] + '<|im_end|>' + '
 '}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
 ' }}{% endif %}
--- a/config.json
+++ b/config.json
@@ -0,0 +1,57 @@
 {
  "architectures": [
    "Lfm2ForCausalLM"
  ],
  "block_auto_adjust_ff_dim": true,
  "block_dim": 1024,
  "block_ff_dim": 6656,
  "block_ffn_dim_multiplier": 1.0,
  "block_mlp_init_scale": 1.0,
  "block_multiple_of": 256,
  "block_norm_eps": 1e-05,
  "block_out_init_scale": 1.0,
  "block_use_swiglu": true,
  "block_use_xavier_init": true,
  "bos_token_id": 1,
  "conv_L_cache": 3,
  "conv_bias": false,
  "conv_dim": 1024,
  "conv_dim_out": 1024,
  "conv_use_xavier_init": true,
  "eos_token_id": 7,
  "hidden_size": 1024,
  "initializer_range": 0.02,
  "intermediate_size": 6656,
  "layer_types": [
    "conv",
    "conv",
    "full_attention",
    "conv",
    "conv",
    "full_attention",
    "conv",
    "conv",
    "full_attention",
    "conv",
    "full_attention",
    "conv",
    "full_attention",
    "conv",
    "full_attention",
    "conv"
  ],
  "max_position_embeddings": 128000,
  "model_type": "lfm2",
  "norm_eps": 1e-05,
  "num_attention_heads": 16,
  "num_heads": 16,
  "num_hidden_layers": 16,
  "num_key_value_heads": 8,
  "pad_token_id": 0,
  "rope_theta": 1000000.0,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.54.0.dev0",
  "use_cache": false,
  "use_pos_enc": true,
  "vocab_size": 65536
 }
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,7 @@
 {
  "_from_model_config": true,
  "bos_token_id": 1,
  "eos_token_id": 7,
  "pad_token_id": 0,
  "transformers_version": "4.54.0.dev0"
 }
--- a/kulyk-uk-en-q8_0.gguf
+++ b/kulyk-uk-en-q8_0.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:404581604a1b8c628889440fb392833a19c8b4a4f7939baab9cba52c4726862b
 size 379214912
--- a/model.safetensors
+++ b/model.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:71f3ede27aac9df51f52544942929d7308f5371bc351c62877237a44aed7f6c4
 size 708984432
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,23 @@
 {
  "bos_token": {
    "content": "<|startoftext|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "eos_token": {
    "content": "<|im_end|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "pad_token": {
    "content": "<|pad|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json