初始化项目，由ModelHub XC社区提供模型

Model: HuggingFaceTB/SmolLM2-1.7B-sft-only Source: Original Platform
2026-06-18 21:24:13 +08:00
commit 5e734f6db3
18 changed files with 150044 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 model.safetensors filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,30 @@
 ---
 base_model: HuggingFaceTB/SmolLM2-1.7B-8k
 tags:
 - alignment-handbook
 - trl
 - sft
 - generated_from_trainer
 - trl
 - sft
 - generated_from_trainer
 datasets:
 - HuggingFaceTB/magpie-ultra-v1.0-filtered-400K-H4
 - HuggingFaceTB/OpenHermes-2.5-H4-200k
 - HuggingFaceTB/ifeval-like-data-36k-H4
 - HuggingFaceTB/Numina-CoT-H4
 - HuggingFaceTB/MetaMathQA-H4-200k
 - HuggingFaceTB/self-oss-instruct-sc2-H4
 - HuggingFaceTB/systemchats2.0-H4-short
 - HuggingFaceTB/summarization-data-10k-H4
 - HuggingFaceTB/everyday-conversations-llama3.1-2k
 - HuggingFaceTB/apigen-smollm-trl-FC-H4
 - HuggingFaceTB/smollm-v2-summarization
 - HuggingFaceTB/smollm-v2-rewriting-50k-H4
 - HuggingFaceTB/explore-instruct-rewrite-H4
 - HuggingFaceTB/LongAlign-16k-ctx-english-H4
 model-index:
 - name: smollm2-1.7B-8k-mix7-ep2-v2
  results: []
 ---
 SFT only version of https://huggingface.co/HuggingFaceTB/SmolLM2-1.7B-Instruct
--- a/all_results.json
+++ b/all_results.json
@@ -0,0 +1,14 @@
 {
    "epoch": 1.9983216783216782,
    "eval_loss": 1.0629972219467163,
    "eval_runtime": 364.8237,
    "eval_samples": 264435,
    "eval_samples_per_second": 56.435,
    "eval_steps_per_second": 1.765,
    "total_flos": 1127451463778304.0,
    "train_loss": 0.777597175032935,
    "train_runtime": 16051.5455,
    "train_samples": 1029132,
    "train_samples_per_second": 14.253,
    "train_steps_per_second": 0.111
 }
--- a/config.json
+++ b/config.json
@@ -0,0 +1,30 @@
 {
  "_name_or_path": "HuggingFaceTB/SmolLM2-1.7B-8k",
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "hidden_act": "silu",
  "hidden_size": 2048,
  "initializer_range": 0.02,
  "intermediate_size": 8192,
  "max_position_embeddings": 8192,
  "mlp_bias": false,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 24,
  "num_key_value_heads": 32,
  "pad_token_id": 2,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 130000,
  "tie_word_embeddings": true,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.42.3",
  "use_cache": true,
  "vocab_size": 49152
 }
--- a/configuration.json
+++ b/configuration.json
@@ -0,0 +1 @@
 {"framework": "pytorch", "task": "others", "allow_remote": true}
--- a/eval_results.json
+++ b/eval_results.json
@@ -0,0 +1,8 @@
 {
    "epoch": 1.9983216783216782,
    "eval_loss": 1.0629972219467163,
    "eval_runtime": 364.8237,
    "eval_samples": 264435,
    "eval_samples_per_second": 56.435,
    "eval_steps_per_second": 1.765
 }
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,7 @@
 {
  "_from_model_config": true,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "pad_token_id": 2,
  "transformers_version": "4.42.3"
 }
--- a/merges.txt
+++ b/merges.txt
--- a/model.safetensors
+++ b/model.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:98360aebc58238dc07b4bcb78b709b7eb24d639e50a662f6bbdb57f610f6779c
 size 3422777952
--- a/runs/Oct30_23-27-03_ip-26-0-164-18/events.out.tfevents.1730332615.ip-26-0-164-18.40006.0
+++ b/runs/Oct30_23-27-03_ip-26-0-164-18/events.out.tfevents.1730332615.ip-26-0-164-18.40006.0
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:0873dd28e429f1d2206edf9d1303fb97e99dda399fea3d137c0e2cff6cda7703
 size 81405
--- a/runs/Oct30_23-27-03_ip-26-0-164-18/events.out.tfevents.1730349116.ip-26-0-164-18.40006.1
+++ b/runs/Oct30_23-27-03_ip-26-0-164-18/events.out.tfevents.1730349116.ip-26-0-164-18.40006.1
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:aa19fb272bb4a029c44102f050b0bff1860a9e41aedb1c6c91eea9ac982e4163
 size 359
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,28 @@
 {
  "additional_special_tokens": [
    {
      "content": "<|im_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false
    },
    {
      "content": "<|im_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false
    }
  ],
  "bos_token": "<|im_start|>",
  "eos_token": "<|im_end|>",
  "pad_token": "<|im_end|>",
  "unk_token": {
    "content": "<|endoftext|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,154 @@
 {
  "add_prefix_space": false,
  "added_tokens_decoder": {
    "0": {
      "content": "<|endoftext|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "1": {
      "content": "<|im_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "2": {
      "content": "<|im_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "3": {
      "content": "<repo_name>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "4": {
      "content": "<reponame>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "5": {
      "content": "<file_sep>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "6": {
      "content": "<filename>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "7": {
      "content": "<gh_stars>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "8": {
      "content": "<issue_start>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "9": {
      "content": "<issue_comment>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "10": {
      "content": "<issue_closed>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "11": {
      "content": "<jupyter_start>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "12": {
      "content": "<jupyter_text>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "13": {
      "content": "<jupyter_code>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "14": {
      "content": "<jupyter_output>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "15": {
      "content": "<jupyter_script>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "16": {
      "content": "<empty_output>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    }
  },
  "additional_special_tokens": [
    "<|im_start|>",
    "<|im_end|>"
  ],
  "bos_token": "<|im_start|>",
  "chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
  "clean_up_tokenization_spaces": false,
  "eos_token": "<|im_end|>",
  "model_max_length": 2048,
  "pad_token": "<|im_end|>",
  "tokenizer_class": "GPT2Tokenizer",
  "unk_token": "<|endoftext|>",
  "vocab_size": 49152
 }
--- a/train_results.json
+++ b/train_results.json
@@ -0,0 +1,9 @@
 {
    "epoch": 1.9983216783216782,
    "total_flos": 1127451463778304.0,
    "train_loss": 0.777597175032935,
    "train_runtime": 16051.5455,
    "train_samples": 1029132,
    "train_samples_per_second": 14.253,
    "train_steps_per_second": 0.111
 }
--- a/trainer_state.json
+++ b/trainer_state.json
--- a/training_args.bin
+++ b/training_args.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:290d7ecc3e2f19388b5c15b1a5cf555114883a038f5dc255f5173455bbbea8a2
 size 6392
--- a/vocab.json
+++ b/vocab.json
		`@@ -0,0 +1 @@`
							`{"framework": "pytorch", "task": "others", "allow_remote": true}`