初始化项目，由ModelHub XC社区提供模型

Model: OpenGVLab/cllm_td_opt Source: Original Platform
2026-06-05 05:54:13 +08:00
commit 6692eb7fad
11 changed files with 100486 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,35 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,3 @@
 ---
 license: apache-2.0
 ---
--- a/config.json
+++ b/config.json
@@ -0,0 +1,31 @@
 {
  "_name_or_path": "/mnt/afs/user/liuzhaoyang/.cache/huggingface/hub/models--facebook--opt-2.7b/snapshots/397f71a473a150c00f0fe3fc4a2f78ff3ccaf82d",
  "_remove_final_layer_norm": false,
  "activation_dropout": 0.0,
  "activation_function": "relu",
  "architectures": [
    "OPTForCausalLM"
  ],
  "attention_dropout": 0.0,
  "bos_token_id": 2,
  "do_layer_norm_before": true,
  "dropout": 0.1,
  "enable_bias": true,
  "eos_token_id": 2,
  "ffn_dim": 10240,
  "hidden_size": 2560,
  "init_std": 0.02,
  "layer_norm_elementwise_affine": true,
  "layerdrop": 0.0,
  "max_position_embeddings": 2048,
  "model_type": "opt",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "pad_token_id": 1,
  "prefix": "</s>",
  "torch_dtype": "bfloat16",
  "transformers_version": "4.30.2",
  "use_cache": true,
  "vocab_size": 50265,
  "word_embed_proj_dim": 2560
 }
--- a/configuration.json
+++ b/configuration.json
@@ -0,0 +1 @@
 {"framework": "pytorch", "task": "text-generation", "allow_remote": true}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,7 @@
 {
  "_from_model_config": true,
  "bos_token_id": 2,
  "eos_token_id": 2,
  "pad_token_id": 1,
  "transformers_version": "4.30.2"
 }
--- a/merges.txt
+++ b/merges.txt
--- a/pytorch_model.bin
+++ b/pytorch_model.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:7c4cac0338ea8d029ea576c1de0c1aaf04929e5493e23af567730887a3eb69a8
 size 5303326905
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,30 @@
 {
  "bos_token": {
    "content": "</s>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "eos_token": {
    "content": "</s>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "pad_token": {
    "content": "<pad>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "unk_token": {
    "content": "</s>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,41 @@
 {
  "add_bos_token": true,
  "add_prefix_space": false,
  "bos_token": {
    "__type": "AddedToken",
    "content": "</s>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "clean_up_tokenization_spaces": true,
  "eos_token": {
    "__type": "AddedToken",
    "content": "</s>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "errors": "replace",
  "model_max_length": 1536,
  "pad_token": {
    "__type": "AddedToken",
    "content": "<pad>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "padding_side": "right",
  "tokenizer_class": "GPT2Tokenizer",
  "unk_token": {
    "__type": "AddedToken",
    "content": "</s>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/trainer_state.json
+++ b/trainer_state.json
@@ -0,0 +1,67 @@
 {
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 6.0,
  "global_step": 3834,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.78,
      "learning_rate": 1.793975255513717e-05,
      "loss": 0.0241,
      "step": 500
    },
    {
      "epoch": 1.56,
      "learning_rate": 1.5250134480903713e-05,
      "loss": 0.0021,
      "step": 1000
    },
    {
      "epoch": 2.35,
      "learning_rate": 1.2560516406670254e-05,
      "loss": 0.0014,
      "step": 1500
    },
    {
      "epoch": 3.13,
      "learning_rate": 9.870898332436795e-06,
      "loss": 0.0011,
      "step": 2000
    },
    {
      "epoch": 3.91,
      "learning_rate": 7.181280258203336e-06,
      "loss": 0.0008,
      "step": 2500
    },
    {
      "epoch": 4.69,
      "learning_rate": 4.491662183969877e-06,
      "loss": 0.0006,
      "step": 3000
    },
    {
      "epoch": 5.48,
      "learning_rate": 1.8020441097364175e-06,
      "loss": 0.0005,
      "step": 3500
    },
    {
      "epoch": 6.0,
      "step": 3834,
      "total_flos": 2403004334473216.0,
      "train_loss": 0.0040491660264984795,
      "train_runtime": 24808.6685,
      "train_samples_per_second": 19.777,
      "train_steps_per_second": 0.155
    }
  ],
  "max_steps": 3834,
  "num_train_epochs": 6,
  "total_flos": 2403004334473216.0,
  "trial_name": null,
  "trial_params": null
 }
--- a/vocab.json
+++ b/vocab.json
		`@@ -0,0 +1 @@`
							`{"framework": "pytorch", "task": "text-generation", "allow_remote": true}`