初始化项目，由ModelHub XC社区提供模型

Model: ku-nlp/gpt2-medium-japanese-char Source: Original Platform
2026-06-08 12:24:21 +08:00
commit 89c4156c1e
10 changed files with 11965 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,34 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,73 @@
 ---
 language: ja
 license: cc-by-sa-4.0
 library_name: transformers
 tags:
  - gpt2
 datasets:
  - wikipedia
  - cc100
  - oscar
 widget:
    - text: "<s>昨日私は京都で"
 ---
 # Model Card for Japanese character-level GPT-2 Medium
 ## Model description
 This is a Japanese character-level GPT-2 Medium (310M parameters) language model pre-trained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
 ## How to use
 You can use this model directly with a pipeline for text generation.
 ```python
 >>> from transformers import pipeline, set_seed
 >>> generator = pipeline('text-generation', model='ku-nlp/gpt2-medium-japanese-char')
 >>> set_seed(5)
 >>> generator("<s>昨日私は京都で", max_length=30, do_sample=True, num_return_sequences=5)
 [{'generated_text': '<s>昨日私は京都で仕事だったのです。そのときに訪れた京都の街の'},
 {'generated_text': '<s>昨日私は京都で開かれた、「みんなで絵本の読み聞かせ会」に参'},
 {'generated_text': '<s>昨日私は京都で行われましたコンペティションに参加してきまし'},
 {'generated_text': '<s>昨日私は京都では雪が解けるの日経平均株価が下がるのみで今は'},
 {'generated_text': '<s>昨日私は京都でこみっくトレジャー２を開催して見ましたが、そ'}]
 ```
 You can also use this model to get the features of a given text.
 ## Vocabulary
 A character-level vocabulary of size 6K is used. To be precise, rare characters may be split into bytes because byte-level byte-pair encoding (BPE) is used. The BPE tokenizer was trained on a small subset of the training data. Since the data were converted into a one-character-per-line format, merge operations never go beyond character boundaries.
 Note that the tokenizer maps U+0020 to `[UNK]` because preprocessing eliminated whitespace characters (U+0020) from training data. Use U+3000 (Ideographic Space) instead.
 ## Training data
 We used the following corpora for pre-training:
 - Japanese Wikipedia (as of 20221020, 3.2GB, 27M sentences, 1.3M documents)
 - Japanese portion of CC-100 (85GB, 619M sentences, 66M documents)
 - Japanese portion of OSCAR (54GB, 326M sentences, 25M documents)
 Note that we filtered out documents annotated with "header", "footer", or "noisy" tags in OSCAR.
 Also note that Japanese Wikipedia was duplicated 10 times to make the total size of the corpus comparable to that of CC-100 and OSCAR. As a result, the total size of the training data is 171GB.
 ## Training procedure
 The training took about 3 months (with two interruptions) with a single NVIDIA A100 80GB GPU.
 The following hyperparameters were used during pre-training:
 - learning_rate: 2e-4
 - per_device_train_batch_size: 14
 - gradient_accumulation_steps: 42
 - optimizer: AdamW with betas=(0.9, 0.999) and epsilon=1e-06
 - weight_decay: 0.01
 - lr_scheduler_type: linear
 - max_grad_norm: 1.0
 - max_steps: 500,000 (but terminated at 186,000 steps ~= 2.0 epochs)
 - warmup_steps: 10,000
 The eval loss was 1.411 while the eval accuracy was 0.6697. The evaluation set consists of 5,000 randomly sampled documents from each of the training corpora.
--- a/config.json
+++ b/config.json
@@ -0,0 +1,32 @@
 {
  "activation_function": "gelu_new",
  "architectures": [
    "GPT2LMHeadModel"
  ],
  "attn_pdrop": 0.1,
  "bos_token_id": 1,
  "embd_pdrop": 0.1,
  "eos_token_id": 2,
  "initializer_range": 0.02,
  "layer_norm_epsilon": 1e-05,
  "model_type": "gpt2",
  "n_embd": 1024,
  "n_head": 16,
  "n_inner": null,
  "n_layer": 24,
  "n_positions": 1024,
  "pad_token_id": 1,
  "reorder_and_upcast_attn": false,
  "resid_pdrop": 0.1,
  "scale_attn_by_inverse_layer_idx": false,
  "scale_attn_weights": true,
  "summary_activation": null,
  "summary_first_dropout": 0.1,
  "summary_proj_to_labels": true,
  "summary_type": "cls_index",
  "summary_use_proj": true,
  "torch_dtype": "float32",
  "transformers_version": "4.28.1",
  "use_cache": true,
  "vocab_size": 6000
 }
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,7 @@
 {
  "_from_model_config": true,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "pad_token_id": 1,
  "transformers_version": "4.28.1"
 }
--- a/merges.txt
+++ b/merges.txt
--- a/model.safetensors
+++ b/model.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:f79dac2eb0ae10f609d81926b827cb7324474169bb27e36ccd18487edefb1512
 size 1263217128
--- a/pytorch_model.bin
+++ b/pytorch_model.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:ffdc21029c008d7d768b234f2e47ca5085abd48dccc476850f057fcb559b9ec1
 size 1263287965
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,6 @@
 {
  "bos_token": "<s>",
  "eos_token": "</s>",
  "pad_token": "[PAD]",
  "unk_token": "[UNK]"
 }
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,40 @@
 {
  "add_bos_token": false,
  "add_prefix_space": false,
  "bos_token": {
    "__type": "AddedToken",
    "content": "<s>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "clean_up_tokenization_spaces": true,
  "eos_token": {
    "__type": "AddedToken",
    "content": "</s>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "errors": "replace",
  "model_max_length": 1000000000000000019884624838656,
  "pad_token": {
    "__type": "AddedToken",
    "content": "[PAD]",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "tokenizer_class": "GPT2Tokenizer",
  "unk_token": {
    "__type": "AddedToken",
    "content": "[UNK]",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/vocab.json
+++ b/vocab.json