初始化项目，由ModelHub XC社区提供模型

Model: stockmark/gpt-neox-japanese-1.4b Source: Original Platform
2026-06-08 22:03:15 +08:00
commit b737a3bd5d
11 changed files with 100224 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,47 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*.tfevents* filter=lfs diff=lfs merge=lfs -text
+*.db* filter=lfs diff=lfs merge=lfs -text
+*.ark* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*data* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.meta filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.index filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.gguf* filter=lfs diff=lfs merge=lfs -text
+*.ggml filter=lfs diff=lfs merge=lfs -text
+*.llamafile* filter=lfs diff=lfs merge=lfs -text
+*.pt2 filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,67 @@
+---
+license: mit
+language:
+- ja
+library_name: transformers
+pipeline_tag: text-generation
+tags:
+- gpt_neox
+- gpt-neox
+- japanese
+inference:
+  parameters:
+    max_new_tokens: 32
+    do_sample: false
+    repetition_penalty: 1.1
+---
+
+# stockmark/gpt-neox-japanese-1.4b
+
+This repository provides a GPT-NeoX based model with 1.4B parameters pre-trained on Japanese corpus of about 20B tokens. This model is developed by [Stockmark Inc.](https://stockmark.co.jp/)
+
+## How to use
+
+```python
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+
+# Use torch.bfloat16 for A100 GPU and torch.flaot16 for the older generation GPUs
+torch_dtype = torch.bfloat16 if torch.cuda.is_available() and hasattr(torch.cuda, "is_bf16_supported") and torch.cuda.is_bf16_supported() else torch.float16
+
+model = AutoModelForCausalLM.from_pretrained("stockmark/gpt-neox-japanese-1.4b", device_map="auto", torch_dtype=torch_dtype)
+tokenizer = AutoTokenizer.from_pretrained("stockmark/gpt-neox-japanese-1.4b")
+
+inputs = tokenizer("自然言語処理は", return_tensors="pt").to(model.device)
+with torch.no_grad():
+    tokens = model.generate(
+        **inputs,
+        max_new_tokens=128,
+        repetition_penalty=1.1
+    )
+    
+output = tokenizer.decode(tokens[0], skip_special_tokens=True)
+print(output)
+```
+
+## Example:
+
+- LoRA tuning: https://huggingface.co/stockmark/gpt-neox-japanese-1.4b/blob/main/notebooks/LoRA.ipynb
+
+## Training dataset
+- Japanese Web Corpus (ja): 8.6B tokens (This dataset will not be released.)
+- Wikipedia (ja): 0.88B tokens
+- CC100 (ja): 10.5B tokens
+
+## Training setting
+- Trained using HuggingFace Trainer and DeepSpeed (ZeRO-2)
+- 8 A100 GPUs (40GB) at ABCI
+- Mixed Precision (BF16)
+
+## License
+[The MIT license](https://opensource.org/licenses/MIT)
+
+## Developed by
+[Stockmark Inc.](https://stockmark.co.jp/)
+
+## Author
+[Takahiro Omi](https://huggingface.co/omitakahiro)
--- a/config.json
+++ b/config.json
@@ -0,0 +1,26 @@
+{
+  "architectures": [
+    "GPTNeoXForCausalLM"
+  ],
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 1024,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.30.2",
+  "use_cache": true,
+  "use_parallel_residual": false,
+  "vocab_size": 50000
+}
--- a/configuration.json
+++ b/configuration.json
@@ -0,0 +1 @@
+{"framework": "pytorch", "task": "text-generation", "allow_remote": true}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,7 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "pad_token_id": 1,
+  "transformers_version": "4.30.2"
+}
--- a/model.safetensors
+++ b/model.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ce45432f8538cee7b698f847dcb7f31cea2e27d0322bcf2fa7bf12796246baf
+size 2852015168
--- a/notebooks/LoRA.ipynb
+++ b/notebooks/LoRA.ipynb
@@ -0,0 +1,253 @@
+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "provenance": [],
+      "gpuType": "T4"
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    },
+    "accelerator": "GPU"
+  },
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "source": [
+        "このnotebookは`stockmark/gpt-neox-japanese-1.4b`のモデルを`kunishou/databricks-dolly-15k-ja`のデータセットを用いてLoRA tuningするためのコードの例です。以下の例では、学習を1 epochを行います。T4 GPUで実行すると30分ほどかかります。\n",
+        "\n",
+        "- モデル：https://huggingface.co/stockmark/gpt-neox-japanese-1.4b\n",
+        "- データ：https://github.com/kunishou/databricks-dolly-15k-ja\n",
+        "\n",
+        "\n",
+        "また、ここで用いている設定は暫定的なもので、必要に応じて調整してください。"
+      ],
+      "metadata": {
+        "id": "BPGgCZtMdMsv"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "# ライブラリのインストール"
+      ],
+      "metadata": {
+        "id": "hCZH9e6EcZyj"
+      }
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "cmn52bx3v5Ha"
+      },
+      "outputs": [],
+      "source": [
+        "!python3 -m pip install -U pip\n",
+        "!python3 -m pip install transformers accelerate datasets peft"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "# 準備"
+      ],
+      "metadata": {
+        "id": "4t3Cqs9_ce3J"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "import torch\n",
+        "import datasets\n",
+        "from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments\n",
+        "from peft import get_peft_model, LoraConfig, TaskType, PeftModel, PeftConfig\n",
+        "\n",
+        "model_name = \"stockmark/gpt-neox-japanese-1.4b\"\n",
+        "peft_model_name = \"peft_model\"\n",
+        "\n",
+        "prompt_template = \"\"\"### Instruction:\n",
+        "{instruction}\n",
+        "\n",
+        "### Input:\n",
+        "{input}\n",
+        "\n",
+        "### Response:\n",
+        "\"\"\"\n",
+        "\n",
+        "def encode(sample):\n",
+        "    prompt = prompt_template.format(instruction=sample[\"instruction\"], input=sample[\"input\"])\n",
+        "    target = sample[\"output\"] + tokenizer.eos_token\n",
+        "    input_ids_prompt, input_ids_target = tokenizer([prompt, target]).input_ids\n",
+        "    input_ids = input_ids_prompt + input_ids_target\n",
+        "    labels = input_ids.copy()\n",
+        "    labels[:len(input_ids_prompt)] = [-100] * len(input_ids_prompt)\n",
+        "    return {\"input_ids\": input_ids, \"labels\": labels}\n",
+        "\n",
+        "def get_collator(tokenizer, max_length):\n",
+        "    def collator(batch):\n",
+        "        batch = [{ key: value[:max_length] for key, value in sample.items() } for sample in batch ]\n",
+        "        batch = tokenizer.pad(batch, padding=True)\n",
+        "        batch[\"labels\"] = [ e + [-100] * (len(batch[\"input_ids\"][0]) - len(e)) for e in batch[\"labels\"] ]\n",
+        "        batch = { key: torch.tensor(value) for key, value in batch.items() }\n",
+        "        return batch\n",
+        "\n",
+        "    return collator\n"
+      ],
+      "metadata": {
+        "id": "hNdYMGMRzAVn"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "# データセットとモデルの準備\n"
+      ],
+      "metadata": {
+        "id": "UqXxPjJ_cliu"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# prepare dataset\n",
+        "tokenizer = AutoTokenizer.from_pretrained(model_name)\n",
+        "\n",
+        "dataset_name = \"kunishou/databricks-dolly-15k-ja\"\n",
+        "dataset = datasets.load_dataset(dataset_name)\n",
+        "dataset = dataset.map(encode)\n",
+        "dataset = dataset[\"train\"].train_test_split(0.2)\n",
+        "train_dataset = dataset[\"train\"]\n",
+        "val_dataset = dataset[\"test\"]\n",
+        "\n",
+        "# load model\n",
+        "model = AutoModelForCausalLM.from_pretrained(model_name, device_map={\"\": 0}, torch_dtype=torch.float16)\n",
+        "\n",
+        "peft_config = LoraConfig(\n",
+        "    task_type=TaskType.CAUSAL_LM,\n",
+        "    inference_mode=False,\n",
+        "    target_modules=[\"query_key_value\"],\n",
+        "    r=16,\n",
+        "    lora_alpha=32,\n",
+        "    lora_dropout=0.05\n",
+        ")\n",
+        "\n",
+        "model = get_peft_model(model, peft_config)\n",
+        "model.print_trainable_parameters()"
+      ],
+      "metadata": {
+        "id": "ZWdN-p7t0Grk"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "# LoRA tuning"
+      ],
+      "metadata": {
+        "id": "XCrdVAJYc88c"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "training_args = TrainingArguments(\n",
+        "    output_dir=\"./train_results\",\n",
+        "    learning_rate=2e-4,\n",
+        "    per_device_train_batch_size=4,\n",
+        "    gradient_accumulation_steps=4,\n",
+        "    per_device_eval_batch_size=16,\n",
+        "    num_train_epochs=1,\n",
+        "    logging_strategy='steps',\n",
+        "    logging_steps=10,\n",
+        "    save_strategy='epoch',\n",
+        "    evaluation_strategy='epoch',\n",
+        "    load_best_model_at_end=True,\n",
+        "    metric_for_best_model=\"eval_loss\",\n",
+        "    greater_is_better=False,\n",
+        "    save_total_limit=2\n",
+        ")\n",
+        "\n",
+        "trainer = Trainer(\n",
+        "    model=model,\n",
+        "    args=training_args,\n",
+        "    train_dataset=train_dataset,\n",
+        "    eval_dataset=val_dataset,\n",
+        "    data_collator=get_collator(tokenizer, 512)\n",
+        ")\n",
+        "\n",
+        "trainer.train()\n",
+        "model = trainer.model\n",
+        "model.save_pretrained(peft_model_name)"
+      ],
+      "metadata": {
+        "id": "4LH9tOCTJVk1"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "# 学習したモデルのロード"
+      ],
+      "metadata": {
+        "id": "ORgzOPAqdEZR"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "tokenizer = AutoTokenizer.from_pretrained(model_name)\n",
+        "model = AutoModelForCausalLM.from_pretrained(model_name, device_map={\"\": 0}, torch_dtype=torch.float16)\n",
+        "model = PeftModel.from_pretrained(model, peft_model_name)"
+      ],
+      "metadata": {
+        "id": "yrExyO9EOvzR"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "# 推論"
+      ],
+      "metadata": {
+        "id": "-dttR6tkdG0k"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "prompt = prompt_template.format(instruction=\"日本で人気のスポーツは？\", input=\"\")\n",
+        "\n",
+        "inputs = tokenizer(prompt, return_tensors=\"pt\").to(model.device)\n",
+        "with torch.no_grad():\n",
+        "    tokens = model.generate(\n",
+        "        **inputs,\n",
+        "        max_new_tokens=128,\n",
+        "        repetition_penalty=1.1\n",
+        "    )\n",
+        "\n",
+        "output = tokenizer.decode(tokens[0], skip_special_tokens=True)\n",
+        "print(output)"
+      ],
+      "metadata": {
+        "id": "pC5t9F1GJuFN"
+      },
+      "execution_count": null,
+      "outputs": []
+    }
+  ]
+}
--- a/pytorch_model.bin
+++ b/pytorch_model.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2039be3d49e59904559ab49df85fa8ed58a35967e535d19f174b296a8695b300
+size 2852090557
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,6 @@
+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|padding|>",
+  "unk_token": "<|endoftext|>"
+}
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,10 @@
+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|padding|>",
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
+}
				`@@ -0,0 +1 @@`
				`{"framework": "pytorch", "task": "text-generation", "allow_remote": true}`