初始化项目，由ModelHub XC社区提供模型

Model: rinna/youri-7b-chat Source: Original Platform
2026-05-21 23:36:12 +08:00
commit 8359b3707f
13 changed files with 474 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,52 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+ 
+ 
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+ 
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*.tfevents* filter=lfs diff=lfs merge=lfs -text
+*.db* filter=lfs diff=lfs merge=lfs -text
+*.ark* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*data* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.meta filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.index filter=lfs diff=lfs merge=lfs -text
+ 
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.gguf* filter=lfs diff=lfs merge=lfs -text
+*.ggml filter=lfs diff=lfs merge=lfs -text
+*.llamafile* filter=lfs diff=lfs merge=lfs -text
+*.pt2 filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+tokenizer.model filter=lfs diff=lfs merge=lfs -text
+model.safetensors filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,316 @@
+---
+language:
+- ja
+- en
+license: llama2
+datasets:
+- databricks/databricks-dolly-15k
+- kunishou/databricks-dolly-15k-ja
+- izumi-lab/llm-japanese-dataset
+thumbnail: https://github.com/rinnakk/japanese-pretrained-models/blob/master/rinna.png
+inference: false
+model-index:
+- name: youri-7b-chat
+  results:
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: AI2 Reasoning Challenge (25-Shot)
+      type: ai2_arc
+      config: ARC-Challenge
+      split: test
+      args:
+        num_few_shot: 25
+    metrics:
+    - type: acc_norm
+      value: 51.19
+      name: normalized accuracy
+    source:
+      url: >-
+        https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=rinna/youri-7b-chat
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: HellaSwag (10-Shot)
+      type: hellaswag
+      split: validation
+      args:
+        num_few_shot: 10
+    metrics:
+    - type: acc_norm
+      value: 76.09
+      name: normalized accuracy
+    source:
+      url: >-
+        https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=rinna/youri-7b-chat
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: MMLU (5-Shot)
+      type: cais/mmlu
+      config: all
+      split: test
+      args:
+        num_few_shot: 5
+    metrics:
+    - type: acc
+      value: 46.06
+      name: accuracy
+    source:
+      url: >-
+        https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=rinna/youri-7b-chat
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: TruthfulQA (0-shot)
+      type: truthful_qa
+      config: multiple_choice
+      split: validation
+      args:
+        num_few_shot: 0
+    metrics:
+    - type: mc2
+      value: 41.17
+    source:
+      url: >-
+        https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=rinna/youri-7b-chat
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: Winogrande (5-shot)
+      type: winogrande
+      config: winogrande_xl
+      split: validation
+      args:
+        num_few_shot: 5
+    metrics:
+    - type: acc
+      value: 75.06
+      name: accuracy
+    source:
+      url: >-
+        https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=rinna/youri-7b-chat
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: GSM8k (5-shot)
+      type: gsm8k
+      config: main
+      split: test
+      args:
+        num_few_shot: 5
+    metrics:
+    - type: acc
+      value: 1.52
+      name: accuracy
+    source:
+      url: >-
+        https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=rinna/youri-7b-chat
+      name: Open LLM Leaderboard
+base_model: rinna/youri-7b
+---
+
+# `rinna/youri-7b-chat`
+
+![rinna-icon](./rinna.png)
+
+# Overview
+The model is the instruction-tuned version of [`rinna/youri-7b`](https://huggingface.co/rinna/youri-7b). It adopts a chat-style input format.
+
+* **Model architecture**
+
+    A 32-layer, 4096-hidden-size transformer-based language model. Refer to the [llama2 paper](https://arxiv.org/abs/2307.09288) for architecture details.
+
+* **Fine-tuning**
+    
+    The fine-tuning data is the subset of the following datasets.
+    * [Databricks Dolly data](https://huggingface.co/datasets/databricks/databricks-dolly-15k)
+    * [Japanese Databricks Dolly data](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja)
+    * [Anthropic HH RLHF data](https://huggingface.co/datasets/Anthropic/hh-rlhf) and its Japanese translation
+    * [FLAN Instruction Tuning data](https://github.com/google-research/FLAN) and its Japanese translation
+    * [Izumi lab LLM Japanese dataset](https://github.com/masanorihirano/llm-japanese-dataset/tree/main)
+      * The following sections are used
+        * alt
+        * aozora-txt
+        * CourseraParallel
+        * ParaNatCom
+        * Tab-delimited_Bilingual_Sentence_Pairs
+        * tanaka-corpus
+        * wikinews
+        * wordnet
+        * yasashi-japanese
+      * The [remaining sections](https://github.com/masanorihirano/llm-japanese-dataset/tree/main/datasets-cc-by-sa) contain commonly used evaluation corpora so they are skipped to prevent data leak.
+
+* **Contributors**
+    
+    - [Tianyu Zhao](https://huggingface.co/tianyuz)
+    - [Kei Sawada](https://huggingface.co/keisawada)
+
+* **Release date**
+
+    October 31, 2023
+
+---
+
+# Benchmarking
+
+Please refer to [rinna's LM benchmark page (Sheet 20231031)](https://rinnakk.github.io/research/benchmarks/lm/index.html).
+
+---
+
+# How to use the model
+
+~~~~python
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+
+tokenizer = AutoTokenizer.from_pretrained("rinna/youri-7b-chat")
+model = AutoModelForCausalLM.from_pretrained("rinna/youri-7b-chat")
+
+if torch.cuda.is_available():
+    model = model.to("cuda")
+
+instruction = "次の日本語を英語に翻訳してください。"
+input = "自然言語による指示に基づきタスクが解けるよう学習させることを Instruction tuning と呼びます。"
+
+context = [
+    {
+        "speaker": "設定",
+        "text": instruction
+    },
+    {
+        "speaker": "ユーザー",
+        "text": input
+    }
+]
+prompt = [
+    f"{uttr['speaker']}: {uttr['text']}"
+    for uttr in context
+]
+prompt = "\n".join(prompt)
+prompt = (
+    prompt
+    + "\n"
+    + "システム: "
+)
+token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
+
+with torch.no_grad():
+    output_ids = model.generate(
+        token_ids.to(model.device),
+        max_new_tokens=200,
+        do_sample=True,
+        temperature=0.5,
+        pad_token_id=tokenizer.pad_token_id,
+        bos_token_id=tokenizer.bos_token_id,
+        eos_token_id=tokenizer.eos_token_id
+    )
+
+output = tokenizer.decode(output_ids.tolist()[0])
+print(output)
+"""
+設定: 次の日本語を英語に翻訳してください。
+ユーザー: 自然言語による指示に基づきタスクが解けるよう学習させることを Instruction tuning と呼びます。
+システム:  Learning to solve tasks based on natural language instructions is called instruction tuning.</s>
+"""
+
+output = output[len(prompt):-len("</s>")].strip()
+input = "大規模言語モデル（だいきぼげんごモデル、英: large language model、LLM）は、多数のパラメータ（数千万から数十億）を持つ人工ニューラルネットワークで構成されるコンピュータ言語モデルで、膨大なラベルなしテキストを使用して自己教師あり学習または半教師あり学習によって訓練が行われる。"
+
+context.extend([
+    {
+        "speaker": "システム",
+        "text": output
+    },
+    {
+        "speaker": "ユーザー",
+        "text": input
+    }
+])
+prompt = [
+    f"{uttr['speaker']}: {uttr['text']}"
+    for uttr in context
+]
+prompt = "\n".join(prompt)
+prompt = (
+    prompt
+    + "\n"
+    + "システム: "
+)
+token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
+
+with torch.no_grad():
+    output_ids = model.generate(
+        token_ids.to(model.device),
+        max_new_tokens=200,
+        do_sample=True,
+        temperature=0.5,
+        pad_token_id=tokenizer.pad_token_id,
+        bos_token_id=tokenizer.bos_token_id,
+        eos_token_id=tokenizer.eos_token_id
+    )
+
+output = tokenizer.decode(output_ids.tolist()[0])
+print(output)
+"""
+設定: 次の日本語を英語に翻訳してください。
+ユーザー: 自然言語による指示に基づきタスクが解けるよう学習させることを Instruction tuning と呼びます。
+システム: Learning to solve tasks based on natural language instructions is called instruction tuning.
+ユーザー: 大規模言語モデル（だいきぼげんごモデル、英: large language model、LLM）は、多数のパラメータ（数千万から数十億）を持つ人工ニューラルネットワークで構成されるコンピュータ言語モデルで、膨大なラベルなしテ キストを使用して自己教師あり学習または半教師あり学習によって訓練が行われる。
+システム:  Large language models (LLMs) are computer language models consisting of a deep artificial neural network with millions to billions of parameters that are trained by self-supervised learning or semi-supervised learning using vast unlabeled text corpora.</s>
+"""
+~~~~
+
+---
+
+# Tokenization
+The model uses the original llama-2 tokenizer.
+
+---
+
+# How to cite
+```bibtex
+@misc{rinna-youri-7b-chat,
+    title = {rinna/youri-7b-chat},
+    author = {Zhao, Tianyu and Sawada, Kei},
+    url = {https://huggingface.co/rinna/youri-7b-chat}
+}
+
+@inproceedings{sawada2024release,
+    title = {Release of Pre-Trained Models for the {J}apanese Language},
+    author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
+    booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
+    month = {5},
+    year = {2024},
+    pages = {13898--13905},
+    url = {https://aclanthology.org/2024.lrec-main.1213},
+    note = {\url{https://arxiv.org/abs/2404.01657}}
+}
+```
+---
+
+# License
+[The llama2 license](https://ai.meta.com/llama/license/)
+# [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
+Detailed results can be found [here](https://huggingface.co/datasets/open-llm-leaderboard/details_rinna__youri-7b-chat)
+
+|             Metric              |Value|
+|---------------------------------|----:|
+|Avg.                             |48.51|
+|AI2 Reasoning Challenge (25-Shot)|51.19|
+|HellaSwag (10-Shot)              |76.09|
+|MMLU (5-Shot)                    |46.06|
+|TruthfulQA (0-shot)              |41.17|
+|Winogrande (5-shot)              |75.06|
+|GSM8k (5-shot)                   | 1.52|
--- a/config.json
+++ b/config.json
@@ -0,0 +1,27 @@
+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.34.0",
+  "use_cache": true,
+  "vocab_size": 32000
+}
--- a/configuration.json
+++ b/configuration.json
@@ -0,0 +1 @@
+{"framework": "pytorch", "task": "text-generation", "allow_remote": true}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,7 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.34.0"
+}
--- a/model.safetensors
+++ b/model.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f77e09b19cbab4b6e5b1f26e4c9ea82363a829cc3524d5738d69e1b8ad464db
+size 13476865232
--- a/pytorch_model.bin
+++ b/pytorch_model.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bcf5f583fcd1b32a9a471a77942cc947107719120c13a5300d2380a9407e782d
+size 13476871854
--- a/rinna.png
+++ b/rinna.png
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,23 @@
+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
--- a/tokenizer.json
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bcd04f0eadf90287bd26e1a183ac487d8a141b09b06aecb7725bbdd343640f2e
+size 1842767
--- a/tokenizer.model
+++ b/tokenizer.model
--- a/tokenizer_checklist.chk
+++ b/tokenizer_checklist.chk
@@ -0,0 +1 @@
+eeec4125e9c7560836b4873b6f8e3025  tokenizer.model
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,35 @@
+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
				`@@ -0,0 +1 @@`
				`{"framework": "pytorch", "task": "text-generation", "allow_remote": true}`
				`@@ -0,0 +1 @@`
				`eeec4125e9c7560836b4873b6f8e3025 tokenizer.model`