初始化项目，由ModelHub XC社区提供模型

Model: sanim05/GPT2-disease_text_generation Source: Original Platform
2026-06-19 21:10:00 +08:00
commit 8821a87a35
11 changed files with 300551 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,35 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,103 @@
+---
+language:
+- vi
+library_name: transformers
+pipeline_tag: text-generation
+tags:
+- gpt2
+- vietnamese
+- medical
+- disease
+- text-generation
+- causal-lm
+---
+
+# GPT2-disease_text_generation
+
+This model is a fine-tuned `GPT-2` model for **Vietnamese disease-related text continuation**.
+
+It is intended to continue a partially written passage about common health conditions such as heart disease, stomach pain, diabetes, high blood pressure, and similar medical topics.
+
+## Intended Use
+
+This model is suitable for:
+
+- continuing short disease descriptions in Vietnamese
+- generating sample text for text-generation experiments
+- demonstrating topic-conditioned Vietnamese causal language modeling
+
+This model is **not designed as a question-answering system** and **must not be used as medical advice**.
+
+## Recommended Prompt Style
+
+The model works best when the input is an **unfinished sentence** or an **opening paragraph** that should be continued.
+
+Example:
+
+```text
+Bệnh tim là một trong những nhóm bệnh phổ biến, ảnh hưởng đến khả năng bơm máu của cơ thể và làm suy giảm sức khỏe. Người mắc bệnh tim thường có biểu hiện đau ngực, khó thở, tim đập nhanh, mệt mỏi và chóng mặt khi vận động. Nguyên nhân có thể liên quan đến tăng huyết áp, mỡ máu cao, tiểu đường, hút thuốc lá hoặc căng thẳng kéo dài. Nếu không được phát hiện và điều trị sớm, bệnh tim có thể dẫn đến nhiều biến chứng nguy hiểm như suy tim, nhồi máu cơ tim hoặc
+```
+
+Another example:
+
+```text
+Đau dạ dày là tình trạng thường gặp ở nhiều người, có thể gây đau vùng thượng vị, đầy hơi, buồn nôn và khó tiêu. Bệnh có thể xuất hiện do ăn uống thất thường, căng thẳng kéo dài hoặc vi khuẩn Helicobacter pylori. Nếu chủ quan, người bệnh có thể gặp biến chứng như viêm loét nghiêm trọng hoặc
+```
+
+## Prompt Style To Avoid
+
+Question-answer prompts are less reliable for this model.
+
+Example:
+
+```text
+Câu hỏi: Triệu chứng của bệnh tim là gì?
+Trả lời:
+```
+
+Because this is a continuation model, outputs may become repetitive, drift in structure, or confuse disease entities when used like a QA model.
+
+## Usage With Transformers
+
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+
+model_id = "sanim05/GPT2-disease_text_generation"
+
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(model_id)
+
+prompt = (
+    "Bệnh tim là một trong những nhóm bệnh phổ biến, ảnh hưởng đến khả năng bơm máu "
+    "của cơ thể và làm suy giảm sức khỏe. Người mắc bệnh tim thường có biểu hiện đau ngực, "
+    "khó thở, tim đập nhanh, mệt mỏi và chóng mặt khi vận động. Nguyên nhân có thể liên quan "
+    "đến tăng huyết áp, mỡ máu cao, tiểu đường, hút thuốc lá hoặc căng thẳng kéo dài. "
+    "Nếu không được phát hiện và điều trị sớm, bệnh tim có thể dẫn đến nhiều biến chứng nguy hiểm như"
+)
+
+inputs = tokenizer(prompt, return_tensors="pt")
+outputs = model.generate(
+    **inputs,
+    max_new_tokens=80,
+    do_sample=True,
+    temperature=0.8,
+    top_p=0.95,
+    repetition_penalty=1.1,
+    pad_token_id=tokenizer.eos_token_id,
+)
+
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))
+```
+
+## Limitations
+
+- The model can repeat words or short phrases.
+- The model can mix symptoms or descriptions across different diseases.
+- The model does not guarantee medical accuracy.
+- The model is not suitable for diagnosis, treatment, or clinical recommendations.
+
+## Safety Notice
+
+Generated text should be used only for research, learning, or technical experimentation.
+
+Do not rely on this model for professional medical guidance.
--- a/config.json
+++ b/config.json
@@ -0,0 +1,39 @@
+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 0,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.55.4",
+  "use_cache": false,
+  "vocab_size": 50257
+}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,7 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.55.4",
+  "use_cache": false
+}
--- a/merges.txt
+++ b/merges.txt
--- a/model.safetensors
+++ b/model.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02db7f2e9c275d5f6391684ea69fd356166d3f8352a899c031b837c3fba7891c
+size 248894656
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,30 @@
+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,23 @@
+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "backend": "tokenizers",
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}
--- a/training_args.bin
+++ b/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:047169d0a2fe2e0802f6f56297fc5ccac10ccff76ec80c31f80ed6a794b4a11a
+size 5841
--- a/vocab.json
+++ b/vocab.json