初始化项目,由ModelHub XC社区提供模型

Model: sanim05/GPT2-disease_text_generation
Source: Original Platform
This commit is contained in:
ModelHub XC
2026-06-19 21:10:00 +08:00
commit 8821a87a35
11 changed files with 300551 additions and 0 deletions

35
.gitattributes vendored Normal file
View File

@@ -0,0 +1,35 @@
*.7z filter=lfs diff=lfs merge=lfs -text
*.arrow filter=lfs diff=lfs merge=lfs -text
*.bin filter=lfs diff=lfs merge=lfs -text
*.bz2 filter=lfs diff=lfs merge=lfs -text
*.ckpt filter=lfs diff=lfs merge=lfs -text
*.ftz filter=lfs diff=lfs merge=lfs -text
*.gz filter=lfs diff=lfs merge=lfs -text
*.h5 filter=lfs diff=lfs merge=lfs -text
*.joblib filter=lfs diff=lfs merge=lfs -text
*.lfs.* filter=lfs diff=lfs merge=lfs -text
*.mlmodel filter=lfs diff=lfs merge=lfs -text
*.model filter=lfs diff=lfs merge=lfs -text
*.msgpack filter=lfs diff=lfs merge=lfs -text
*.npy filter=lfs diff=lfs merge=lfs -text
*.npz filter=lfs diff=lfs merge=lfs -text
*.onnx filter=lfs diff=lfs merge=lfs -text
*.ot filter=lfs diff=lfs merge=lfs -text
*.parquet filter=lfs diff=lfs merge=lfs -text
*.pb filter=lfs diff=lfs merge=lfs -text
*.pickle filter=lfs diff=lfs merge=lfs -text
*.pkl filter=lfs diff=lfs merge=lfs -text
*.pt filter=lfs diff=lfs merge=lfs -text
*.pth filter=lfs diff=lfs merge=lfs -text
*.rar filter=lfs diff=lfs merge=lfs -text
*.safetensors filter=lfs diff=lfs merge=lfs -text
saved_model/**/* filter=lfs diff=lfs merge=lfs -text
*.tar.* filter=lfs diff=lfs merge=lfs -text
*.tar filter=lfs diff=lfs merge=lfs -text
*.tflite filter=lfs diff=lfs merge=lfs -text
*.tgz filter=lfs diff=lfs merge=lfs -text
*.wasm filter=lfs diff=lfs merge=lfs -text
*.xz filter=lfs diff=lfs merge=lfs -text
*.zip filter=lfs diff=lfs merge=lfs -text
*.zst filter=lfs diff=lfs merge=lfs -text
*tfevents* filter=lfs diff=lfs merge=lfs -text

103
README.md Normal file
View File

@@ -0,0 +1,103 @@
---
language:
- vi
library_name: transformers
pipeline_tag: text-generation
tags:
- gpt2
- vietnamese
- medical
- disease
- text-generation
- causal-lm
---
# GPT2-disease_text_generation
This model is a fine-tuned `GPT-2` model for **Vietnamese disease-related text continuation**.
It is intended to continue a partially written passage about common health conditions such as heart disease, stomach pain, diabetes, high blood pressure, and similar medical topics.
## Intended Use
This model is suitable for:
- continuing short disease descriptions in Vietnamese
- generating sample text for text-generation experiments
- demonstrating topic-conditioned Vietnamese causal language modeling
This model is **not designed as a question-answering system** and **must not be used as medical advice**.
## Recommended Prompt Style
The model works best when the input is an **unfinished sentence** or an **opening paragraph** that should be continued.
Example:
```text
Bệnh tim là một trong những nhóm bệnh phổ biến, ảnh hưởng đến khả năng bơm máu của cơ thể và làm suy giảm sức khỏe. Người mắc bệnh tim thường có biểu hiện đau ngực, khó thở, tim đập nhanh, mệt mỏi và chóng mặt khi vận động. Nguyên nhân có thể liên quan đến tăng huyết áp, mỡ máu cao, tiểu đường, hút thuốc lá hoặc căng thẳng kéo dài. Nếu không được phát hiện và điều trị sớm, bệnh tim có thể dẫn đến nhiều biến chứng nguy hiểm như suy tim, nhồi máu cơ tim hoặc
```
Another example:
```text
Đau dạ dày là tình trạng thường gặp ở nhiều người, có thể gây đau vùng thượng vị, đầy hơi, buồn nôn và khó tiêu. Bệnh có thể xuất hiện do ăn uống thất thường, căng thẳng kéo dài hoặc vi khuẩn Helicobacter pylori. Nếu chủ quan, người bệnh có thể gặp biến chứng như viêm loét nghiêm trọng hoặc
```
## Prompt Style To Avoid
Question-answer prompts are less reliable for this model.
Example:
```text
Câu hỏi: Triệu chứng của bệnh tim là gì?
Trả lời:
```
Because this is a continuation model, outputs may become repetitive, drift in structure, or confuse disease entities when used like a QA model.
## Usage With Transformers
```python
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "sanim05/GPT2-disease_text_generation"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
prompt = (
"Bệnh tim là một trong những nhóm bệnh phổ biến, ảnh hưởng đến khả năng bơm máu "
"của cơ thể và làm suy giảm sức khỏe. Người mắc bệnh tim thường có biểu hiện đau ngực, "
"khó thở, tim đập nhanh, mệt mỏi và chóng mặt khi vận động. Nguyên nhân có thể liên quan "
"đến tăng huyết áp, mỡ máu cao, tiểu đường, hút thuốc lá hoặc căng thẳng kéo dài. "
"Nếu không được phát hiện và điều trị sớm, bệnh tim có thể dẫn đến nhiều biến chứng nguy hiểm như"
)
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(
**inputs,
max_new_tokens=80,
do_sample=True,
temperature=0.8,
top_p=0.95,
repetition_penalty=1.1,
pad_token_id=tokenizer.eos_token_id,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
```
## Limitations
- The model can repeat words or short phrases.
- The model can mix symptoms or descriptions across different diseases.
- The model does not guarantee medical accuracy.
- The model is not suitable for diagnosis, treatment, or clinical recommendations.
## Safety Notice
Generated text should be used only for research, learning, or technical experimentation.
Do not rely on this model for professional medical guidance.

39
config.json Normal file
View File

@@ -0,0 +1,39 @@
{
"activation_function": "gelu_new",
"architectures": [
"GPT2LMHeadModel"
],
"attn_pdrop": 0.1,
"bos_token_id": 50256,
"embd_pdrop": 0.1,
"eos_token_id": 50256,
"initializer_range": 0.02,
"layer_norm_epsilon": 1e-05,
"model_type": "gpt2",
"n_ctx": 1024,
"n_embd": 768,
"n_head": 12,
"n_inner": null,
"n_layer": 12,
"n_positions": 1024,
"pad_token_id": 0,
"reorder_and_upcast_attn": false,
"resid_pdrop": 0.1,
"scale_attn_by_inverse_layer_idx": false,
"scale_attn_weights": true,
"summary_activation": null,
"summary_first_dropout": 0.1,
"summary_proj_to_labels": true,
"summary_type": "cls_index",
"summary_use_proj": true,
"task_specific_params": {
"text-generation": {
"do_sample": true,
"max_length": 50
}
},
"torch_dtype": "bfloat16",
"transformers_version": "4.55.4",
"use_cache": false,
"vocab_size": 50257
}

7
generation_config.json Normal file
View File

@@ -0,0 +1,7 @@
{
"_from_model_config": true,
"bos_token_id": 50256,
"eos_token_id": 50256,
"transformers_version": "4.55.4",
"use_cache": false
}

50001
merges.txt Normal file

File diff suppressed because it is too large Load Diff

3
model.safetensors Normal file
View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:02db7f2e9c275d5f6391684ea69fd356166d3f8352a899c031b837c3fba7891c
size 248894656

30
special_tokens_map.json Normal file
View File

@@ -0,0 +1,30 @@
{
"bos_token": {
"content": "<|endoftext|>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"eos_token": {
"content": "<|endoftext|>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"pad_token": {
"content": "<|endoftext|>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"unk_token": {
"content": "<|endoftext|>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
}
}

250306
tokenizer.json Normal file

File diff suppressed because it is too large Load Diff

23
tokenizer_config.json Normal file
View File

@@ -0,0 +1,23 @@
{
"add_prefix_space": false,
"added_tokens_decoder": {
"0": {
"content": "<|endoftext|>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false,
"special": true
}
},
"backend": "tokenizers",
"bos_token": "<|endoftext|>",
"clean_up_tokenization_spaces": false,
"eos_token": "<|endoftext|>",
"errors": "replace",
"extra_special_tokens": {},
"model_max_length": 1024,
"pad_token": "<|endoftext|>",
"tokenizer_class": "GPT2Tokenizer",
"unk_token": "<|endoftext|>"
}

3
training_args.bin Normal file
View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:047169d0a2fe2e0802f6f56297fc5ccac10ccff76ec80c31f80ed6a794b4a11a
size 5841

1
vocab.json Normal file

File diff suppressed because one or more lines are too long