48 lines
1.5 KiB
Markdown
48 lines
1.5 KiB
Markdown
|
|
---
|
||
|
|
datasets:
|
||
|
|
- VTSNLP/vietnamese_curated_dataset
|
||
|
|
- VTSNLP/instruct_general_dataset
|
||
|
|
- IIGroup/X-Coder-SFT-376k
|
||
|
|
language:
|
||
|
|
- vi
|
||
|
|
- en
|
||
|
|
base_model: microsoft/DialoGPT-medium
|
||
|
|
pipeline_tag: text-generation
|
||
|
|
tags:
|
||
|
|
- code
|
||
|
|
- finance
|
||
|
|
- conversational
|
||
|
|
---
|
||
|
|
|
||
|
|
# DialoGPT-VN (Vietnamese Conversational Model)
|
||
|
|
|
||
|
|
mô hình dc fineturn để chat, tính toán và code siêu nhẹ phù hợp cho bot discord facebook vv
|
||
|
|
|
||
|
|
## đặc diểm
|
||
|
|
- hội thoại: hội thoại tự nhiên bằng tiếng anh và tiếng việt.
|
||
|
|
- code: viết code cơ bản.
|
||
|
|
- Đa ngành: hổ trợ giải bài tập phân tích chứng khoáng cơ bản vv..
|
||
|
|
|
||
|
|
## cấu hình đề nghị
|
||
|
|
- RAM: ít nhất 2GB.
|
||
|
|
- CPU: 2 Core, xung 3.2GHz trở lên.
|
||
|
|
|
||
|
|
## cách sủ dụng
|
||
|
|
dùng như dialogpt bình thường qua transformers.
|
||
|
|
|
||
|
|
from transformers import AutoModelForCausalLM, AutoTokenizer
|
||
|
|
import torch
|
||
|
|
|
||
|
|
tokenizer = AutoTokenizer.from_pretrained("bachvnju/dialogptvn")
|
||
|
|
model = AutoModelForCausalLM.from_pretrained("bachvnju/dialogptvn")
|
||
|
|
|
||
|
|
for step in range(3):
|
||
|
|
new_user_input_ids = tokenizer.encode(input(">> User: ") + tokenizer.eos_token, return_tensors='pt')
|
||
|
|
bot_input_ids = torch.cat([chat_history_ids, new_user_input_ids], dim=-1) if step > 0 else new_user_input_ids
|
||
|
|
chat_history_ids = model.generate(bot_input_ids, max_length=1000, pad_token_id=tokenizer.eos_token_id)
|
||
|
|
|
||
|
|
print("DialoGPT-VN: {}".format(tokenizer.decode(chat_history_ids[:, bot_input_ids.shape[-1]:][0], skip_special_tokens=True)))
|
||
|
|
|
||
|
|
## liên hệ
|
||
|
|
nếu gặp lổi liên hệ:
|
||
|
|
- Discord: bachvnju
|