Files
ShweYon-V3-Base/README.md
ModelHub XC 5d6adf70ce 初始化项目,由ModelHub XC社区提供模型
Model: URajinda/ShweYon-V3-Base
Source: Original Platform
2026-04-20 00:40:07 +08:00

53 lines
3.7 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
language:
- my
license: apache-2.0
base_model: Qwen/Qwen2.5-1.5B
tags:
- text-generation
- myanmar
- shweyon
- base-model
- custom-tokenizer
library_name: transformers
---
# 🐰 ShweYon-V3-Base (ရွှေယုန်-V3)
**ShweYon-V3-Base** သည် Qwen 2.5 1.5B ကို အခြေခံ၍ မြန်မာဘာသာစကားအတွက် အထူးပြုပြင်ထားသော **Base Model** ဖြစ်ပါသည်။ ဤ Version တွင် ယခင် Version များကဲ့သို့ Tokenizer သီးခြားသုံးရန် မလိုတော့ဘဲ Model ၏ Embedding ထဲသို့ မြန်မာတုံကင်များကို တိုက်ရိုက်ပေါင်းစပ်ထားပါသည်။
ShweYon-V3-Base is a Myanmar-centric base language model built on top of the Qwen 2.5 1.5B architecture. This model is a milestone in the "ShweYon" project, focusing on improving the efficiency of Myanmar script processing through a custom tokenizer.
## 🎯 Purpose (ရည်ရွယ်ချက်)
ဤ Model သည် မြန်မာဘာသာစကားအတွက် **Foundation Base Model** တစ်ခုအဖြစ် ရည်ရွယ်ပါသည်။ ဤ Model ကို အခြေခံ၍ Chatbot များ၊ Question Answering စနစ်များနှင့် အခြားသော Downstream NLP Task များအတွက် ထပ်မံ၍ Fine-tuning (SFT/RLHF) ပြုလုပ်ရန် အကောင်းဆုံး အုတ်မြစ်ဖြစ်ပါသည်။
## ✨ Technical Highlights
* **Integrated Tokenizer:** မြန်မာဝိဘတ်များနှင့် စကားလုံးပေါင်း ၉, ကျော် ပါဝင်သော Custom Tokenizer ကို တစ်ပါတည်း ထည့်သွင်းထားပါသည်။
* **Extended Vocabulary:** Vocabulary Size ကို `160,746` အထိ တိုးမြှင့်ထားသဖြင့် မြန်မာစာသားများကို ပိုမိုကျစ်လျစ်စွာနှင့် မြန်ဆန်စွာ တွက်ချက်နိုင်ပါသည်။
* **Base Training:** မြန်မာစာပေ စာအုပ်များစွာဖြင့် Model ၏ မြန်မာစာ အခြေခံဗဟုသုတ ပိုမိုကောင်းမွန်လာစေရန် လေ့ကျင့်ပေးထားပါသည်။
## 🚀 Quick Start
ဤ Base Model ကို အောက်ပါအတိုင်း ခေါ်ယူအသုံးပြုနိုင်ပါသည်။
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "URajinda/ShweYon-V3-Base"
# မျက်မှန်ရော ဦးနှောက်ရော တစ်ခါတည်း ပါလာပါမည်
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# စမ်းသပ်ကြည့်ရန်
prompt = "မြန်မာနိုင်ငံ၏ သမိုင်းကြောင်းမှာ"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
⚠️ Note
ဤ Model သည် Base Model သာ ဖြစ်သောကြောင့် လူသားနှင့် စကားပြောဆိုရန် (Instruction Following) အတွက် ထပ်မံ၍ Chat Fine-tuning လုပ်ရန် လိုအပ်ပါသေးသည်။
⚖️ License
Apache License 2.0