93 lines
3.4 KiB
Markdown
93 lines
3.4 KiB
Markdown
|
|
---
|
||
|
|
language:
|
||
|
|
- id
|
||
|
|
license: apache-2.0
|
||
|
|
library_name: transformers
|
||
|
|
pipeline_tag: text-generation
|
||
|
|
base_model: Qwen/Qwen2-1.5B
|
||
|
|
tags:
|
||
|
|
- indonesian
|
||
|
|
- aksarallm
|
||
|
|
- qwen2
|
||
|
|
- continued-pretrain
|
||
|
|
---
|
||
|
|
# AksaraLLM-Qwen-1.5B
|
||
|
|
|
||
|
|
Indonesian-tuned Qwen2 1.5B (1.78B params actual). Production checkpoint of
|
||
|
|
the AksaraLLM-Qwen-1.5B series.
|
||
|
|
|
||
|
|
## Measured baseline (Devin audit, CPU bf16, 50 short Indonesian sentences)
|
||
|
|
|
||
|
|
| Metric | Value |
|
||
|
|
|---|---|
|
||
|
|
| Perplexity | **8.4** |
|
||
|
|
| English-stopword ratio in ID-prompted output | 0.0% |
|
||
|
|
| Indonesian-stopword ratio in ID-prompted output | 24.5% |
|
||
|
|
| Parameters | 1777.1 M |
|
||
|
|
| Architecture | Qwen2ForCausalLM |
|
||
|
|
|
||
|
|
## Versions
|
||
|
|
|
||
|
|
This repo is the rolling production tag for the 1.5B Qwen2 line. Earlier
|
||
|
|
fixed-snapshot variants:
|
||
|
|
- `AksaraLLM/AksaraLLM-Qwen-1.5B-v5-public` (PPL 8.4, recommended public download)
|
||
|
|
- `AksaraLLM/AksaraLLM-Qwen-1.5B-v3-public` (older)
|
||
|
|
- `AksaraLLM/AksaraLLM-Qwen-1.5B-v3b-overnight` (experimental long-run)
|
||
|
|
- `AksaraLLM/aksarallm-1.5b-v2-checkpoint` (older 1.5B Qwen2 baseline, PPL 9.9)
|
||
|
|
|
||
|
|
## Quickstart
|
||
|
|
|
||
|
|
```python
|
||
|
|
from transformers import AutoTokenizer, AutoModelForCausalLM
|
||
|
|
import torch
|
||
|
|
|
||
|
|
tok = AutoTokenizer.from_pretrained("AksaraLLM/AksaraLLM-Qwen-1.5B")
|
||
|
|
model = AutoModelForCausalLM.from_pretrained(
|
||
|
|
"AksaraLLM/AksaraLLM-Qwen-1.5B",
|
||
|
|
torch_dtype=torch.bfloat16,
|
||
|
|
device_map="auto",
|
||
|
|
)
|
||
|
|
inp = tok("Indonesia adalah negara", return_tensors="pt").to(model.device)
|
||
|
|
print(tok.decode(model.generate(**inp, max_new_tokens=120, do_sample=True, top_p=0.9)[0], skip_special_tokens=True))
|
||
|
|
```
|
||
|
|
|
||
|
|
## Known issues / fix-it list
|
||
|
|
|
||
|
|
- **`tie_word_embeddings` config / checkpoint mismatch** (same as v5-public). Set `tie_word_embeddings: false` in `config.json` to silence the warning safely.
|
||
|
|
- **Identity uncalibrated** (model may say "I'm Qwen").
|
||
|
|
- **No chat template** in `tokenizer_config.json` — add Qwen2 ChatML.
|
||
|
|
|
||
|
|
## License
|
||
|
|
Apache 2.0
|
||
|
|
|
||
|
|
## Sample outputs (CPU inference, greedy, repeat_penalty=1.15)
|
||
|
|
|
||
|
|
Real generation captured during the Devin audit on 2026-05-02. Greedy decoding (`do_sample=False`) so these are reproducible.
|
||
|
|
|
||
|
|
### Continuations (no chat template)
|
||
|
|
|
||
|
|
**Prompt:** Indonesia adalah negara kepulauan terbesar di dunia,
|
||
|
|
**Continuation:** dengan 17.508 pulau yang tersebar di seluruh wilayahnya. Indonesia memiliki berbagai jenis tanaman dan hewan, termasuk beberapa spesies unik seperti kelinci kambing (Borneo), burung bali (Sunda), dan buaya laut (Sumatera). Selain itu, Indonesia juga merupakan salah satu negara
|
||
|
|
|
||
|
|
**Prompt:** Resep sederhana untuk membuat nasi goreng adalah
|
||
|
|
**Continuation:** dengan memasaknya menggunakan bahan-bahan yang mudah didapatkan di rumah. Bisa juga disajikan sebagai hidangan makan malam atau sarapan.
|
||
|
|
Banyak orang menganggap bahwa nasi goreng hanya bisa dibuat oleh chef, namun sebenarnya tidak demikian. Hanya saja cara pembuatan dan proses penyajian yang ber
|
||
|
|
|
||
|
|
**Prompt:** Ibukota Republik Indonesia adalah
|
||
|
|
**Continuation:** Jakarta. Kota ini terletak di bagian tengah pulau Jawa, tepatnya berada pada ketinggian 10 meter dari permukaan laut dan memiliki luas wilayah sekitar 584 kilometer persegi.
|
||
|
|
Jakarta merupakan ibu negara atau Ibukota Republik Indonesia yang menjadi pusat pemerintahan nasional serta
|
||
|
|
|
||
|
|
**Prompt:** Bahasa Indonesia berasal dari rumpun bahasa
|
||
|
|
**Continuation:** yang berbeda-beda, yaitu:
|
||
|
|
A. Jawa dan Madura
|
||
|
|
B. Melayu dan Minangkabau
|
||
|
|
C. Aceh dan Sunda
|
||
|
|
D. Sumatera dan Kalimantan
|
||
|
|
|
||
|
|
Jawaban: C
|
||
|
|
|
||
|
|
Penjelasan:
|
||
|
|
|
||
|
|
1. Bahasa Indonesia adalah sebuah bahasa yang terdiri atas beberapa subbahasa atau var
|
||
|
|
|