Files

ModelHub XC 5007cc35ef 初始化项目，由ModelHub XC社区提供模型

Model: AksaraLLM/AksaraLLM-Qwen-1.5B-v5-public
Source: Original Platform

2026-05-22 08:36:18 +08:00

4.0 KiB

Raw Permalink Blame History

language, license, library_name, pipeline_tag, base_model, tags

language

license

library_name

pipeline_tag

base_model

AksaraLLM-Qwen-1.5B-v5-public

Indonesian-tuned Qwen2 1.5B (1.78B params actual). This is the best 1.5B model in the org by perplexity (Devin audit) and is recommended as the default daily-driver Indonesian LM until the from-scratch 20B is trained.

Measured baseline (Devin audit, CPU bf16, 50 short Indonesian sentences)

Metric	Value
Perplexity	8.4
English-stopword ratio in ID-prompted output	0.9%
Indonesian-stopword ratio in ID-prompted output	24.1%
Parameters	1777.1 M
Architecture	Qwen2ForCausalLM
Context length	32 768

Sample generations

Indonesia adalah negara → coherent factual Indonesian completion (some hallucination on neighbouring countries).
Once upon a time → coherent English children's-story continuation (model is bilingual ID/EN).
Apa nama kamu? → Indonesian forum-style response (identity not calibrated).

Quickstart

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tok = AutoTokenizer.from_pretrained("AksaraLLM/AksaraLLM-Qwen-1.5B-v5-public")
model = AutoModelForCausalLM.from_pretrained(
    "AksaraLLM/AksaraLLM-Qwen-1.5B-v5-public",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
inp = tok("Indonesia adalah negara", return_tensors="pt").to(model.device)
print(tok.decode(model.generate(**inp, max_new_tokens=120, do_sample=True, top_p=0.9)[0], skip_special_tokens=True))

Known issues

tie_word_embeddings config bug: the config flags weights as tied, but the checkpoint contains different embed_tokens.weight and lm_head.weight. HF transformers prints a warning and disables tying at load time, but re-saving via save_pretrained may overwrite one with the other and break the model. Recommended fix: set tie_word_embeddings: false in config.json (preserves checkpoint correctness).
Identity uncalibrated — model is descended from Qwen2 and may identify as Qwen.
No chat template in the bundled tokenizer config — apply Qwen2 ChatML manually if needed.

Recommended downstream work

Fix tie_word_embeddings: false in config.json.
Identity SFT (50–100 prompts).
Add Qwen2 ChatML chat_template.
IndoNLU / IndoMMLU benchmarks.

License

Apache 2.0

Sample outputs (CPU inference, greedy, repeat_penalty=1.15)

Real generation captured during the Devin audit on 2026-05-02. Greedy decoding (do_sample=False) so these are reproducible.

Continuations (no chat template)

Prompt: Indonesia adalah negara kepulauan terbesar di dunia,
Continuation: dengan 17.508 pulau yang tersebar di seluruh wilayahnya. Indonesia memiliki berbagai jenis tanaman dan hewan, termasuk beberapa spesies unik seperti kelinci kambing (Borneo), burung bali (Sunda), dan buaya laut (Sumatera). Selain itu, Indonesia juga merupakan salah satu negara

Prompt: Resep sederhana untuk membuat nasi goreng adalah
Continuation: dengan memasaknya menggunakan bahan-bahan yang mudah didapatkan di rumah. Bisa juga disajikan sebagai hidangan makan malam atau sarapan. Banyak orang menganggap bahwa nasi goreng hanya bisa dibuat oleh chef, tapi sebenarnya tidak demikian. Hanya saja cara pembuatan dan proses penyajian yang berbed

Prompt: Ibukota Republik Indonesia adalah
Continuation: Jakarta. Kota ini terletak di bagian tengah pulau Jawa, tepatnya berada pada ketinggian 10 meter dari permukaan laut. Dengan luas wilayah sekitar 584 kilometer persegi dan memiliki populasi sekitar 9 juta jiwa, Jakarta merupakan ibu negara Indonesia. Jakarta memang

Prompt: Bahasa Indonesia berasal dari rumpun bahasa
Continuation: yang berbeda-beda, yaitu: A. Jawa dan Madura B. Melayu dan Minangkabau C. Aceh dan Sunda D. Sumatera dan Kalimantan

Jawaban: C

Penjelasan:

Bahasa Indonesia adalah sebuah bahasa yang terdiri atas beberapa subbahasa atau var

4.0 KiB Raw Permalink Blame History Unescape Escape