初始化项目，由ModelHub XC社区提供模型

Model: flax-community/gpt2-medium-indonesian Source: Original Platform
2026-06-07 05:43:18 +08:00
commit e9d472cebf
24 changed files with 51340 additions and 0 deletions
--- a/create_tokenizer.py
+++ b/create_tokenizer.py
@@ -0,0 +1,28 @@
+from datasets import load_dataset
+from tokenizers import trainers, Tokenizer, normalizers, ByteLevelBPETokenizer
+
+model_dir = "/home/cahya/Work/flax-community/gpt2-medium-indonesian"  # ${MODEL_DIR}
+
+
+# load dataset
+dataset = load_dataset("oscar", "unshuffled_deduplicated_id", split="train")
+
+# Instantiate tokenizer
+tokenizer = ByteLevelBPETokenizer()
+
+def batch_iterator(batch_size=1000):
+    for i in range(0, len(dataset), batch_size):
+        yield dataset[i: i + batch_size]["text"]
+
+# Customized training
+tokenizer.train_from_iterator(batch_iterator(), vocab_size=50265, min_frequency=2, special_tokens=[
+    "<s>",
+    "<pad>",
+    "</s>",
+    "<unk>",
+    "<mask>",
+])
+
+# Save files to disk
+tokenizer.save(f"{model_dir}/tokenizer.json")
+