gpt2-medium-indonesian/create_tokenizer.py

from datasets import load_dataset
from tokenizers import trainers, Tokenizer, normalizers, ByteLevelBPETokenizer

model_dir = "/home/cahya/Work/flax-community/gpt2-medium-indonesian"  # ${MODEL_DIR}


# load dataset
dataset = load_dataset("oscar", "unshuffled_deduplicated_id", split="train")

# Instantiate tokenizer
tokenizer = ByteLevelBPETokenizer()

def batch_iterator(batch_size=1000):
    for i in range(0, len(dataset), batch_size):
        yield dataset[i: i + batch_size]["text"]

# Customized training
tokenizer.train_from_iterator(batch_iterator(), vocab_size=50265, min_frequency=2, special_tokens=[
    "<s>",
    "<pad>",
    "</s>",
    "<unk>",
    "<mask>",
])

# Save files to disk
tokenizer.save(f"{model_dir}/tokenizer.json")
初始化项目，由ModelHub XC社区提供模型 Model: flax-community/gpt2-medium-indonesian Source: Original Platform 2026-06-07 05:43:18 +08:00			`from datasets import load_dataset`
			`from tokenizers import trainers, Tokenizer, normalizers, ByteLevelBPETokenizer`

			`model_dir = "/home/cahya/Work/flax-community/gpt2-medium-indonesian" # ${MODEL_DIR}`


			`# load dataset`
			`dataset = load_dataset("oscar", "unshuffled_deduplicated_id", split="train")`

			`# Instantiate tokenizer`
			`tokenizer = ByteLevelBPETokenizer()`

			`def batch_iterator(batch_size=1000):`
			`for i in range(0, len(dataset), batch_size):`
			`yield dataset[i: i + batch_size]["text"]`

			`# Customized training`
			`tokenizer.train_from_iterator(batch_iterator(), vocab_size=50265, min_frequency=2, special_tokens=[`
			`"<s>",`
			`"<pad>",`
			`"</s>",`
			`"<unk>",`
			`"<mask>",`
			`])`

			`# Save files to disk`
			`tokenizer.save(f"{model_dir}/tokenizer.json")`