kendrickfff/Qwen2.5-1.5B-Indonesian-Assistant-GRPO

Go to file

ModelHub XC a062369b24 初始化项目，由ModelHub XC社区提供模型

Model: kendrickfff/Qwen2.5-1.5B-Indonesian-Assistant-GRPO
Source: Original Platform

2026-06-16 07:53:16 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-06-16 07:53:16 +08:00

chat_template.jinja

初始化项目，由ModelHub XC社区提供模型

2026-06-16 07:53:16 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-06-16 07:53:16 +08:00

model.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-06-16 07:53:16 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-06-16 07:53:16 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-06-16 07:53:16 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-06-16 07:53:16 +08:00

README.md

base_model, tags, license, language

base_model

tags

license

language

kendrickfff/Qwen2.5-1.5B-Indonesian-Assistant

text-generation-inference

transformers

unsloth

qwen2

apache-2.0

en

Uploaded finetuned model

Developed by: kendrickfff
License: apache-2.0
Finetuned from model : kendrickfff/Qwen2.5-1.5B-Indonesian-Assistant

Qwen2.5-1.5B Indonesian Assistant (GRPO)

Training Method

Type: Group Relative Policy Optimization (GRPO)
Base Model: kendrickfff/Qwen2.5-1.5B-Indonesian-Assistant (SFT model)
Steps: 100
Reward Functions: 4 (format, reasoning length, correctness, language)
Key Difference: Model learns to use ... reasoning tags

This qwen2 model was trained 2x faster with Unsloth and Huggingface's TRL library.