CL-From-Nothing/Qwen3-4B-SSD-RLVE-Eval20-N20-global-step-500

Go to file

ModelHub XC df101e299c 初始化项目，由ModelHub XC社区提供模型

Model: CL-From-Nothing/Qwen3-4B-SSD-RLVE-Eval20-N20-global-step-500
Source: Original Platform

2026-05-02 14:16:57 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

added_tokens.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

chat_template.jinja

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

generation_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

merges.txt

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

model-00001-of-00002.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

model-00002-of-00002.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

model.safetensors.index.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

special_tokens_map.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

vocab.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 14:16:57 +08:00

README.md

license, language, library_name, pipeline_tag, base_model, tags

license

language

library_name

pipeline_tag

base_model

Qwen3-4B SSD (RLVE Eval20, N=20) — global step 500

Weights merged from VERL FSDP SFT checkpoint global_step_500 (500 optimizer steps, 1 epoch schedule) of Simple Self-Distillation (SSD) applied to Qwen/Qwen3-4B: sample N=20 self-generated responses from the frozen base model, then SFT on those samples.

Training data

Parquet SFT corpus (16k rows, messages column): CL-From-Nothing/RLVE-Eval20-Qwen3-4B-SSD-N20-SFT-Train.

Companion 1.7B model: CL-From-Nothing/Qwen3-1-7B-SSD-RLVE-Eval20-N20-global-step-500.

Load

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "CL-From-Nothing/Qwen3-4B-SSD-RLVE-Eval20-N20-global-step-500"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto")