qwen3-4b-base-prompt

Go to file

ModelHub XC 1926711e5d 初始化项目，由ModelHub XC社区提供模型

Model: boradorish/qwen3-4b-base-prompt
Source: Original Platform

2026-05-28 15:44:34 +08:00

checkpoint-920

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

checkpoint-1012

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

checkpoint-1104

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

checkpoint-1196

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

checkpoint-1288

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

checkpoint-1380

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

checkpoint-1472

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

checkpoint-1564

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

checkpoint-1626

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

added_tokens.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

all_results.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

chat_template.jinja

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

eval_results.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

generation_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

merges.txt

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

model-00001-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

model-00002-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

model-00003-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

model-00004-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

model.safetensors.index.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

special_tokens_map.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

train_results.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

trainer_log.jsonl

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

trainer_state.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

training_args.bin

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

training_eval_loss.png

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

training_loss.png

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

vocab.json

初始化项目，由ModelHub XC社区提供模型

2026-05-28 15:44:34 +08:00

README.md

library_name, license, base_model, tags, model-index

library_name

license

base_model

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2e-05
train_batch_size: 1
eval_batch_size: 1
seed: 42
distributed_type: multi-GPU
num_devices: 2
gradient_accumulation_steps: 16
total_train_batch_size: 32
total_eval_batch_size: 2
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 3.0

Training results

Training Loss	Epoch	Step	Validation Loss
0.0056	0.1698	92	0.0098
0.0115	0.3397	184	0.0107
0.015	0.5095	276	0.0094
0.0082	0.6794	368	0.0104
0.0094	0.8492	460	0.0095
0.0038	1.0185	552	0.0086
0.0029	1.1883	644	0.0095
0.01	1.3581	736	0.0082
0.0019	1.5280	828	0.0081
0.0045	1.6978	920	0.0080
0.0091	1.8677	1012	0.0077
0.0057	2.0369	1104	0.0081
0.0006	2.2068	1196	0.0086
0.0075	2.3766	1288	0.0088
0.0065	2.5464	1380	0.0087
0.0084	2.7163	1472	0.0087
0.0027	2.8861	1564	0.0087

Framework versions

Transformers 4.56.2
Pytorch 2.11.0+cu128
Datasets 3.0.0
Tokenizers 0.22.2

README.md

sft_base

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions