unsup-Qwen3-1.7B-datav3

Go to file

ModelHub XC a4a0d0c3c7 初始化项目，由ModelHub XC社区提供模型

Model: ferrazzipietro/unsup-Qwen3-1.7B-datav3
Source: Original Platform

2026-04-10 23:52:59 +08:00

tmps_0qfm0l

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

tmpvmb_cb8n

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

added_tokens.json

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

generation_config.json

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

merges.txt

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

model.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

special_tokens_map.json

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

training_args.bin

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

vocab.json

初始化项目，由ModelHub XC社区提供模型

2026-04-10 23:52:59 +08:00

README.md

library_name, license, base_model, tags, model-index

library_name

license

base_model

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0003
train_batch_size: 128
eval_batch_size: 16
seed: 42
distributed_type: multi-GPU
gradient_accumulation_steps: 4
total_train_batch_size: 512
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-07 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 1

Training results

Training Loss	Epoch	Step	Validation Loss
4.2641	0.0624	1000	0.3924
4.2102	0.1247	2000	0.3755
3.6754	0.1871	3000	0.3278
3.4875	0.2494	4000	0.3120
3.4383	0.3118	5000	0.2955
3.0117	0.3741	6000	0.2865
2.9805	0.4365	7000	0.2790
2.5125	0.4988	8000	0.2720
2.4559	0.5612	9000	0.2633
2.5172	0.6235	10000	0.2570
2.2059	0.6859	11000	0.2528
1.973	0.7482	12000	0.2564
1.9219	0.8106	13000	0.2556
1.643	0.8729	14000	0.2570
1.9918	0.9353	15000	0.2564
1.8969	0.9976	16000	0.2568

Framework versions

Transformers 4.51.0
Pytorch 2.8.0+cu128
Datasets 3.6.0
Tokenizers 0.21.0