Model: Aratako/Qwen3-8B-NSFW-JP Source: Original Platform
license, language, base_model, library_name
| license | language | base_model | library_name | ||
|---|---|---|---|---|---|
| mit |
|
|
transformers |
Qwen3-8B-NSFW-JP
概要
このモデルは、Qwen/Qwen3-8Bに対してNSFW系日本語データ約7Bトークンで継続事前学習を行ったモデルです。
事後学習は行われていないので、本モデルを利用する際には何らかの事後学習を行った上でご利用ください。
学習の設定
学習はaxolotlを使ってtransformersベースで行いました。
学習環境はH200x8、学習時間は約65時間です。
学習に関する主なハイパーパラメータは以下の通りです。
- learning_rate: 1e-5
- lr_scheduler: cosine
- cosine_min_lr_ratio: 0.1
- batch_size(global): 256
- max_seq_length: 32768
- weight_decay: 0.01
- optimizer: paged_adamw_8bit
ライセンス
MITライセンスの元公開します。
Description