初始化项目,由ModelHub XC社区提供模型
Model: Aratako/Qwen3-8B-NSFW-JP Source: Original Platform
This commit is contained in:
37
README.md
Normal file
37
README.md
Normal file
@@ -0,0 +1,37 @@
|
||||
---
|
||||
license: mit
|
||||
language:
|
||||
- ja
|
||||
base_model:
|
||||
- Qwen/Qwen3-8B
|
||||
library_name: transformers
|
||||
---
|
||||
|
||||
# Qwen3-8B-NSFW-JP
|
||||
|
||||
## 概要
|
||||
このモデルは、[Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)に対してNSFW系日本語データ約7Bトークンで継続事前学習を行ったモデルです。
|
||||
|
||||
事後学習は行われていないので、本モデルを利用する際には何らかの事後学習を行った上でご利用ください。
|
||||
|
||||
## 学習の設定
|
||||
|
||||
学習は[axolotl](https://github.com/axolotl-ai-cloud/axolotl)を使ってtransformersベースで行いました。
|
||||
|
||||
学習環境はH200x8、学習時間は約65時間です。
|
||||
|
||||
学習に関する主なハイパーパラメータは以下の通りです。
|
||||
|
||||
```
|
||||
- learning_rate: 1e-5
|
||||
- lr_scheduler: cosine
|
||||
- cosine_min_lr_ratio: 0.1
|
||||
- batch_size(global): 256
|
||||
- max_seq_length: 32768
|
||||
- weight_decay: 0.01
|
||||
- optimizer: paged_adamw_8bit
|
||||
```
|
||||
|
||||
## ライセンス
|
||||
|
||||
MITライセンスの元公開します。
|
||||
Reference in New Issue
Block a user