Go to file

ModelHub XC 4b2f0c7bfe 初始化项目，由ModelHub XC社区提供模型

Model: YOYO-AI/Qwen3-8B-YOYO-karcher-128K
Source: Original Platform

2026-06-02 23:58:14 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

added_tokens.json

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

configuration.json

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

merges.txt

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

model-00001-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

model-00002-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

model-00003-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

model-00004-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

model.safetensors.index.json

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

special_tokens_map.json

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

vocab.json

初始化项目，由ModelHub XC社区提供模型

2026-06-02 23:58:14 +08:00

README.md

license, language, base_model, pipeline_tag, tags

license

language

base_model

pipeline_tag

Model Highlights:

merge method: karcher
Highest precision: dtype: float32 + out_dtype: bfloat16
Brand-new chat template: ensures normal operation on LM Studio
Context length: 131072

Model Selection Table:

Model	Context	Uses Basic Model
Qwen3-8B-YOYO-karcher	32K	NO
Qwen3-8B-YOYO-karcher-128K	128K	NO
Qwen3-EZO-8B-YOYO-karcher	32K	NO
Qwen3-EZO-8B-YOYO-karcher-128K	128K	NO

Warning

: Models with 128K context may have slight quality loss. In most cases, please use the 32K native context!

Parameter Settings:

Thinking Mode:

Note

Temperature=0.6, TopP=0.95, TopK=20,MinP=0.

Configuration:

The following YAML configuration was used to produce this model:

models:
  - model: deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
  - model: Qwen/Qwen3-8B
merge_method: karcher
parameters:
  max_iter: 1000
dtype: float32
out_dtype: bfloat16
tokenizer_source: Qwen/Qwen3-8B