初始化项目，由ModelHub XC社区提供模型

Model: sequelbox/Qwen3-4B-PlumEsper Source: Original Platform
2026-06-03 10:58:13 +08:00
commit d08aef13db
10 changed files with 172 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,114 @@
 ---
 base_model:
 - ValiantLabs/Qwen3-4B-ShiningValiant3
 - ValiantLabs/Qwen3-4B-Esper3
 - Qwen/Qwen3-4B
 library_name: transformers
 tags:
 - mergekit
 - merge
 - qwen
 - qwen-3
 - qwen-3-4b
 - 4b
 - reasoning
 - code
 - code-reasoning
 - code-instruct
 - python
 - javascript
 - dev-ops
 - jenkins
 - terraform
 - scripting
 - powershell
 - azure
 - aws
 - gcp
 - cloud
 - science
 - science-reasoning
 - physics
 - biology
 - chemistry
 - earth-science
 - astronomy
 - machine-learning
 - artificial-intelligence
 - compsci
 - computer-science
 - information-theory
 - ML-Ops
 - math
 - cuda
 - deep-learning
 - transformers
 - agentic
 - LLM
 - neuromorphic
 - self-improvement
 - complex-systems
 - cognition
 - linguistics
 - philosophy
 - logic
 - epistemology
 - simulation
 - game-theory
 - knowledge-management
 - creativity
 - problem-solving
 - architect
 - engineer
 - developer
 - creative
 - analytical
 - expert
 - rationality
 - conversational
 - chat
 - instruct
 datasets:
 - sequelbox/Celestia3-DeepSeek-R1-0528
 - sequelbox/Mitakihara-DeepSeek-R1-0528
 - sequelbox/Titanium2.1-DeepSeek-R1
 - sequelbox/Tachibana2-DeepSeek-R1
 - sequelbox/Raiden-DeepSeek-R1
 ---
 # PlumEsper
 This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit), combining the specialty and general reasoning skills of Esper 3 4b and Shining Valiant 3 4b.
 ## Merge Details
 ### Merge Method
 This model was merged using the [DELLA](https://arxiv.org/abs/2406.11617) merge method using [Qwen/Qwen3-4B](https://huggingface.co/Qwen/Qwen3-4B) as a base.
 ### Models Merged
 The following models were included in the merge:
 * [ValiantLabs/Qwen3-4B-ShiningValiant3](https://huggingface.co/ValiantLabs/Qwen3-4B-ShiningValiant3)
 * [ValiantLabs/Qwen3-4B-Esper3](https://huggingface.co/ValiantLabs/Qwen3-4B-Esper3)
 ### Configuration
 The following YAML configuration was used to produce this model:
 ```yaml
 merge_method: della
 dtype: bfloat16
 parameters:
  normalize: true
 models:
  - model: ValiantLabs/Qwen3-4B-Esper3
    parameters:
      density: 0.5
      weight: 0.3
  - model: ValiantLabs/Qwen3-4B-ShiningValiant3
    parameters:
      density: 0.5
      weight: 0.3
 base_model: Qwen/Qwen3-4B
 ```
--- a/config.json
+++ b/config.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:938d961211217b1b58af4c9dc7c52a34f86c9ca8cace368475161cbd063a93d5
 size 1542
--- a/configuration.json
+++ b/configuration.json
@@ -0,0 +1 @@
 {"framework": "pytorch", "task": "text-generation", "allow_remote": true}
--- a/merges.txt
+++ b/merges.txt
--- a/model-00001-of-00002.safetensors
+++ b/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:08a072590cccd040fa5b6fe279d287646f82646d9c4acc9e85db6cb8b7217f90
 size 4990818752
--- a/model-00002-of-00002.safetensors
+++ b/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:282b2d7f9260521826bf1a3c5cea1e42746c37fc8d3409ec07be90ca91d80cda
 size 3054163248
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:720f387e8fcf08bd6295dc8d6cc0ff215e02785a3ce1268232404ef49cc26016
 size 31211
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:d5d09f07b48c3086c508b30d1c9114bd1189145b74e982a265350c923acd8101
 size 9732
		`@@ -0,0 +1 @@`
							`{"framework": "pytorch", "task": "text-generation", "allow_remote": true}`