初始化项目，由ModelHub XC社区提供模型

Model: QuantFactory/DeepCoder-1.5B-Preview-GGUF Source: Original Platform
2026-05-27 09:34:16 +08:00
commit 9fecd2356c
16 changed files with 233 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,49 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q4_K_M.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q4_1.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q4_0.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q8_0.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q6_K.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q5_K_M.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q5_K_S.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q5_0.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q5_1.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q2_K.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q3_K_L.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q3_K_M.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q3_K_S.gguf filter=lfs diff=lfs merge=lfs -text
 DeepCoder-1.5B-Preview.Q4_K_S.gguf filter=lfs diff=lfs merge=lfs -text
--- a/DeepCoder-1.5B-Preview.Q2_K.gguf
+++ b/DeepCoder-1.5B-Preview.Q2_K.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:7d0a15a7cd822726401fcd4e6bad20517acd8f7b20baf26f49bd6100a05897b2
 size 752880000
--- a/DeepCoder-1.5B-Preview.Q3_K_L.gguf
+++ b/DeepCoder-1.5B-Preview.Q3_K_L.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b723c51353f52576c2585397412442b9a7bc5961d0bc4f75cfe33c453c7e82f8
 size 980439936
--- a/DeepCoder-1.5B-Preview.Q3_K_M.gguf
+++ b/DeepCoder-1.5B-Preview.Q3_K_M.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:a1b6a7c7c349bbff9490087dda57587f825cbc4b8cad3b2fd4ddf93ccc2445f8
 size 924455808
--- a/DeepCoder-1.5B-Preview.Q3_K_S.gguf
+++ b/DeepCoder-1.5B-Preview.Q3_K_S.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:fa7e0e8236463966332dd4c2f8c55d7da424bfbbe9d008ab5c59a10deeaa0631
 size 861221760
--- a/DeepCoder-1.5B-Preview.Q4_0.gguf
+++ b/DeepCoder-1.5B-Preview.Q4_0.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:087209518cd4ce3426ff7afb2eb30a4130e77e2f948c3fd706334cc91964668c
 size 1066227072
--- a/DeepCoder-1.5B-Preview.Q4_1.gguf
+++ b/DeepCoder-1.5B-Preview.Q4_1.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:5ce01b6aedc9e74fd068efa7efef5cd3d378eb563b406b5cb747ba0ca5fe65cb
 size 1162700160
--- a/DeepCoder-1.5B-Preview.Q4_K_M.gguf
+++ b/DeepCoder-1.5B-Preview.Q4_K_M.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:827469772cdaf175f3edcf2bd1daca7deb4ab0d525d373f1ca6325123cbe2e77
 size 1117320576
--- a/DeepCoder-1.5B-Preview.Q4_K_S.gguf
+++ b/DeepCoder-1.5B-Preview.Q4_K_S.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:c4babda4305c95230bd9fef9c9a58e8d5afd58568e7a0473739fa7238128adb1
 size 1071584640
--- a/DeepCoder-1.5B-Preview.Q5_0.gguf
+++ b/DeepCoder-1.5B-Preview.Q5_0.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:3ad9c6672f218e8caf22e21c4ec268d27d1f94378754ed48e8b7c6f8eafedaf9
 size 1259173248
--- a/DeepCoder-1.5B-Preview.Q5_1.gguf
+++ b/DeepCoder-1.5B-Preview.Q5_1.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:63007b0be8574fa0fcc8787107f02ef028523b3ecf7da117c8148687f41e3215
 size 1355646336
--- a/DeepCoder-1.5B-Preview.Q5_K_M.gguf
+++ b/DeepCoder-1.5B-Preview.Q5_K_M.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:401c325e929875b64e1f785535e51722f512881eb98daa464a858383b80df4fc
 size 1285494144
--- a/DeepCoder-1.5B-Preview.Q5_K_S.gguf
+++ b/DeepCoder-1.5B-Preview.Q5_K_S.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:636ac8758d4c99a0f50ae6915de426dbd51bc54dc530c064fcd8dca2276325ef
 size 1259173248
--- a/DeepCoder-1.5B-Preview.Q6_K.gguf
+++ b/DeepCoder-1.5B-Preview.Q6_K.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:703879d1ae01f79912f5e624757d84e2b1cf079b47f5af0674ebfceac4e3b6e9
 size 1464178560
--- a/DeepCoder-1.5B-Preview.Q8_0.gguf
+++ b/DeepCoder-1.5B-Preview.Q8_0.gguf
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:7c3211e9f70edc7f3b2d5f6e1abc0db016608fff65489031561e216e49789f3a
 size 1894531968
--- a/README.md
+++ b/README.md
@@ -0,0 +1,142 @@
 ---
 pipeline_tag: text-generation
 base_model: DeepCoder-1.5B-Preview
 library_name: transformers
 ---
 [![QuantFactory Banner](https://lh7-rt.googleusercontent.com/docsz/AD_4nXeiuCm7c8lEwEJuRey9kiVZsRn2W-b4pWlu3-X534V3YmVuVc2ZL-NXg2RkzSOOS2JXGHutDuyyNAUtdJI65jGTo8jT9Y99tMi4H4MqL44Uc5QKG77B0d6-JfIkZHFaUA71-RtjyYZWVIhqsNZcx8-OMaA?key=xt3VSDoCbmTY7o-cwwOFwQ)](https://hf.co/QuantFactory)
 # QuantFactory/DeepCoder-1.5B-Preview-GGUF
 This is quantized version of [agentica-org/DeepCoder-1.5B-Preview](https://huggingface.co/agentica-org/DeepCoder-1.5B-Preview) created using llama.cpp
 # Original Model Card
 ---
 license: mit
 library_name: transformers
 datasets:
 - PrimeIntellect/verifiable-coding-problems
 - likaixin/TACO-verified
 - livecodebench/code_generation_lite
 language:
 - en
 base_model:
 - deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
 pipeline_tag: text-generation
 ---
 [![QuantFactory Banner](https://lh7-rt.googleusercontent.com/docsz/AD_4nXeiuCm7c8lEwEJuRey9kiVZsRn2W-b4pWlu3-X534V3YmVuVc2ZL-NXg2RkzSOOS2JXGHutDuyyNAUtdJI65jGTo8jT9Y99tMi4H4MqL44Uc5QKG77B0d6-JfIkZHFaUA71-RtjyYZWVIhqsNZcx8-OMaA?key=xt3VSDoCbmTY7o-cwwOFwQ)](https://hf.co/QuantFactory)
 # QuantFactory/DeepCoder-1.5B-Preview-GGUF
 This is quantized version of [agentica-org/DeepCoder-1.5B-Preview](https://huggingface.co/agentica-org/DeepCoder-1.5B-Preview) created using llama.cpp
 # Original Model Card
 <div align="center">
 <span style="font-family: default; font-size: 1.5em;">DeepCoder-1.5B-Preview</span>
 <div>
 🚀 Democratizing Reinforcement Learning for LLMs (RLLM) 🌟
 </div>
 </div>
 <br>
 <div align="center" style="line-height: 1;">
  <a href="https://github.com/agentica-project/rllm" style="margin: 2px;">
    <img alt="Code" src="https://img.shields.io/badge/RLLM-000000?style=for-the-badge&logo=github&logoColor=000&logoColor=white" style="display: inline-block; vertical-align: middle;"/>
  </a>
  <a href="https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51" target="_blank" style="margin: 2px;">
    <img alt="Blog" src="https://img.shields.io/badge/Notion-%23000000.svg?style=for-the-badge&logo=notion&logoColor=white" style="display: inline-block; vertical-align: middle;"/>
  </a>
  <a href="https://x.com/Agentica_" style="margin: 2px;">
    <img alt="X.ai" src="https://img.shields.io/badge/Agentica-white?style=for-the-badge&logo=X&logoColor=000&color=000&labelColor=white" style="display: inline-block; vertical-align: middle;"/>
  </a>
  <a href="https://huggingface.co/agentica-org" style="margin: 2px;">
    <img alt="Hugging Face" src="https://img.shields.io/badge/Agentica-fcd022?style=for-the-badge&logo=huggingface&logoColor=000&labelColor" style="display: inline-block; vertical-align: middle;"/>
  </a>
 </div>
 </div>
 </div>
 ## DeepCoder Overview
 DeepCoder-1.5B-Preview is a code reasoning LLM fine-tuned from DeepSeek-R1-Distilled-Qwen-1.5B using distributed reinforcement learning (RL) to scale up to long context lengths.
 ## Data
 Our training dataset consists of approximately 24K unique problem-tests pairs compiled from:
 - Taco-Verified
 - PrimeIntellect SYNTHETIC-1
 - LiveCodeBench v5 (5/1/23-7/31/24)
 ## Training Recipe
 Our training recipe relies on an improved version of GRPO (GRPO+) and iterative context lengthening, introduced in DeepScaleR.
 ### GRPO+
 We enhance the original GRPO algorithm with insights from DAPO to enable more stable training:
 - **Offline Difficulty Filtering:** DAPO employs online dynamic sampling, discarding both entirely correct and entirely incorrect samples on the fly. While this helps maintain a more stable effective batch size, it introduces significant runtime overhead due to rejection sampling. Instead, we perform offline difficulty filtering on a subset of coding problems to ensure the training dataset remains within a suitable difficulty range.
 - **No Entropy Loss:** We observed that including an entropy loss term often led to instability, with entropy growing exponentially and ultimately collapsing training. To mitigate this, we eliminate the entropy loss entirely.
 - **No KL Loss:** Eliminating KL loss prevents the LLM from staying within trust region of the original SFT model. This removal also obviates the need to compute log probabilities for the reference policy, thereby accelerating training.
 - **Overlong Filtering** **(from DAPO):** To preserve long-context reasoning, we mask the loss for truncated sequences. This technique enables DeepCoder to generalize to 64K-context inference despite being trained with a 32K context.
 - **Clip High (from DAPO):** By increasing the upper bound in GRPO/PPO’s surrogate loss, we encourage more exploration and more stable entropy.
 ### Iterative Context Lengthening
 Our original `Deepscaler-1.5B-Preview` scaled long context training from 8K→16K→24K, achieving 33→38→43% on AIME respectively. Similarly, `Deepcoder-14B-Preview` is trained on 16K→32K, achieving 54→58% on LiveCodeBench (v5). `DeepCoder-14B-Preview` successfully generalizes to longer contexts when evaluated at 64K context, reaching 60.6%. 
 DeepCoder generalizes better to long contexts than the base distilled model, due to DAPO's overlong filtering. However, it's longer responses are often truncated when the max length is capped at 16K, which can lower its scores.
 | **Model** | **16K** | **32K** | **64K** |
 | --- | --- | --- | --- |
 | **DeepCoder-14B-Preview** | 45.6 | 57.9 | 60.6 |
 | **DeepSeek-R1-Distill-Qwen-14B** | 50.2 | 53.0 | 53.0 |
 A more detailed description of the training recipe can be found in our [blog post](https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51).
 ## Evaluation
 We evaluate `Deepcoder-1.5B-Preview` on various coding benchmarks, including LiveCodeBench (LCBv5), Codeforces, and HumanEval+. 
 | **Model** | LCB (v5)(8/1/24-2/1/25) | Codeforces Rating | Codeforces Percentile | HumanEval+ |
 | --- | --- | --- | --- | --- |
 | **DeepCoder-1.5B-Preview** | **25.1** | **963** | **28.5** | **73.0** |
 | **Deepseek-R1-Distill-Qwen-1.5B** | 16.9 | 615 | 1.9 | 58.3 |
 ## Serving DeepCoder
 Our model can be served using popular high-performance inference systems:
 - vLLM
 - Hugging Face Text Generation Inference (TGI)
 - SGLang
 - TensorRT-LLM
 All these systems support the OpenAI Chat Completions API format.
 ## License
 This project is released under the MIT License, reflecting our commitment to open and accessible AI development.
 We believe in democratizing AI technology by making our work freely available for anyone to use, modify, and build upon.
 This permissive license ensures that researchers, developers, and enthusiasts worldwide can leverage and extend our work without restrictions, fostering innovation and collaboration in the AI community.
 ## Acknowledgement
 - Our training experiments are powered by our heavily modified fork of [Verl](https://github.com/agentica-project/verl), an open-source post-training library.
 - Notably, we train 1.5B with [verl pipeline](https://github.com/agentica-project/verl-pipeline), an extension of the original verl.
 - Our model is trained on top of [`DeepSeek-R1-Distill-Qwen-1.5B`](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B).
 - Our work is done as part of  [Berkeley Sky Computing Lab](https://skycomputing.berkeley.edu/) and [Berkeley AI Research](https://bair.berkeley.edu/).
 ## Citation
 ```bibtex
@misc{deepcoder2025,
  title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion Blog},
  year={2025}
 }
 ```