初始化项目，由ModelHub XC社区提供模型

Model: AIDC-AI/Marco-DeepResearch-8B-i1-GGUF Source: Original Platform
2026-06-11 18:02:13 +08:00
commit 0111c888a9
27 changed files with 544 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,84 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*.tfevents* filter=lfs diff=lfs merge=lfs -text
+*.db* filter=lfs diff=lfs merge=lfs -text
+*.ark* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*data* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.meta filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.index filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+ 
+*.ggml filter=lfs diff=lfs merge=lfs -text
+*.llamafile* filter=lfs diff=lfs merge=lfs -text
+*.pt2 filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-IQ1_M.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-IQ2_M.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-IQ1_S.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-IQ2_XS.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-IQ2_S.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-IQ3_M.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-IQ2_XXS.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-IQ3_XS.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-IQ3_S.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-IQ4_NL.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-IQ3_XXS.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-IQ4_XS.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-Q2_K.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-Q3_K_L.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-Q2_K_S.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-Q3_K_S.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-Q3_K_M.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-Q4_1.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-Q4_0.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-Q4_K_S.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-Q4_K_M.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-Q5_K_S.gguf filter=lfs diff=lfs merge=lfs -text
+Marco-DeepResearch-8B-i1-Q5_K_M.gguf filter=lfs diff=lfs merge=lfs -text
+
+Marco-DeepResearch-8B-i1-Q6_K.gguf filter=lfs diff=lfs merge=lfs -text
--- a/Marco-DeepResearch-8B-i1-IQ1_M.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ1_M.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:93012905a87efb21386451a35109f4fabc8b91a1ed6a0d4539379dcb5a7841ef
+size 2256148160
--- a/Marco-DeepResearch-8B-i1-IQ1_S.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ1_S.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea85e59e2b504c6051dad40d72510908566cf6b6d4fd6295486f66ea5781cd57
+size 2115770048
--- a/Marco-DeepResearch-8B-i1-IQ2_M.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ2_M.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b759222ba7c119a32c8d267d0c6710b8e8a184b22817f70246262a2176867e34
+size 3051914944
--- a/Marco-DeepResearch-8B-i1-IQ2_S.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ2_S.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d4a072375992d3bd57e999b92b489f9099f3cd709f65b480df95cca0a75a9007
+size 2864744128
--- a/Marco-DeepResearch-8B-i1-IQ2_XS.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ2_XS.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cb118bfdf9ba81d0e117c6eadd0e4448a84a35cbdf9cfd544ca1be26110f41a9
+size 2696156864
--- a/Marco-DeepResearch-8B-i1-IQ2_XXS.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ2_XXS.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fb4462c4880b6dbb197882310fd12f5628a2cf39902054ffc743509c4ae77c54
+size 2490111680
--- a/Marco-DeepResearch-8B-i1-IQ3_M.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ3_M.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8fa6d6dc992b5b6fab7a0f5fbac0709543992c50f3a9d18960d3d81f1fd3067
+size 3896620736
--- a/Marco-DeepResearch-8B-i1-IQ3_S.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ3_S.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:416ad849a2884bd01d054b20193af4daf052171b3eae023a66ffaf5947f61f3a
+size 3789665984
--- a/Marco-DeepResearch-8B-i1-IQ3_XS.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ3_XS.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5b9aac9fba35323be492b5b1ad771f1aaff85b4461664787086a9b995316cbf0
+size 3626874560
--- a/Marco-DeepResearch-8B-i1-IQ3_XXS.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ3_XXS.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0a16fee64a6e52b3cb4b69395a2bcf928f9674e73f10bb53e7e7b346711289c
+size 3369633472
--- a/Marco-DeepResearch-8B-i1-IQ4_NL.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ4_NL.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:059711ee86122724222dcbacb972159a836ae4e5adf363a927e6e0ff5d9b6ece
+size 4793624256
--- a/Marco-DeepResearch-8B-i1-IQ4_XS.gguf
+++ b/Marco-DeepResearch-8B-i1-IQ4_XS.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:164afba5607b90800da45dd5ee5db21c2e11fe6b269a30426f588907ac628290
+size 4561839808
--- a/Marco-DeepResearch-8B-i1-Q2_K.gguf
+++ b/Marco-DeepResearch-8B-i1-Q2_K.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:948edabb2e39c4a05d52584679a605cd86f93c17753e870a9654ad8a3560c936
+size 3281733312
--- a/Marco-DeepResearch-8B-i1-Q2_K_S.gguf
+++ b/Marco-DeepResearch-8B-i1-Q2_K_S.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:268300f2360fe7b62b5b239a3ad4f387e8dbf8ca3fe3d1603b4621f28d690e16
+size 3083552448
--- a/Marco-DeepResearch-8B-i1-Q3_K_L.gguf
+++ b/Marco-DeepResearch-8B-i1-Q3_K_L.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a3e11d48a9b090433e4590ecd3a5b9fd857df49c3f6c1d688a4e206788f48f2
+size 4431394496
--- a/Marco-DeepResearch-8B-i1-Q3_K_M.gguf
+++ b/Marco-DeepResearch-8B-i1-Q3_K_M.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:34895488be27b1362866a70335deeaef467ca1dd9993c4fec6e2b9f13abb01c9
+size 4124161728
--- a/Marco-DeepResearch-8B-i1-Q3_K_S.gguf
+++ b/Marco-DeepResearch-8B-i1-Q3_K_S.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9fc0f0c91d1d2541589b8ad08684f2273de89ef6764671737868f02a1b7aa1f1
+size 3769611968
--- a/Marco-DeepResearch-8B-i1-Q4_0.gguf
+++ b/Marco-DeepResearch-8B-i1-Q4_0.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dedfbd4682ee9ac59267ffc5365f75919b4db2188b30d0adb9bef8ad15217b43
+size 4787332800
--- a/Marco-DeepResearch-8B-i1-Q4_1.gguf
+++ b/Marco-DeepResearch-8B-i1-Q4_1.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c96445892fa3f4ecc3bb639fde9b86836172cfb65cbaf903043fa7288d1b06b0
+size 5247755968
--- a/Marco-DeepResearch-8B-i1-Q4_K_M.gguf
+++ b/Marco-DeepResearch-8B-i1-Q4_K_M.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:49cc9062a59172969f2a28e2d9df5ff25d61e2456307b12b7725050b8b184405
+size 5027784384
--- a/Marco-DeepResearch-8B-i1-Q4_K_S.gguf
+++ b/Marco-DeepResearch-8B-i1-Q4_K_S.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9fabcadedabf31eb619a862f704a0cf995f6e18601cdffec2916ac04b332823
+size 4802012864
--- a/Marco-DeepResearch-8B-i1-Q5_K_M.gguf
+++ b/Marco-DeepResearch-8B-i1-Q5_K_M.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0260c682dfa5d839d2ff7f4d498acc7087223ddd3a4081fb0bab7fc3fa98eb7e
+size 5851113152
--- a/Marco-DeepResearch-8B-i1-Q5_K_S.gguf
+++ b/Marco-DeepResearch-8B-i1-Q5_K_S.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:85bc08255120a6e097c1bb2d1fe8fede6fd4db25ee911f3a4537a24fca9553c8
+size 5720762048
--- a/Marco-DeepResearch-8B-i1-Q6_K.gguf
+++ b/Marco-DeepResearch-8B-i1-Q6_K.gguf
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2bb7fefac8f601c77844a9df8b66d9f609e3391ff4a19eb03a86094b288c632d
+size 6725899968
--- a/README.md
+++ b/README.md
@@ -0,0 +1,387 @@
+---
+license: apache-2.0
+language:
+  - en
+  - zh
+base_model: AIDC-AI/Marco-DeepResearch-8B
+tags:
+  - gguf
+  - quantized
+  - imatrix
+  - importance-matrix
+  - deep-research
+  - agent
+  - information-seeking
+  - web-search
+  - verification
+  - react
+  - llama-cpp
+  - qwen3
+pipeline_tag: text-generation
+model-index:
+  - name: Marco-DeepResearch-8B-imatrix-GGUF
+    results:
+      - task:
+          type: question-answering
+          name: BrowseComp
+        dataset:
+          name: BrowseComp
+          type: browsecomp
+        metrics:
+          - type: accuracy
+            value: 31.4
+            name: Accuracy
+      - task:
+          type: question-answering
+          name: BrowseComp-ZH
+        dataset:
+          name: BrowseComp-ZH
+          type: browsecomp-zh
+        metrics:
+          - type: accuracy
+            value: 47.1
+            name: Accuracy
+      - task:
+          type: question-answering
+          name: GAIA (text-only)
+        dataset:
+          name: GAIA
+          type: gaia
+        metrics:
+          - type: accuracy
+            value: 69.9
+            name: Accuracy
+      - task:
+          type: question-answering
+          name: xBench-DeepSearch-2505
+        dataset:
+          name: xBench-DeepSearch-2505
+          type: xbench-deepsearch
+        metrics:
+          - type: accuracy
+            value: 82.0
+            name: Accuracy
+      - task:
+          type: question-answering
+          name: WebWalkerQA
+        dataset:
+          name: WebWalkerQA
+          type: webwalkerqa
+        metrics:
+          - type: accuracy
+            value: 69.6
+            name: Accuracy
+---
+
+# Marco-DeepResearch-8B-imatrix-GGUF
+
+Importance-matrix (imatrix) GGUF quantized versions of [AIDC-AI/Marco-DeepResearch-8B](https://huggingface.co/AIDC-AI/Marco-DeepResearch-8B) for use with [llama.cpp](https://github.com/ggerganov/llama.cpp) and compatible inference engines.
+
+For standard quantizations without importance matrix, see [Marco-DeepResearch-8B-GGUF](https://huggingface.co/AIDC-AI/Marco-DeepResearch-8B-GGUF).
+
+## About the Model
+
+**Marco DeepResearch** is an efficient 8B-scale deep research agent developed by **Alibaba International Digital Commerce (AIDC-AI)**, based on [Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B). It autonomously conducts open-ended investigations by integrating complex information retrieval with multi-step reasoning across diverse web sources. The model uses tools (`search`, `visit`) for iterative web research with built-in verification.
+
+Under a maximum budget of 600 tool calls, Marco DeepResearch significantly outperforms other 8B-scale agents and surpasses or approaches several 30B-scale agents on challenging benchmarks.
+
+## What is Importance Matrix (imatrix) Quantization?
+
+Standard quantization treats all model weights equally when reducing precision. Importance matrix quantization improves on this by first profiling the model with calibration data to determine which weights matter most for output quality. During quantization, more important weights are preserved with higher precision while less critical weights are compressed more aggressively.
+
+The result is **significantly better quality at low bit rates** (Q3, Q2, IQ3, IQ2, IQ1) compared to standard quantization. At higher bit rates (Q5, Q6), the difference is minimal. If you need to run at 3 bits or below, imatrix quants are strongly recommended.
+
+**Calibration data:** WikiText-2
+
+## Included Files
+
+The `imatrix.dat` file (5.1 MB) is included in this repository. You can use it with llama.cpp's `llama-quantize` to create your own custom quantizations from a full-precision GGUF.
+
+## Available Quantizations
+
+| Filename | Quant Type | Size | Description |
+|---|---|---|---|
+| Marco-DeepResearch-8B-i1-Q6_K.gguf | Q6_K | 6.3 GB | Very high quality. Near-lossless. |
+| Marco-DeepResearch-8B-i1-Q5_K_M.gguf | Q5_K_M | 5.5 GB | High quality. **Recommended for most users.** |
+| Marco-DeepResearch-8B-i1-Q5_K_S.gguf | Q5_K_S | 5.4 GB | High quality. Slightly smaller than Q5_K_M. |
+| Marco-DeepResearch-8B-i1-Q4_1.gguf | Q4_1 | 4.9 GB | Good quality. Legacy 4-bit format. |
+| Marco-DeepResearch-8B-i1-Q4_K_M.gguf | Q4_K_M | 4.7 GB | Good quality. **Best 4-bit option.** |
+| Marco-DeepResearch-8B-i1-Q4_K_S.gguf | Q4_K_S | 4.5 GB | Good quality. Smaller than Q4_K_M. |
+| Marco-DeepResearch-8B-i1-IQ4_NL.gguf | IQ4_NL | 4.5 GB | Good quality. Non-linear 4-bit quant. |
+| Marco-DeepResearch-8B-i1-Q4_0.gguf | Q4_0 | 4.5 GB | Decent quality. Legacy 4-bit format. |
+| Marco-DeepResearch-8B-i1-IQ4_XS.gguf | IQ4_XS | 4.3 GB | Decent quality. Smallest 4-bit variant. |
+| Marco-DeepResearch-8B-i1-Q3_K_L.gguf | Q3_K_L | 4.2 GB | Moderate quality. imatrix helps noticeably here. |
+| Marco-DeepResearch-8B-i1-Q3_K_M.gguf | Q3_K_M | 3.9 GB | Moderate quality. Good for memory-constrained setups. |
+| Marco-DeepResearch-8B-i1-IQ3_M.gguf | IQ3_M | 3.7 GB | Moderate quality. Better than Q3_K_S at similar size. |
+| Marco-DeepResearch-8B-i1-IQ3_S.gguf | IQ3_S | 3.6 GB | Lower quality. imatrix essential at this level. |
+| Marco-DeepResearch-8B-i1-Q3_K_S.gguf | Q3_K_S | 3.6 GB | Lower quality. imatrix provides clear benefit. |
+| Marco-DeepResearch-8B-i1-IQ3_XS.gguf | IQ3_XS | 3.4 GB | Lower quality. Aggressive compression. |
+| Marco-DeepResearch-8B-i1-IQ3_XXS.gguf | IQ3_XXS | 3.2 GB | Low quality. For extreme memory constraints. |
+| Marco-DeepResearch-8B-i1-Q2_K.gguf | Q2_K | 3.1 GB | Low quality. imatrix significantly helps. |
+| Marco-DeepResearch-8B-i1-Q2_K_S.gguf | Q2_K_S | 2.9 GB | Very low quality. Experimental. |
+| Marco-DeepResearch-8B-i1-IQ2_M.gguf | IQ2_M | 2.9 GB | Very low quality. Best option at ~2-bit. |
+| Marco-DeepResearch-8B-i1-IQ2_S.gguf | IQ2_S | 2.7 GB | Very low quality. Heavy degradation expected. |
+| Marco-DeepResearch-8B-i1-IQ2_XS.gguf | IQ2_XS | 2.6 GB | Extremely low quality. Research/testing only. |
+| Marco-DeepResearch-8B-i1-IQ2_XXS.gguf | IQ2_XXS | 2.4 GB | Extremely low quality. Research/testing only. |
+| Marco-DeepResearch-8B-i1-IQ1_M.gguf | IQ1_M | 2.2 GB | Minimal quality. Extreme compression research. |
+| Marco-DeepResearch-8B-i1-IQ1_S.gguf | IQ1_S | 2.0 GB | Minimal quality. Maximum compression. |
+
+### Choosing a Quantization
+
+- **Best quality:** Q6_K or Q5_K_M — recommended if you have sufficient RAM/VRAM.
+- **Best balance:** Q4_K_M — recommended for most users on consumer hardware.
+- **Memory constrained:** Q3_K_M or IQ3_M — imatrix provides clear quality gains at this level.
+- **Extreme constraints:** IQ2_M or IQ2_S — only viable with imatrix; expect significant quality loss.
+- **Ultra-low (research):** IQ1_M / IQ1_S — extreme compression for experimentation.
+
+### Creating Custom Quantizations
+
+You can use the included `imatrix.dat` to create your own quants:
+
+```bash
+./llama-quantize --imatrix imatrix.dat \
+  Marco-DeepResearch-8B-f16.gguf \
+  Marco-DeepResearch-8B-i1-<QUANT_TYPE>.gguf \
+  <QUANT_TYPE>
+```
+
+## Usage
+
+### llama.cpp
+
+**CPU inference:**
+
+```bash
+./llama-cli -m Marco-DeepResearch-8B-i1-Q5_K_M.gguf \
+  -p "<your prompt>" \
+  -n 4096 \
+  --temp 0.7 --top-p 0.95 \
+  -t $(nproc)
+```
+
+**GPU-accelerated inference:**
+
+```bash
+./llama-cli -m Marco-DeepResearch-8B-i1-Q5_K_M.gguf \
+  -p "<your prompt>" \
+  -n 4096 \
+  --temp 0.7 --top-p 0.95 \
+  -ngl 99
+```
+
+**Server mode (OpenAI-compatible API):**
+
+```bash
+./llama-server -m Marco-DeepResearch-8B-i1-Q5_K_M.gguf \
+  --port 8080 \
+  -ngl 99 \
+  -c 32768
+```
+
+### Ollama
+
+Create a `Modelfile`:
+
+```
+FROM ./Marco-DeepResearch-8B-i1-Q5_K_M.gguf
+
+PARAMETER temperature 0.7
+PARAMETER top_p 0.95
+PARAMETER num_ctx 32768
+```
+
+Then:
+
+```bash
+ollama create marco-deepresearch -f Modelfile
+ollama run marco-deepresearch
+```
+
+### Python (llama-cpp-python)
+
+```python
+from llama_cpp import Llama
+
+llm = Llama(
+    model_path="Marco-DeepResearch-8B-i1-Q5_K_M.gguf",
+    n_ctx=32768,
+    n_gpu_layers=-1,  # Use all GPU layers; set to 0 for CPU-only
+)
+
+output = llm(
+    "<your prompt>",
+    max_tokens=4096,
+    temperature=0.7,
+    top_p=0.95,
+)
+
+print(output["choices"][0]["text"])
+```
+
+### LM Studio
+
+1. Download your desired quantization file (e.g., `Marco-DeepResearch-8B-i1-Q4_K_M.gguf`).
+2. Open LM Studio and import the model file.
+3. Configure generation settings: Temperature 0.7, Top-P 0.95.
+4. Set context length to 32768 (or higher if your hardware allows).
+5. Start chatting or use the local server API.
+
+## Prompt Format
+
+This model uses a structured prompt format with `<think>`, `<tool_call>`, and `<answer>` tags.
+
+### System Prompt Template
+
+```
+You are an expert web researcher. Your task is to find accurate, complete answers through iterative search, extraction, and verification.
+
+## Core Principles
+
+1) Strategic Planning
+   - Decompose complex questions into targeted sub-tasks
+   - Choose the right tool for each step
+   - Refine your approach based on what you learn
+
+2) Precise Execution
+   - Define clear objectives before using any tool
+   - Provide sufficient detail for accurate results
+   - Avoid vague or overly broad requests
+
+3) Rigorous Verification
+   - Cross-check important facts across multiple sources
+   - Resolve conflicts by gathering additional evidence
+   - Only conclude when evidence is sufficient and consistent
+
+## Output Format
+
+In each turn, you can either call a tool or provide the final answer.
+
+**Call a tool:**
+<think>your reasoning process</think>
+<tool_call>
+{"name": "tool_name", "arguments": {"param1": "value1", "param2": "value2"}}
+</tool_call>
+
+**Provide final answer (when you have gathered enough information):**
+<think>your reasoning and analysis</think>
+<answer>the direct answer to the question</answer>
+
+Note: All reasoning should be in <think>, <answer> should contain only the final answer.
+
+Current date: {current_date}
+
+# Tools
+
+You may call one or more functions to assist with the user query.
+
+You are provided with function signatures within <tools></tools> XML tags:
+<tools>
+{tools_json}
+</tools>
+
+For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:
+<tool_call>
+{"name": <function-name>, "arguments": <args-json-object>}
+</tool_call>
+```
+
+### Tool Definitions
+
+The model expects tools in OpenAI function calling format:
+
+```json
+[
+  {
+    "type": "function",
+    "function": {
+      "name": "search",
+      "description": "Search the web via Google to find relevant information and URLs.",
+      "parameters": {
+        "type": "object",
+        "properties": {
+          "querys": {
+            "type": "array",
+            "items": {"type": "string"},
+            "description": "Search queries for finding relevant information."
+          }
+        },
+        "required": ["querys"]
+      }
+    }
+  },
+  {
+    "type": "function",
+    "function": {
+      "name": "visit",
+      "description": "Read webpage content to extract specific information, verify claims, or understand context.",
+      "parameters": {
+        "type": "object",
+        "properties": {
+          "urls": {
+            "type": "array",
+            "items": {"type": "string"},
+            "description": "URL(s) to visit."
+          },
+          "goal": {
+            "type": "string",
+            "description": "The specific information to retrieve. Be precise, not vague."
+          }
+        },
+        "required": ["urls", "goal"]
+      }
+    }
+  }
+]
+```
+
+### Model Output Example
+
+**Tool call turn:**
+```xml
+<think>
+I need to search for information about X to answer the user's question.
+</think>
+<tool_call>
+{"name": "search", "arguments": {"querys": ["search query here"]}}
+</tool_call>
+```
+
+**Final answer turn:**
+```xml
+<think>
+Based on the evidence gathered from multiple sources, I can now conclude that...
+</think>
+<answer>
+The direct answer to the question.
+</answer>
+```
+
+## Benchmark Results
+
+Evaluated on a suite of deep search benchmarks under a maximum budget of **600 tool calls** (results from the original unquantized model).
+
+<p align="center">
+  <img src="https://raw.githubusercontent.com/AIDC-AI/Marco-DeepResearch/refs/heads/main/Marco-DeepResearch-Family/Marco-Agent-DeepResearch/assets/benchmark_chart_v2.png" alt="Marco DeepResearch benchmark performance across BrowseComp, BrowseComp-ZH, xBench-DeepSearch-2510, and GAIA (text-only)" width="100%" />
+</p>
+
+## Original Model
+
+This is a quantized version of [AIDC-AI/Marco-DeepResearch-8B](https://huggingface.co/AIDC-AI/Marco-DeepResearch-8B). Please refer to the original model card for full details on training methodology, intended use, and limitations.
+
+- **Paper:** [Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design](https://arxiv.org/abs/2603.28376)
+- **Code:** [GitHub](https://github.com/AIDC-AI/Marco-DeepResearch/tree/main/Marco-DeepResearch-Family/Marco-Agent-DeepResearch)
+
+## Citation
+
+```bibtex
+@article{zhu2026marco,
+  title={Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design},
+  author={Bin Zhu and Qianghuai Jia and Tian Lan and Junyang Ren and Feng Gu and Feihu Jiang and Longyue Wang and Zhao Xu and Weihua Luo},
+  journal={arXiv preprint arXiv:2603.28376},
+  year={2026}
+}
+```
+
+## License
+
+This model is released under the [Apache 2.0 License](https://www.apache.org/licenses/LICENSE-2.0).
--- a/configuration.json
+++ b/configuration.json
@@ -0,0 +1 @@
+{"framework": "pytorch", "task": "others", "allow_remote": true}
				`@@ -0,0 +1 @@`
				`{"framework": "pytorch", "task": "others", "allow_remote": true}`