Go to file

ModelHub XC bbcdb27b50 初始化项目，由ModelHub XC社区提供模型

Model: andrewlngdn/dsl-debug-7b-sft-step100
Source: Original Platform

2026-04-21 02:45:22 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

generation_config.json

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

merges.txt

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

model-00001-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

model-00002-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

model-00003-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

model-00004-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

model.safetensors.index.json

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

vocab.json

初始化项目，由ModelHub XC社区提供模型

2026-04-21 02:45:22 +08:00

README.md

license, base_model, tags, datasets, language, pipeline_tag

license

base_model

DSL Debug 7B — SFT Step 100

Qwen2.5-7B-Instruct fine-tuned on 1,593 debugging trajectories for the DSL Debug environment.

Blog post: Multi-Turn RL for Code Debugging Code + environment: github.com/AndrewLngdn/dsl-debug

Training

Method: Supervised fine-tuning (verl 0.7)
Data: 1,593 multi-turn trajectories with tool calls (run, inspect, read_docs, submit)
Base model: Qwen2.5-7B-Instruct
Epochs: 2 (step 100 checkpoint)
LR: 5e-6
Hardware: 2x A100-SXM4-80GB

Results (held-out test, one-shot)

Split	Base Model	This Model
Standard (481)	50.5%	56.3%
Nonlocal (200)	12.0%	40.0%
Intent-Mismatch (177)	0.6%	7.9%

Alignment Tax

Benchmark	Base	This Model
MMLU (5-shot)	74.6%	74.6%
GSM8K (8-shot)	84.9%	83.9%
HumanEval (0-shot)	65.9%	62.2%

Usage

This checkpoint is primarily used as the starting point for SFT then RL training (GRPO), which achieves the best results.

from huggingface_hub import snapshot_download
snapshot_download("andrewlngdn/dsl-debug-7b-sft-step100",
    local_dir="/workspace/models/sft_7b_step100")

Model	Repo
SFT then RL step 35 (best)	andrewlngdn/dsl-debug-7b-sft-rl
RL-only step 30	andrewlngdn/dsl-debug-7b-rl-only-step30

README.md

DSL Debug 7B — SFT Step 100

Training

Results (held-out test, one-shot)

Alignment Tax

Usage

Related Models