From 7ea33623c3e17a72b172b86e9cde5d36ce294647 Mon Sep 17 00:00:00 2001
From: ModelHub XC <noreply@modelhub.org.cn>
Date: Tue, 26 May 2026 09:02:17 +0800
Subject: [PATCH] =?UTF-8?q?=E5=88=9D=E5=A7=8B=E5=8C=96=E9=A1=B9=E7=9B=AE?=
 =?UTF-8?q?=EF=BC=8C=E7=94=B1ModelHub=20XC=E7=A4=BE=E5=8C=BA=E6=8F=90?=
 =?UTF-8?q?=E4=BE=9B=E6=A8=A1=E5=9E=8B?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Model: W-61/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753
Source: Original Platform
---
 .gitattributes                   |    36 +
 README.md                        |    85 +
 all_results.json                 |    27 +
 config.json                      |    29 +
 eval_results.json                |    21 +
 generation_config.json           |     9 +
 model-00001-of-00007.safetensors |     3 +
 model-00002-of-00007.safetensors |     3 +
 model-00003-of-00007.safetensors |     3 +
 model-00004-of-00007.safetensors |     3 +
 model-00005-of-00007.safetensors |     3 +
 model-00006-of-00007.safetensors |     3 +
 model-00007-of-00007.safetensors |     3 +
 model.safetensors.index.json     |   298 +
 special_tokens_map.json          |    23 +
 tokenizer.json                   |     3 +
 tokenizer_config.json            |  2064 +++++
 train.log                        |  1793 ++++
 train_results.json               |     9 +
 trainer_state.json               | 13789 +++++++++++++++++++++++++++++
 20 files changed, 18207 insertions(+)
 create mode 100644 .gitattributes
 create mode 100644 README.md
 create mode 100644 all_results.json
 create mode 100644 config.json
 create mode 100644 eval_results.json
 create mode 100644 generation_config.json
 create mode 100644 model-00001-of-00007.safetensors
 create mode 100644 model-00002-of-00007.safetensors
 create mode 100644 model-00003-of-00007.safetensors
 create mode 100644 model-00004-of-00007.safetensors
 create mode 100644 model-00005-of-00007.safetensors
 create mode 100644 model-00006-of-00007.safetensors
 create mode 100644 model-00007-of-00007.safetensors
 create mode 100644 model.safetensors.index.json
 create mode 100644 special_tokens_map.json
 create mode 100644 tokenizer.json
 create mode 100644 tokenizer_config.json
 create mode 100644 train.log
 create mode 100644 train_results.json
 create mode 100644 trainer_state.json

diff --git a/.gitattributes b/.gitattributes
new file mode 100644
index 0000000..52373fe
--- /dev/null
+++ b/.gitattributes
@@ -0,0 +1,36 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
diff --git a/README.md b/README.md
new file mode 100644
index 0000000..e8ef077
--- /dev/null
+++ b/README.md
@@ -0,0 +1,85 @@
+---
+library_name: transformers
+base_model: llama-3-8b-base-sft-hh-helpful-4xh200-batch-64
+tags:
+- alignment-handbook
+- beta-dpo
+- generated_from_trainer
+datasets:
+- Anthropic/hh-rlhf
+model-index:
+- name: llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753
+  results: []
+---
+
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+
+# llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753
+
+This model is a fine-tuned version of [llama-3-8b-base-sft-hh-helpful-4xh200-batch-64](https://huggingface.co/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64) on the Anthropic/hh-rlhf dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.7101
+- Beta Dpo/beta: 0.0691
+- Beta Dpo/loss Margin Mean: 86.8606
+- Beta Dpo/beta Margin Mean: 10.0274
+- Beta Dpo/beta Margin Std: 12.8117
+- Beta Dpo/beta Margin Grad Mean: -0.4550
+- Beta Dpo/beta Margin Grad Std: 0.0744
+- Beta Dpo/gap Mean: 130.0152
+- Beta Dpo/gap Std: 165.0541
+- Beta Dpo/beta Used Raw: -2.4893
+- Beta Dpo/beta Used: 0.0691
+- Beta Dpo/mask Keep Frac: 1.0
+- Logits/chosen: -0.2789
+- Logits/rejected: -0.2575
+
+## Model description
+
+More information needed
+
+## Intended uses & limitations
+
+More information needed
+
+## Training and evaluation data
+
+More information needed
+
+## Training procedure
+
+### Training hyperparameters
+
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+
+### Training results
+
+| Training Loss | Epoch  | Step | Validation Loss | Beta Dpo/beta | Beta Dpo/loss Margin Mean | Beta Dpo/beta Margin Mean | Beta Dpo/beta Margin Std | Beta Dpo/beta Margin Grad Mean | Beta Dpo/beta Margin Grad Std | Beta Dpo/gap Mean | Beta Dpo/gap Std | Beta Dpo/beta Used Raw | Beta Dpo/beta Used | Beta Dpo/mask Keep Frac | Logits/chosen | Logits/rejected |
+|:-------------:|:------:|:----:|:---------------:|:-------------:|:-------------------------:|:-------------------------:|:------------------------:|:------------------------------:|:-----------------------------:|:-----------------:|:----------------:|:----------------------:|:------------------:|:-----------------------:|:-------------:|:---------------:|
+| 0.9552        | 0.1468 | 100  | 0.6786          | 0.0046        | 9.8098                    | 0.0725                    | 0.1096                   | -0.4895                        | 0.0167                        | 17.6954           | 22.1843          | -0.3731                | 0.0046             | 1.0                     | -0.6698       | -0.6418         |
+| 0.8706        | 0.2937 | 200  | 0.6904          | 0.0046        | 27.7458                   | 0.2199                    | 0.3260                   | -0.4903                        | 0.0228                        | 50.6913           | 68.2433          | -1.2767                | 0.0046             | 1.0                     | -0.6064       | -0.5873         |
+| 2.8698        | 0.4405 | 300  | 0.8542          | 0.0215        | 46.8593                   | 1.7761                    | 2.5216                   | -0.4710                        | 0.0500                        | 79.1242           | 110.1004         | -1.8359                | 0.0215             | 1.0                     | -0.4178       | -0.4010         |
+| 18.5063       | 0.5874 | 400  | 0.7607          | 0.0093        | 66.8920                   | 1.0762                    | 1.4305                   | -0.4753                        | 0.0447                        | 116.2162          | 143.8824         | -2.8595                | 0.0093             | 1.0                     | -0.4157       | -0.3938         |
+| 1.1587        | 0.7342 | 500  | 1.3024          | 0.0541        | 78.1021                   | 7.2488                    | 9.0766                   | -0.4557                        | 0.0679                        | 118.3478          | 142.3098         | -2.3147                | 0.0541             | 1.0                     | -0.3590       | -0.3353         |
+| 4.9835        | 0.8811 | 600  | 1.7101          | 0.0691        | 86.8606                   | 10.0274                   | 12.8117                  | -0.4550                        | 0.0744                        | 130.0152          | 165.0541         | -2.4893                | 0.0691             | 1.0                     | -0.2789       | -0.2575         |
+
+
+### Framework versions
+
+- Transformers 4.51.0
+- Pytorch 2.3.1+cu121
+- Datasets 2.21.0
+- Tokenizers 0.21.4
diff --git a/all_results.json b/all_results.json
new file mode 100644
index 0000000..cfac24b
--- /dev/null
+++ b/all_results.json
@@ -0,0 +1,27 @@
+{
+    "epoch": 1.0,
+    "eval_beta_dpo/beta": 0.011150650680065155,
+    "eval_beta_dpo/beta_margin_grad_mean": -0.47102445363998413,
+    "eval_beta_dpo/beta_margin_grad_std": 0.049201950430870056,
+    "eval_beta_dpo/beta_margin_mean": 1.640921711921692,
+    "eval_beta_dpo/beta_margin_std": 2.0729942321777344,
+    "eval_beta_dpo/beta_used": 0.011150650680065155,
+    "eval_beta_dpo/beta_used_raw": -3.504255771636963,
+    "eval_beta_dpo/gap_mean": 147.1534881591797,
+    "eval_beta_dpo/gap_std": 168.50018310546875,
+    "eval_beta_dpo/loss_margin_mean": 87.08258056640625,
+    "eval_beta_dpo/mask_keep_frac": 1.0,
+    "eval_logits/chosen": -0.2772989273071289,
+    "eval_logits/rejected": -0.2549748718738556,
+    "eval_loss": 0.7894024848937988,
+    "eval_runtime": 40.1139,
+    "eval_samples": 2339,
+    "eval_samples_per_second": 58.309,
+    "eval_steps_per_second": 1.845,
+    "total_flos": 0.0,
+    "train_loss": 2.627565469291942,
+    "train_runtime": 3177.7378,
+    "train_samples": 43598,
+    "train_samples_per_second": 13.72,
+    "train_steps_per_second": 0.214
+}
\ No newline at end of file
diff --git a/config.json b/config.json
new file mode 100644
index 0000000..5092b09
--- /dev/null
+++ b/config.json
@@ -0,0 +1,29 @@
+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.0",
+  "use_cache": true,
+  "vocab_size": 128256
+}
diff --git a/eval_results.json b/eval_results.json
new file mode 100644
index 0000000..b9d3fdc
--- /dev/null
+++ b/eval_results.json
@@ -0,0 +1,21 @@
+{
+    "epoch": 1.0,
+    "eval_beta_dpo/beta": 0.011150650680065155,
+    "eval_beta_dpo/beta_margin_grad_mean": -0.47102445363998413,
+    "eval_beta_dpo/beta_margin_grad_std": 0.049201950430870056,
+    "eval_beta_dpo/beta_margin_mean": 1.640921711921692,
+    "eval_beta_dpo/beta_margin_std": 2.0729942321777344,
+    "eval_beta_dpo/beta_used": 0.011150650680065155,
+    "eval_beta_dpo/beta_used_raw": -3.504255771636963,
+    "eval_beta_dpo/gap_mean": 147.1534881591797,
+    "eval_beta_dpo/gap_std": 168.50018310546875,
+    "eval_beta_dpo/loss_margin_mean": 87.08258056640625,
+    "eval_beta_dpo/mask_keep_frac": 1.0,
+    "eval_logits/chosen": -0.2772989273071289,
+    "eval_logits/rejected": -0.2549748718738556,
+    "eval_loss": 0.7894024848937988,
+    "eval_runtime": 40.1139,
+    "eval_samples": 2339,
+    "eval_samples_per_second": 58.309,
+    "eval_steps_per_second": 1.845
+}
\ No newline at end of file
diff --git a/generation_config.json b/generation_config.json
new file mode 100644
index 0000000..76247c9
--- /dev/null
+++ b/generation_config.json
@@ -0,0 +1,9 @@
+{
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": 128001,
+  "max_length": 4096,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.51.0"
+}
diff --git a/model-00001-of-00007.safetensors b/model-00001-of-00007.safetensors
new file mode 100644
index 0000000..c0a8cba
--- /dev/null
+++ b/model-00001-of-00007.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f495606710cb33512b2beb05b23d58ae7b1d9dc4cadb6c76f47b1133621bf7b7
+size 4886466168
diff --git a/model-00002-of-00007.safetensors b/model-00002-of-00007.safetensors
new file mode 100644
index 0000000..d1f519f
--- /dev/null
+++ b/model-00002-of-00007.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d983b1368f83a6898f73bc8983cedac79306c35bee0e995cc8e749206d2ef7c
+size 4832007448
diff --git a/model-00003-of-00007.safetensors b/model-00003-of-00007.safetensors
new file mode 100644
index 0000000..2bb0a6c
--- /dev/null
+++ b/model-00003-of-00007.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d83bd9699c4a89eb50e72aa777fee0b26e18079f74379ba5ffffb462d1875193
+size 4999813112
diff --git a/model-00004-of-00007.safetensors b/model-00004-of-00007.safetensors
new file mode 100644
index 0000000..ce74104
--- /dev/null
+++ b/model-00004-of-00007.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d23a9cdcc67d48b3bb3df50047ce60cd5fa674cb7c98bc00b02783210d2594c8
+size 4999813128
diff --git a/model-00005-of-00007.safetensors b/model-00005-of-00007.safetensors
new file mode 100644
index 0000000..1066e52
--- /dev/null
+++ b/model-00005-of-00007.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3aa97dd4e920c169257071bafb52788e8008946a17f084e62566933eb6fd6801
+size 4832007496
diff --git a/model-00006-of-00007.safetensors b/model-00006-of-00007.safetensors
new file mode 100644
index 0000000..9515e23
--- /dev/null
+++ b/model-00006-of-00007.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e5fddff270810773517b1b109a6367ff71ddec325f35f1e01d428061a8680a62
+size 4999813120
diff --git a/model-00007-of-00007.safetensors b/model-00007-of-00007.safetensors
new file mode 100644
index 0000000..3ce8cb6
--- /dev/null
+++ b/model-00007-of-00007.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:898490d5a16032b9bc97d95af293e8e0542a9bcf2f5af49cdec63d2bf2744c26
+size 2571158184
diff --git a/model.safetensors.index.json b/model.safetensors.index.json
new file mode 100644
index 0000000..0985084
--- /dev/null
+++ b/model.safetensors.index.json
@@ -0,0 +1,298 @@
+{
+  "metadata": {
+    "total_size": 32121044992
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00007-of-00007.safetensors"
+  }
+}
diff --git a/special_tokens_map.json b/special_tokens_map.json
new file mode 100644
index 0000000..e5b39b6
--- /dev/null
+++ b/special_tokens_map.json
@@ -0,0 +1,23 @@
+{
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
diff --git a/tokenizer.json b/tokenizer.json
new file mode 100644
index 0000000..86a3394
--- /dev/null
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c5cf44023714fb39b05e71e425f8d7b92805ff73f7988b083b8c87f0bf87393
+size 17209961
diff --git a/tokenizer_config.json b/tokenizer_config.json
new file mode 100644
index 0000000..8c6916a
--- /dev/null
+++ b/tokenizer_config.json
@@ -0,0 +1,2064 @@
+{
+  "added_tokens_decoder": {
+    "128000": {
+      "content": "<|begin_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128001": {
+      "content": "<|end_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128002": {
+      "content": "<|reserved_special_token_0|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128003": {
+      "content": "<|reserved_special_token_1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128004": {
+      "content": "<|reserved_special_token_2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128005": {
+      "content": "<|reserved_special_token_3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128006": {
+      "content": "<|start_header_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128007": {
+      "content": "<|end_header_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128008": {
+      "content": "<|reserved_special_token_4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128009": {
+      "content": "<|eot_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128010": {
+      "content": "<|reserved_special_token_5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128011": {
+      "content": "<|reserved_special_token_6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128012": {
+      "content": "<|reserved_special_token_7|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128013": {
+      "content": "<|reserved_special_token_8|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128014": {
+      "content": "<|reserved_special_token_9|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128015": {
+      "content": "<|reserved_special_token_10|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128016": {
+      "content": "<|reserved_special_token_11|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128017": {
+      "content": "<|reserved_special_token_12|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128018": {
+      "content": "<|reserved_special_token_13|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128019": {
+      "content": "<|reserved_special_token_14|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128020": {
+      "content": "<|reserved_special_token_15|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128021": {
+      "content": "<|reserved_special_token_16|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128022": {
+      "content": "<|reserved_special_token_17|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128023": {
+      "content": "<|reserved_special_token_18|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128024": {
+      "content": "<|reserved_special_token_19|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128025": {
+      "content": "<|reserved_special_token_20|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128026": {
+      "content": "<|reserved_special_token_21|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128027": {
+      "content": "<|reserved_special_token_22|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128028": {
+      "content": "<|reserved_special_token_23|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128029": {
+      "content": "<|reserved_special_token_24|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128030": {
+      "content": "<|reserved_special_token_25|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128031": {
+      "content": "<|reserved_special_token_26|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128032": {
+      "content": "<|reserved_special_token_27|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128033": {
+      "content": "<|reserved_special_token_28|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128034": {
+      "content": "<|reserved_special_token_29|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128035": {
+      "content": "<|reserved_special_token_30|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128036": {
+      "content": "<|reserved_special_token_31|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128037": {
+      "content": "<|reserved_special_token_32|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128038": {
+      "content": "<|reserved_special_token_33|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128039": {
+      "content": "<|reserved_special_token_34|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128040": {
+      "content": "<|reserved_special_token_35|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128041": {
+      "content": "<|reserved_special_token_36|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128042": {
+      "content": "<|reserved_special_token_37|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128043": {
+      "content": "<|reserved_special_token_38|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128044": {
+      "content": "<|reserved_special_token_39|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128045": {
+      "content": "<|reserved_special_token_40|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128046": {
+      "content": "<|reserved_special_token_41|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128047": {
+      "content": "<|reserved_special_token_42|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128048": {
+      "content": "<|reserved_special_token_43|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128049": {
+      "content": "<|reserved_special_token_44|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128050": {
+      "content": "<|reserved_special_token_45|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128051": {
+      "content": "<|reserved_special_token_46|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128052": {
+      "content": "<|reserved_special_token_47|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128053": {
+      "content": "<|reserved_special_token_48|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128054": {
+      "content": "<|reserved_special_token_49|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128055": {
+      "content": "<|reserved_special_token_50|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128056": {
+      "content": "<|reserved_special_token_51|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128057": {
+      "content": "<|reserved_special_token_52|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128058": {
+      "content": "<|reserved_special_token_53|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128059": {
+      "content": "<|reserved_special_token_54|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128060": {
+      "content": "<|reserved_special_token_55|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128061": {
+      "content": "<|reserved_special_token_56|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128062": {
+      "content": "<|reserved_special_token_57|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128063": {
+      "content": "<|reserved_special_token_58|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128064": {
+      "content": "<|reserved_special_token_59|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128065": {
+      "content": "<|reserved_special_token_60|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128066": {
+      "content": "<|reserved_special_token_61|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128067": {
+      "content": "<|reserved_special_token_62|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128068": {
+      "content": "<|reserved_special_token_63|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128069": {
+      "content": "<|reserved_special_token_64|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128070": {
+      "content": "<|reserved_special_token_65|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128071": {
+      "content": "<|reserved_special_token_66|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128072": {
+      "content": "<|reserved_special_token_67|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128073": {
+      "content": "<|reserved_special_token_68|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128074": {
+      "content": "<|reserved_special_token_69|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128075": {
+      "content": "<|reserved_special_token_70|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128076": {
+      "content": "<|reserved_special_token_71|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128077": {
+      "content": "<|reserved_special_token_72|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128078": {
+      "content": "<|reserved_special_token_73|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128079": {
+      "content": "<|reserved_special_token_74|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128080": {
+      "content": "<|reserved_special_token_75|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128081": {
+      "content": "<|reserved_special_token_76|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128082": {
+      "content": "<|reserved_special_token_77|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128083": {
+      "content": "<|reserved_special_token_78|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128084": {
+      "content": "<|reserved_special_token_79|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128085": {
+      "content": "<|reserved_special_token_80|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128086": {
+      "content": "<|reserved_special_token_81|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128087": {
+      "content": "<|reserved_special_token_82|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128088": {
+      "content": "<|reserved_special_token_83|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128089": {
+      "content": "<|reserved_special_token_84|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128090": {
+      "content": "<|reserved_special_token_85|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128091": {
+      "content": "<|reserved_special_token_86|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128092": {
+      "content": "<|reserved_special_token_87|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128093": {
+      "content": "<|reserved_special_token_88|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128094": {
+      "content": "<|reserved_special_token_89|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128095": {
+      "content": "<|reserved_special_token_90|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128096": {
+      "content": "<|reserved_special_token_91|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128097": {
+      "content": "<|reserved_special_token_92|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128098": {
+      "content": "<|reserved_special_token_93|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128099": {
+      "content": "<|reserved_special_token_94|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128100": {
+      "content": "<|reserved_special_token_95|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128101": {
+      "content": "<|reserved_special_token_96|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128102": {
+      "content": "<|reserved_special_token_97|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128103": {
+      "content": "<|reserved_special_token_98|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128104": {
+      "content": "<|reserved_special_token_99|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128105": {
+      "content": "<|reserved_special_token_100|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128106": {
+      "content": "<|reserved_special_token_101|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128107": {
+      "content": "<|reserved_special_token_102|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128108": {
+      "content": "<|reserved_special_token_103|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128109": {
+      "content": "<|reserved_special_token_104|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128110": {
+      "content": "<|reserved_special_token_105|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128111": {
+      "content": "<|reserved_special_token_106|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128112": {
+      "content": "<|reserved_special_token_107|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128113": {
+      "content": "<|reserved_special_token_108|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128114": {
+      "content": "<|reserved_special_token_109|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128115": {
+      "content": "<|reserved_special_token_110|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128116": {
+      "content": "<|reserved_special_token_111|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128117": {
+      "content": "<|reserved_special_token_112|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128118": {
+      "content": "<|reserved_special_token_113|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128119": {
+      "content": "<|reserved_special_token_114|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128120": {
+      "content": "<|reserved_special_token_115|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128121": {
+      "content": "<|reserved_special_token_116|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128122": {
+      "content": "<|reserved_special_token_117|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128123": {
+      "content": "<|reserved_special_token_118|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128124": {
+      "content": "<|reserved_special_token_119|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128125": {
+      "content": "<|reserved_special_token_120|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128126": {
+      "content": "<|reserved_special_token_121|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128127": {
+      "content": "<|reserved_special_token_122|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128128": {
+      "content": "<|reserved_special_token_123|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128129": {
+      "content": "<|reserved_special_token_124|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128130": {
+      "content": "<|reserved_special_token_125|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128131": {
+      "content": "<|reserved_special_token_126|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128132": {
+      "content": "<|reserved_special_token_127|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128133": {
+      "content": "<|reserved_special_token_128|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128134": {
+      "content": "<|reserved_special_token_129|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128135": {
+      "content": "<|reserved_special_token_130|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128136": {
+      "content": "<|reserved_special_token_131|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128137": {
+      "content": "<|reserved_special_token_132|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128138": {
+      "content": "<|reserved_special_token_133|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128139": {
+      "content": "<|reserved_special_token_134|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128140": {
+      "content": "<|reserved_special_token_135|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128141": {
+      "content": "<|reserved_special_token_136|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128142": {
+      "content": "<|reserved_special_token_137|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128143": {
+      "content": "<|reserved_special_token_138|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128144": {
+      "content": "<|reserved_special_token_139|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128145": {
+      "content": "<|reserved_special_token_140|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128146": {
+      "content": "<|reserved_special_token_141|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128147": {
+      "content": "<|reserved_special_token_142|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128148": {
+      "content": "<|reserved_special_token_143|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128149": {
+      "content": "<|reserved_special_token_144|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128150": {
+      "content": "<|reserved_special_token_145|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128151": {
+      "content": "<|reserved_special_token_146|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128152": {
+      "content": "<|reserved_special_token_147|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128153": {
+      "content": "<|reserved_special_token_148|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128154": {
+      "content": "<|reserved_special_token_149|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128155": {
+      "content": "<|reserved_special_token_150|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128156": {
+      "content": "<|reserved_special_token_151|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128157": {
+      "content": "<|reserved_special_token_152|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128158": {
+      "content": "<|reserved_special_token_153|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128159": {
+      "content": "<|reserved_special_token_154|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128160": {
+      "content": "<|reserved_special_token_155|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128161": {
+      "content": "<|reserved_special_token_156|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128162": {
+      "content": "<|reserved_special_token_157|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128163": {
+      "content": "<|reserved_special_token_158|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128164": {
+      "content": "<|reserved_special_token_159|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128165": {
+      "content": "<|reserved_special_token_160|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128166": {
+      "content": "<|reserved_special_token_161|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128167": {
+      "content": "<|reserved_special_token_162|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128168": {
+      "content": "<|reserved_special_token_163|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128169": {
+      "content": "<|reserved_special_token_164|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128170": {
+      "content": "<|reserved_special_token_165|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128171": {
+      "content": "<|reserved_special_token_166|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128172": {
+      "content": "<|reserved_special_token_167|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128173": {
+      "content": "<|reserved_special_token_168|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128174": {
+      "content": "<|reserved_special_token_169|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128175": {
+      "content": "<|reserved_special_token_170|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128176": {
+      "content": "<|reserved_special_token_171|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128177": {
+      "content": "<|reserved_special_token_172|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128178": {
+      "content": "<|reserved_special_token_173|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128179": {
+      "content": "<|reserved_special_token_174|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128180": {
+      "content": "<|reserved_special_token_175|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128181": {
+      "content": "<|reserved_special_token_176|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128182": {
+      "content": "<|reserved_special_token_177|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128183": {
+      "content": "<|reserved_special_token_178|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128184": {
+      "content": "<|reserved_special_token_179|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128185": {
+      "content": "<|reserved_special_token_180|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128186": {
+      "content": "<|reserved_special_token_181|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128187": {
+      "content": "<|reserved_special_token_182|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128188": {
+      "content": "<|reserved_special_token_183|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128189": {
+      "content": "<|reserved_special_token_184|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128190": {
+      "content": "<|reserved_special_token_185|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128191": {
+      "content": "<|reserved_special_token_186|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128192": {
+      "content": "<|reserved_special_token_187|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128193": {
+      "content": "<|reserved_special_token_188|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128194": {
+      "content": "<|reserved_special_token_189|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128195": {
+      "content": "<|reserved_special_token_190|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128196": {
+      "content": "<|reserved_special_token_191|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128197": {
+      "content": "<|reserved_special_token_192|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128198": {
+      "content": "<|reserved_special_token_193|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128199": {
+      "content": "<|reserved_special_token_194|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128200": {
+      "content": "<|reserved_special_token_195|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128201": {
+      "content": "<|reserved_special_token_196|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128202": {
+      "content": "<|reserved_special_token_197|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128203": {
+      "content": "<|reserved_special_token_198|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128204": {
+      "content": "<|reserved_special_token_199|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128205": {
+      "content": "<|reserved_special_token_200|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128206": {
+      "content": "<|reserved_special_token_201|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128207": {
+      "content": "<|reserved_special_token_202|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128208": {
+      "content": "<|reserved_special_token_203|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128209": {
+      "content": "<|reserved_special_token_204|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128210": {
+      "content": "<|reserved_special_token_205|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128211": {
+      "content": "<|reserved_special_token_206|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128212": {
+      "content": "<|reserved_special_token_207|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128213": {
+      "content": "<|reserved_special_token_208|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128214": {
+      "content": "<|reserved_special_token_209|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128215": {
+      "content": "<|reserved_special_token_210|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128216": {
+      "content": "<|reserved_special_token_211|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128217": {
+      "content": "<|reserved_special_token_212|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128218": {
+      "content": "<|reserved_special_token_213|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128219": {
+      "content": "<|reserved_special_token_214|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128220": {
+      "content": "<|reserved_special_token_215|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128221": {
+      "content": "<|reserved_special_token_216|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128222": {
+      "content": "<|reserved_special_token_217|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128223": {
+      "content": "<|reserved_special_token_218|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128224": {
+      "content": "<|reserved_special_token_219|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128225": {
+      "content": "<|reserved_special_token_220|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128226": {
+      "content": "<|reserved_special_token_221|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128227": {
+      "content": "<|reserved_special_token_222|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128228": {
+      "content": "<|reserved_special_token_223|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128229": {
+      "content": "<|reserved_special_token_224|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128230": {
+      "content": "<|reserved_special_token_225|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128231": {
+      "content": "<|reserved_special_token_226|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128232": {
+      "content": "<|reserved_special_token_227|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128233": {
+      "content": "<|reserved_special_token_228|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128234": {
+      "content": "<|reserved_special_token_229|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128235": {
+      "content": "<|reserved_special_token_230|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128236": {
+      "content": "<|reserved_special_token_231|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128237": {
+      "content": "<|reserved_special_token_232|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128238": {
+      "content": "<|reserved_special_token_233|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128239": {
+      "content": "<|reserved_special_token_234|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128240": {
+      "content": "<|reserved_special_token_235|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128241": {
+      "content": "<|reserved_special_token_236|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128242": {
+      "content": "<|reserved_special_token_237|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128243": {
+      "content": "<|reserved_special_token_238|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128244": {
+      "content": "<|reserved_special_token_239|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128245": {
+      "content": "<|reserved_special_token_240|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128246": {
+      "content": "<|reserved_special_token_241|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128247": {
+      "content": "<|reserved_special_token_242|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128248": {
+      "content": "<|reserved_special_token_243|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128249": {
+      "content": "<|reserved_special_token_244|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128250": {
+      "content": "<|reserved_special_token_245|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128251": {
+      "content": "<|reserved_special_token_246|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128252": {
+      "content": "<|reserved_special_token_247|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128253": {
+      "content": "<|reserved_special_token_248|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128254": {
+      "content": "<|reserved_special_token_249|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128255": {
+      "content": "<|reserved_special_token_250|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|begin_of_text|>",
+  "chat_template": "{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{% if add_generation_prompt %}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|end_of_text|>",
+  "extra_special_tokens": {},
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 2048,
+  "pad_token": "<|end_of_text|>",
+  "tokenizer_class": "PreTrainedTokenizer"
+}
diff --git a/train.log b/train.log
new file mode 100644
index 0000000..007c59c
--- /dev/null
+++ b/train.log
@@ -0,0 +1,1793 @@
+2026-04-17 23:08:16 - INFO - __main__ - Model parameters ModelArguments(base_model_revision=None, model_name_or_path='/scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101', model_revision='main', model_code_revision=None, torch_dtype='bfloat16', tokenizer_name_or_path=None, trust_remote_code=False, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False, bnb_4bit_quant_storage='uint8')
+2026-04-17 23:08:16 - INFO - __main__ - Data parameters DataArguments(chat_template=None, dataset_mixer={'Anthropic/hh-rlhf': 1.0}, text_column='text', dataset_splits=['train', 'test'], dataset_configs=['helpful-base'], dataset_dir=None, preprocessing_num_workers=12, use_persistent_hf_cache=True, hf_cache_dir='/scratch/feng.yulu/dynamic-dpo-v4/hf/datasets', truncation_side=None, auto_insert_empty_system_msg=True, preprocessing_log_samples=0, preprocessing_log_dir=None)
+2026-04-17 23:08:16 - INFO - __main__ - Training/evaluation parameters BetaDPOConfig(
+_n_gpu=1,
+accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+alpha=0.6,
+auto_find_batch_size=False,
+average_tokens_across_devices=False,
+batch_eval_metrics=False,
+beta=0.1,
+beta_min=0.001,
+bf16=True,
+bf16_full_eval=False,
+data_seed=None,
+dataloader_drop_last=True,
+dataloader_num_workers=0,
+dataloader_persistent_workers=False,
+dataloader_pin_memory=True,
+dataloader_prefetch_factor=None,
+dataset_num_proc=12,
+ddp_backend=None,
+ddp_broadcast_buffers=None,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=None,
+ddp_timeout=1800,
+debug=[],
+deepspeed=None,
+deterministic_eval=True,
+disable_dropout=True,
+disable_tqdm=False,
+do_eval=True,
+do_predict=False,
+do_train=False,
+ema_momentum=0.9,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_do_concat_batches=True,
+eval_on_start=False,
+eval_steps=100,
+eval_strategy=IntervalStrategy.STEPS,
+eval_use_gather_object=False,
+f_alpha_divergence_coef=1.0,
+f_divergence_type=FDivergenceType.REVERSE_KL,
+force_use_ref_model=False,
+fp16=False,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+generate_during_eval=False,
+gradient_accumulation_steps=2,
+gradient_checkpointing=True,
+gradient_checkpointing_kwargs={'use_reentrant': False},
+greater_is_better=None,
+group_by_length=False,
+half_precision_backend=auto,
+hub_always_push=False,
+hub_model_id=W-61/llama-3-8b-base-beta-dpo-hh-helpful-4xh200,
+hub_model_revision=main,
+hub_private_repo=None,
+hub_strategy=HubStrategy.EVERY_SAVE,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_for_metrics=[],
+include_inputs_for_metrics=False,
+include_num_input_tokens_seen=False,
+include_tokens_per_second=False,
+is_encoder_decoder=None,
+jit_mode_eval=False,
+label_names=None,
+label_pad_token_id=-100,
+label_smoothing=0.0,
+label_smoothing_factor=0.0,
+learning_rate=5e-07,
+length_column_name=length,
+load_best_model_at_end=False,
+local_rank=0,
+log_level=info,
+log_level_replica=warning,
+log_on_each_node=True,
+logging_dir=outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200/runs/Apr17_23-08-16_d4054,
+logging_first_step=True,
+logging_nan_inf_filter=True,
+logging_steps=1,
+logging_strategy=IntervalStrategy.STEPS,
+loss_type=sigmoid,
+lr_scheduler_kwargs={},
+lr_scheduler_type=SchedulerType.COSINE,
+max_grad_norm=1.0,
+max_length=512,
+max_prompt_length=256,
+max_steps=-1,
+max_target_length=None,
+metric_for_best_model=None,
+model_adapter_name=None,
+model_init_kwargs=None,
+mp_parameters=,
+neftune_noise_alpha=None,
+no_cuda=False,
+non_finite_logits_handling=sanitize,
+num_train_epochs=1,
+optim=OptimizerNames.ADAMW_TORCH,
+optim_args=None,
+optim_target_modules=None,
+output_dir=/scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753,
+overwrite_output_dir=False,
+padding_value=None,
+past_index=-1,
+per_device_eval_batch_size=8,
+per_device_train_batch_size=8,
+post_tokenization_log_dir=None,
+post_tokenization_log_samples=0,
+precompute_ref_batch_size=None,
+precompute_ref_eval_batch_size=None,
+precompute_ref_log_probs=False,
+prediction_loss_only=False,
+push_to_hub=False,
+push_to_hub_model_id=None,
+push_to_hub_organization=None,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+ref_adapter_name=None,
+ref_model_init_kwargs=None,
+ref_model_mixup_alpha=0.9,
+ref_model_sync_steps=64,
+reference_free=False,
+remove_unused_columns=False,
+report_to=['wandb'],
+require_equal_local_batch_size=True,
+restore_callback_states_from_checkpoint=False,
+resume_from_checkpoint=None,
+reuse_tokenized_dataset=True,
+rho=0.8,
+rpo_alpha=None,
+run_name=llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753,
+save_on_each_node=False,
+save_only_model=False,
+save_safetensors=True,
+save_steps=200,
+save_strategy=SaveStrategy.STEPS,
+save_total_limit=2,
+seed=42,
+sft_weight=0.0,
+skip_memory_metrics=True,
+sync_global_mask=True,
+sync_ref_model=False,
+tf32=None,
+tokenization_batch_size=128,
+tokenization_mode=online,
+tokenized_dataset_cache_dir=/scratch/feng.yulu/dynamic-dpo-v4/tokenized_preferences,
+torch_compile=False,
+torch_compile_backend=None,
+torch_compile_mode=None,
+torch_empty_cache_steps=None,
+torchdynamo=None,
+tp_size=0,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+trainer_type=beta_dpo,
+truncation_mode=keep_end,
+use_cpu=False,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+use_liger_kernel=False,
+use_mps_device=False,
+wandb_project=ood-run-4xh200,
+warmup_ratio=0.1,
+warmup_steps=0,
+weight_decay=0.0,
+)
+2026-04-17 23:08:16 - INFO - __main__ - W&B project: ood-run-4xh200
+2026-04-17 23:08:16 - INFO - __main__ - Beta-DPO parameters: beta=0.1, rho=0.8, alpha=0.6, ema_momentum=0.9
+2026-04-17 23:08:16 - INFO - __main__ - Using persistent HF datasets cache at /scratch/feng.yulu/dynamic-dpo-v4/hf/datasets
+2026-04-17 23:08:19 - WARNING - __main__ - Dropped 237 non-canonical HH preference examples from split `train` before normalization (126 x HH preprocessing expects exactly one final assistant response in chosen/rejected suffixes., 111 x HH chosen/rejected transcripts must each contain a divergent assistant response.).
+Normalizing raw HH preferences (train):   0%|                                       | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   0%|                                       | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   0%|                                       | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   3%|▋                        | 1143/43598 [00:00<00:03, 11369.21 examples/s]Normalizing raw HH preferences (train):   2%|▌                        | 1044/43598 [00:00<00:04, 10389.33 examples/s]Normalizing raw HH preferences (train):   3%|▋                        | 1145/43598 [00:00<00:03, 11391.27 examples/s]Normalizing raw HH preferences (train):   6%|█▍                       | 2428/43598 [00:00<00:03, 12229.75 examples/s]Normalizing raw HH preferences (train):   5%|█▎                       | 2292/43598 [00:00<00:03, 11607.64 examples/s]Normalizing raw HH preferences (train):   6%|█▍                       | 2442/43598 [00:00<00:03, 12313.10 examples/s]Normalizing raw HH preferences (train):   9%|██▏                      | 3707/43598 [00:00<00:03, 12480.41 examples/s]Normalizing raw HH preferences (train):   8%|██                       | 3525/43598 [00:00<00:03, 11933.66 examples/s]Normalizing raw HH preferences (train):   9%|██▏                      | 3727/43598 [00:00<00:03, 12550.97 examples/s]Normalizing raw HH preferences (train):  11%|██▊                      | 4971/43598 [00:00<00:03, 12539.61 examples/s]Normalizing raw HH preferences (train):  11%|██▋                      | 4738/43598 [00:00<00:03, 12008.69 examples/s]Normalizing raw HH preferences (train):  11%|██▊                      | 4990/43598 [00:00<00:03, 12579.39 examples/s]Normalizing raw HH preferences (train):  16%|███▉                     | 6822/43598 [00:00<00:02, 12443.88 examples/s]Normalizing raw HH preferences (train):  14%|███▍                     | 5959/43598 [00:00<00:03, 12079.32 examples/s]Normalizing raw HH preferences (train):  16%|████                      | 6838/43598 [00:00<00:04, 8210.26 examples/s]Normalizing raw HH preferences (train):  17%|████▍                     | 7378/43598 [00:00<00:04, 8022.90 examples/s]Normalizing raw HH preferences (train):  20%|█████▏                    | 8686/43598 [00:00<00:04, 8522.69 examples/s]Normalizing raw HH preferences (train):  18%|████▊                     | 8000/43598 [00:00<00:03, 8943.91 examples/s]Normalizing raw HH preferences (train):  20%|█████▏                    | 8670/43598 [00:00<00:03, 9069.59 examples/s]Normalizing raw HH preferences (train):  23%|█████▉                    | 9952/43598 [00:00<00:03, 9369.85 examples/s]Normalizing raw HH preferences (train):  21%|█████▍                    | 9186/43598 [00:00<00:03, 9645.78 examples/s]Normalizing raw HH preferences (train):  23%|█████▉                    | 9904/43598 [00:00<00:03, 9878.71 examples/s]Normalizing raw HH preferences (train):  24%|█████▊                  | 10457/43598 [00:01<00:03, 10428.82 examples/s]Normalizing raw HH preferences (train):  27%|██████▍                 | 11729/43598 [00:01<00:03, 10120.57 examples/s]Normalizing raw HH preferences (train):  25%|██████                  | 11034/43598 [00:01<00:03, 10248.52 examples/s]Normalizing raw HH preferences (train):  27%|██████▍                 | 11716/43598 [00:01<00:02, 11005.06 examples/s]Normalizing raw HH preferences (train):  30%|███████▏                | 12979/43598 [00:01<00:02, 10654.05 examples/s]Normalizing raw HH preferences (train):  28%|██████▊                 | 12269/43598 [00:01<00:02, 10818.30 examples/s]Normalizing raw HH preferences (train):  30%|███████▏                | 12979/43598 [00:01<00:02, 11452.16 examples/s]Normalizing raw HH preferences (train):  31%|███████▍                | 13498/43598 [00:01<00:02, 11226.82 examples/s]Normalizing raw HH preferences (train):  34%|████████▏               | 14827/43598 [00:01<00:02, 11193.05 examples/s]Normalizing raw HH preferences (train):  34%|████████                | 14738/43598 [00:01<00:02, 11557.01 examples/s]Normalizing raw HH preferences (train):  34%|████████▏               | 14824/43598 [00:01<00:02, 11762.85 examples/s]Normalizing raw HH preferences (train):  38%|█████████▏              | 16700/43598 [00:01<00:02, 11602.11 examples/s]Normalizing raw HH preferences (train):  37%|████████▊               | 15981/43598 [00:01<00:02, 11806.67 examples/s]Normalizing raw HH preferences (train):  38%|█████████▏              | 16693/43598 [00:01<00:02, 12000.78 examples/s]Normalizing raw HH preferences (train):  41%|█████████▉              | 17951/43598 [00:01<00:02, 11811.35 examples/s]Normalizing raw HH preferences (train):  41%|█████████▊              | 17777/43598 [00:01<00:02, 11866.46 examples/s]Normalizing raw HH preferences (train):  41%|█████████▉              | 17947/43598 [00:01<00:02, 12132.45 examples/s]Normalizing raw HH preferences (train):  45%|██████████▉             | 19756/43598 [00:01<00:02, 11882.29 examples/s]Normalizing raw HH preferences (train):  44%|██████████▍             | 18997/43598 [00:01<00:02, 11954.65 examples/s]Normalizing raw HH preferences (train):  45%|██████████▉             | 19756/43598 [00:01<00:01, 12101.25 examples/s]Normalizing raw HH preferences (train):  48%|███████████▌            | 21000/43598 [00:01<00:01, 11786.22 examples/s]Normalizing raw HH preferences (train):  48%|███████████▍            | 20787/43598 [00:01<00:01, 11943.99 examples/s]Normalizing raw HH preferences (train):  48%|███████████▌            | 21000/43598 [00:01<00:01, 11960.99 examples/s]Normalizing raw HH preferences (train):  51%|████████████▎           | 22275/43598 [00:01<00:01, 12026.99 examples/s]Normalizing raw HH preferences (train):  50%|████████████            | 22000/43598 [00:01<00:01, 11758.06 examples/s]Normalizing raw HH preferences (train):  51%|████████████▎           | 22273/43598 [00:01<00:01, 12156.77 examples/s]Normalizing raw HH preferences (train):  54%|████████████▉           | 23564/43598 [00:02<00:01, 12250.12 examples/s]Normalizing raw HH preferences (train):  53%|████████████▊           | 23227/43598 [00:02<00:01, 11891.50 examples/s]Normalizing raw HH preferences (train):  54%|████████████▉           | 23548/43598 [00:02<00:01, 12314.23 examples/s]Normalizing raw HH preferences (train):  57%|█████████████▋          | 24818/43598 [00:02<00:01, 12325.09 examples/s]Normalizing raw HH preferences (train):  56%|█████████████▍          | 24455/43598 [00:02<00:01, 11995.92 examples/s]Normalizing raw HH preferences (train):  57%|█████████████▋          | 24797/43598 [00:02<00:01, 12358.19 examples/s]Normalizing raw HH preferences (train):  61%|██████████████▋         | 26678/43598 [00:02<00:01, 12225.40 examples/s]Normalizing raw HH preferences (train):  59%|██████████████▏         | 25682/43598 [00:02<00:01, 12072.51 examples/s]Normalizing raw HH preferences (train):  61%|██████████████▋         | 26687/43598 [00:02<00:01, 12254.96 examples/s]Normalizing raw HH preferences (train):  65%|███████████████▌        | 28163/43598 [00:02<00:01, 11424.42 examples/s]Normalizing raw HH preferences (train):  63%|███████████████         | 27342/43598 [00:02<00:01, 11692.08 examples/s]Normalizing raw HH preferences (train):  65%|███████████████▌        | 28205/43598 [00:02<00:01, 11385.01 examples/s]Normalizing raw HH preferences (train):  68%|████████████████▏       | 29438/43598 [00:02<00:01, 11749.91 examples/s]Normalizing raw HH preferences (train):  66%|███████████████▊        | 28673/43598 [00:02<00:01, 11865.47 examples/s]Normalizing raw HH preferences (train):  68%|████████████████▏       | 29478/43598 [00:02<00:01, 11711.49 examples/s]Normalizing raw HH preferences (train):  70%|████████████████▉       | 30698/43598 [00:02<00:01, 11962.90 examples/s]Normalizing raw HH preferences (train):  69%|████████████████▍       | 29918/43598 [00:02<00:01, 12020.72 examples/s]Normalizing raw HH preferences (train):  71%|████████████████▉       | 30754/43598 [00:02<00:01, 11980.13 examples/s]Normalizing raw HH preferences (train):  73%|█████████████████▌      | 31962/43598 [00:02<00:00, 12141.52 examples/s]Normalizing raw HH preferences (train):  73%|█████████████████▍      | 31726/43598 [00:02<00:00, 12026.53 examples/s]Normalizing raw HH preferences (train):  73%|█████████████████▌      | 32000/43598 [00:02<00:00, 11875.99 examples/s]Normalizing raw HH preferences (train):  78%|██████████████████▌     | 33799/43598 [00:02<00:00, 12177.15 examples/s]Normalizing raw HH preferences (train):  76%|██████████████████▏     | 32952/43598 [00:02<00:00, 12084.06 examples/s]Normalizing raw HH preferences (train):  76%|██████████████████▎     | 33268/43598 [00:02<00:00, 12094.15 examples/s]Normalizing raw HH preferences (train):  79%|██████████████████▉     | 34506/43598 [00:02<00:00, 12170.71 examples/s]Normalizing raw HH preferences (train):  82%|███████████████████▋    | 35652/43598 [00:03<00:00, 12114.76 examples/s]Normalizing raw HH preferences (train):  80%|███████████████████     | 34734/43598 [00:03<00:00, 12008.00 examples/s]Normalizing raw HH preferences (train):  82%|███████████████████▋    | 35732/43598 [00:03<00:00, 12192.34 examples/s]Normalizing raw HH preferences (train):  86%|████████████████████▌   | 37434/43598 [00:03<00:00, 12036.60 examples/s]Normalizing raw HH preferences (train):  84%|████████████████████    | 36491/43598 [00:03<00:00, 11906.45 examples/s]Normalizing raw HH preferences (train):  85%|████████████████████▎   | 36966/43598 [00:03<00:00, 12233.20 examples/s]Normalizing raw HH preferences (train):  89%|█████████████████████▎  | 38698/43598 [00:03<00:00, 12161.07 examples/s]Normalizing raw HH preferences (train):  87%|████████████████████▊   | 37718/43598 [00:03<00:00, 11994.01 examples/s]Normalizing raw HH preferences (train):  89%|█████████████████████▎  | 38787/43598 [00:03<00:00, 12193.15 examples/s]Normalizing raw HH preferences (train):  92%|█████████████████████▉  | 39930/43598 [00:03<00:00, 12199.02 examples/s]Normalizing raw HH preferences (train):  89%|█████████████████████▍  | 38937/43598 [00:03<00:00, 12040.19 examples/s]Normalizing raw HH preferences (train):  93%|██████████████████████▍ | 40695/43598 [00:03<00:00, 12189.40 examples/s]Normalizing raw HH preferences (train):  96%|██████████████████████▉ | 41762/43598 [00:03<00:00, 12201.60 examples/s]Normalizing raw HH preferences (train):  93%|██████████████████████▍ | 40708/43598 [00:03<00:00, 11955.52 examples/s]Normalizing raw HH preferences (train):  96%|███████████████████████ | 41954/43598 [00:03<00:00, 12287.02 examples/s]Normalizing raw HH preferences (train):  99%|███████████████████████▋| 43000/43598 [00:03<00:00, 12053.94 examples/s]Normalizing raw HH preferences (train):  96%|███████████████████████ | 41936/43598 [00:03<00:00, 12032.31 examples/s]Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:03<00:00, 10887.62 examples/s]Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:03<00:00, 11204.80 examples/s]
+Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:03<00:00, 10495.69 examples/s]Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:03<00:00, 11145.11 examples/s]
+Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:04<00:00, 10883.18 examples/s]
+2026-04-17 23:08:23 - WARNING - __main__ - Dropped 15 non-canonical HH preference examples from split `test` before normalization (9 x HH preprocessing expects exactly one final assistant response in chosen/rejected suffixes., 6 x HH chosen/rejected transcripts must each contain a divergent assistant response.).
+Normalizing raw HH preferences (test):   0%|                                         | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test):   0%|                                         | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test):  49%|█████████████              | 1137/2339 [00:00<00:00, 11313.23 examples/s]Normalizing raw HH preferences (test):  49%|█████████████▎             | 1150/2339 [00:00<00:00, 11453.78 examples/s]Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5526.14 examples/s]Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5952.31 examples/s]Normalizing raw HH preferences (test):   0%|                                         | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5888.93 examples/s]
+Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5351.51 examples/s]
+2026-04-17 23:08:24 - INFO - __main__ - Training on the following splits: ['train : 43598', 'test : 2339']
+[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file tokenizer.json
+[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file tokenizer.model
+[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file added_tokens.json
+[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file special_tokens_map.json
+[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file tokenizer_config.json
+[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file chat_template.jinja
+Normalizing raw HH preferences (test):  43%|███████████▉                | 1000/2339 [00:00<00:00, 9772.97 examples/s]Normalizing raw HH preferences (test):  85%|███████████████████████▊    | 1986/2339 [00:00<00:00, 6171.60 examples/s][INFO|tokenization_utils_base.py:2323] 2026-04-17 23:08:24,776 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5391.68 examples/s]
+2026-04-17 23:08:25 - INFO - __main__ - Processed train sample 41905:
+
+Prompt:
+<|begin_of_text|><|start_header_id|>user<|end_header_id|>
+
+What is the best way to clean my refrigerator?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
+
+Well, I have a few ideas, but the best way to know what works best is to run some tests and then analyze the data to figure out which technique works best.<|eot_id|><|start_header_id|>user<|end_header_id|>
+
+What are your ideas?<|eot_id|>
+
+Chosen:
+<|start_header_id|>assistant<|end_header_id|>
+
+Some of my ideas include wiping down the interior with a rag, using bleach and water to wipe down the door, emptying the contents of the fridge to scrub the shelves with a clean cloth, cleaning the interior of the fridge with vinegar and water, and using a vacuum cleaner to clean the interior.<|eot_id|>
+
+Rejected:
+<|start_header_id|>assistant<|end_header_id|>
+
+I was thinking that you could try different types of soap, which could be a variation of “soap,” like antibacterial soap.  I was also thinking that you could try using different tools, like a toothbrush, to clean the inside.  Or I was thinking that you could try different ways to get the gunk out, like using a squeegee, or using a paper towel.  I was also thinking you could try other types of cleaning, like vacuuming, but I think that could have the opposite of the desired effect.<|eot_id|>
+/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
+  warnings.warn(
+/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
+  warnings.warn(
+[INFO|configuration_utils.py:691] 2026-04-17 23:08:25,111 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/config.json
+[INFO|configuration_utils.py:765] 2026-04-17 23:08:25,123 >> Model config LlamaConfig {
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.0",
+  "use_cache": false,
+  "vocab_size": 128256
+}
+
+[INFO|modeling_utils.py:1121] 2026-04-17 23:08:25,330 >> loading weights file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/model.safetensors.index.json
+[INFO|modeling_utils.py:2167] 2026-04-17 23:08:25,331 >> Instantiating LlamaForCausalLM model under default dtype torch.bfloat16.
+[WARNING|logging.py:328] 2026-04-17 23:08:25,333 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+[WARNING|logging.py:328] 2026-04-17 23:08:25,333 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+[INFO|configuration_utils.py:1142] 2026-04-17 23:08:25,334 >> Generate config GenerationConfig {
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
+  "use_cache": false
+}
+
+Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 460.01it/s]
+Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 395.92it/s]
+[WARNING|trainer.py:821] 2026-04-17 23:08:25,443 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
+/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
+  warnings.warn(
+[WARNING|logging.py:328] 2026-04-17 23:08:25,667 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 505.50it/s]
+Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 659.85it/s]
+[WARNING|trainer.py:821] 2026-04-17 23:08:25,765 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
+Loading checkpoint shards:  14%|███████▊                                               | 1/7 [00:01<00:11,  1.84s/it]Loading checkpoint shards:  29%|███████████████▋                                       | 2/7 [00:06<00:17,  3.41s/it]Loading checkpoint shards:  43%|███████████████████████▌                               | 3/7 [00:08<00:11,  2.77s/it]Loading checkpoint shards:  57%|███████████████████████████████▍                       | 4/7 [00:10<00:07,  2.56s/it]Loading checkpoint shards:  71%|███████████████████████████████████████▎               | 5/7 [00:12<00:04,  2.42s/it]Loading checkpoint shards:  86%|███████████████████████████████████████████████▏       | 6/7 [00:14<00:02,  2.30s/it]Loading checkpoint shards: 100%|███████████████████████████████████████████████████████| 7/7 [00:15<00:00,  1.89s/it]Loading checkpoint shards: 100%|███████████████████████████████████████████████████████| 7/7 [00:15<00:00,  2.27s/it]
+[INFO|modeling_utils.py:4926] 2026-04-17 23:08:41,252 >> All model checkpoint weights were used when initializing LlamaForCausalLM.
+
+[INFO|modeling_utils.py:4934] 2026-04-17 23:08:41,252 >> All the weights of LlamaForCausalLM were initialized from the model checkpoint at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101.
+If your task is similar to the task the model of the checkpoint was trained on, you can already use LlamaForCausalLM for predictions without further training.
+[INFO|configuration_utils.py:1095] 2026-04-17 23:08:41,255 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/generation_config.json
+[INFO|configuration_utils.py:1142] 2026-04-17 23:08:41,255 >> Generate config GenerationConfig {
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": 128001,
+  "max_length": 4096,
+  "temperature": 0.6,
+  "top_p": 0.9
+}
+
+[INFO|configuration_utils.py:691] 2026-04-17 23:08:41,256 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/config.json
+[INFO|configuration_utils.py:765] 2026-04-17 23:08:41,257 >> Model config LlamaConfig {
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.0",
+  "use_cache": false,
+  "vocab_size": 128256
+}
+
+[INFO|modeling_utils.py:1121] 2026-04-17 23:08:41,258 >> loading weights file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/model.safetensors.index.json
+[INFO|modeling_utils.py:2167] 2026-04-17 23:08:41,259 >> Instantiating LlamaForCausalLM model under default dtype torch.bfloat16.
+[INFO|configuration_utils.py:1142] 2026-04-17 23:08:41,262 >> Generate config GenerationConfig {
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
+  "use_cache": false
+}
+
+Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]Loading checkpoint shards:  14%|███████▊                                               | 1/7 [00:01<00:10,  1.82s/it]Loading checkpoint shards:  29%|███████████████▋                                       | 2/7 [00:03<00:09,  1.92s/it]Loading checkpoint shards:  43%|███████████████████████▌                               | 3/7 [00:05<00:07,  1.95s/it]Loading checkpoint shards:  57%|███████████████████████████████▍                       | 4/7 [00:08<00:06,  2.06s/it]Loading checkpoint shards:  71%|███████████████████████████████████████▎               | 5/7 [00:10<00:04,  2.08s/it]Normalizing raw HH preferences (train):   0%|                                       | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   3%|▋                        | 1099/43598 [00:00<00:03, 10938.94 examples/s]Normalizing raw HH preferences (train):   5%|█▎                       | 2391/43598 [00:00<00:03, 12099.20 examples/s]Normalizing raw HH preferences (train):   8%|██                       | 3704/43598 [00:00<00:03, 12458.27 examples/s]Normalizing raw HH preferences (train):  11%|██▊                      | 4954/43598 [00:00<00:03, 12472.09 examples/s]Normalizing raw HH preferences (train):  16%|███▉                     | 6787/43598 [00:00<00:02, 12352.80 examples/s]Normalizing raw HH preferences (train):  20%|█████▏                    | 8690/43598 [00:00<00:04, 8642.43 examples/s]Normalizing raw HH preferences (train):  23%|█████▉                    | 9963/43598 [00:00<00:03, 9484.18 examples/s]Normalizing raw HH preferences (train):  25%|██████▎                  | 11116/43598 [00:01<00:03, 9948.33 examples/s]Normalizing raw HH preferences (train):  28%|██████▊                 | 12380/43598 [00:01<00:02, 10604.96 examples/s]Normalizing raw HH preferences (train):  31%|███████▌                | 13694/43598 [00:01<00:02, 11169.24 examples/s]Loading checkpoint shards:  86%|███████████████████████████████████████████████▏       | 6/7 [00:12<00:02,  2.07s/it]Normalizing raw HH preferences (train):  34%|████████▏               | 14956/43598 [00:01<00:02, 11554.87 examples/s]Normalizing raw HH preferences (train):  39%|█████████▎              | 16813/43598 [00:01<00:02, 11848.51 examples/s]Normalizing raw HH preferences (train):  43%|██████████▎             | 18621/43598 [00:01<00:02, 11824.37 examples/s]Normalizing raw HH preferences (train):  46%|██████████▉             | 19858/43598 [00:01<00:01, 11954.83 examples/s]Normalizing raw HH preferences (train):  50%|███████████▉            | 21703/43598 [00:01<00:01, 12072.19 examples/s]Normalizing raw HH preferences (train):  53%|████████████▋           | 22961/43598 [00:02<00:01, 12193.85 examples/s]Normalizing raw HH preferences (train):  57%|█████████████▋          | 24804/43598 [00:02<00:01, 12220.50 examples/s]Normalizing raw HH preferences (train):  61%|██████████████▋         | 26686/43598 [00:02<00:01, 12187.46 examples/s]Loading checkpoint shards: 100%|███████████████████████████████████████████████████████| 7/7 [00:13<00:00,  1.73s/it]Loading checkpoint shards: 100%|███████████████████████████████████████████████████████| 7/7 [00:13<00:00,  1.89s/it]
+[INFO|modeling_utils.py:4926] 2026-04-17 23:08:54,510 >> All model checkpoint weights were used when initializing LlamaForCausalLM.
+
+[INFO|modeling_utils.py:4934] 2026-04-17 23:08:54,510 >> All the weights of LlamaForCausalLM were initialized from the model checkpoint at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101.
+If your task is similar to the task the model of the checkpoint was trained on, you can already use LlamaForCausalLM for predictions without further training.
+[INFO|configuration_utils.py:1095] 2026-04-17 23:08:54,512 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/generation_config.json
+[INFO|configuration_utils.py:1142] 2026-04-17 23:08:54,513 >> Generate config GenerationConfig {
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": 128001,
+  "max_length": 4096,
+  "temperature": 0.6,
+  "top_p": 0.9
+}
+
+[WARNING|trainer.py:821] 2026-04-17 23:08:54,514 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
+[WARNING|trainer.py:816] 2026-04-17 23:08:54,514 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Normalizing raw HH preferences (train):  64%|███████████████▎        | 27929/43598 [00:02<00:01, 12244.36 examples/s]Normalizing raw HH preferences (train):  68%|████████████████▍       | 29785/43598 [00:02<00:01, 12282.94 examples/s]Normalizing raw HH preferences (train):  72%|█████████████████▍      | 31570/43598 [00:02<00:00, 12154.65 examples/s]Normalizing raw HH preferences (train):  75%|██████████████████      | 32835/43598 [00:02<00:00, 12269.71 examples/s]Normalizing raw HH preferences (train):  80%|███████████████████     | 34703/43598 [00:02<00:00, 12256.80 examples/s]Normalizing raw HH preferences (train):  82%|███████████████████▊    | 35934/43598 [00:03<00:00, 12268.15 examples/s]Normalizing raw HH preferences (train):  87%|████████████████████▊   | 37772/43598 [00:03<00:00, 12260.22 examples/s]Normalizing raw HH preferences (train):  91%|█████████████████████▊  | 39692/43598 [00:03<00:00, 12258.75 examples/s]Normalizing raw HH preferences (train):  94%|██████████████████████▌ | 40942/43598 [00:03<00:00, 12313.21 examples/s]Normalizing raw HH preferences (train):  98%|███████████████████████▌| 42785/43598 [00:03<00:00, 12301.37 examples/s]Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:03<00:00, 11250.34 examples/s]
+Normalizing raw HH preferences (test):   0%|                                         | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test):  48%|████████████▉              | 1123/2339 [00:00<00:00, 11177.43 examples/s]Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5949.14 examples/s]Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5962.15 examples/s]
+/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
+  warnings.warn(
+[WARNING|logging.py:328] 2026-04-17 23:08:57,748 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 688.07it/s]
+Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 643.54it/s]
+[WARNING|trainer.py:821] 2026-04-17 23:08:57,855 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
+Tokenizing train (num_proc=12):   0%|                                               | 0/43598 [00:00<?, ? examples/s]Tokenizing train (num_proc=12):   0%|                                   | 128/43598 [00:45<4:16:11,  2.83 examples/s]Tokenizing train (num_proc=12):   1%|▍                                    | 512/43598 [00:45<48:20, 14.85 examples/s]Tokenizing train (num_proc=12):   2%|▋                                    | 768/43598 [00:45<27:26, 26.02 examples/s]Tokenizing train (num_proc=12):   2%|▊                                   | 1024/43598 [00:45<17:04, 41.54 examples/s]Tokenizing train (num_proc=12):   3%|▉                                   | 1152/43598 [00:46<13:30, 52.34 examples/s]Tokenizing train (num_proc=12):   3%|█                                   | 1280/43598 [00:46<10:27, 67.39 examples/s]Tokenizing train (num_proc=12):   3%|█▏                                  | 1408/43598 [00:46<07:58, 88.23 examples/s]Tokenizing train (num_proc=12):   4%|█▏                                 | 1536/43598 [00:46<06:00, 116.69 examples/s]Tokenizing train (num_proc=12):   4%|█▎                                 | 1664/43598 [00:46<04:31, 154.43 examples/s]Tokenizing train (num_proc=12):   4%|█▍                                 | 1792/43598 [00:46<03:26, 202.76 examples/s]Tokenizing train (num_proc=12):   4%|█▌                                 | 1920/43598 [00:46<02:38, 263.20 examples/s]Tokenizing train (num_proc=12):   5%|█▋                                 | 2048/43598 [00:46<02:03, 336.73 examples/s]Tokenizing train (num_proc=12):   5%|█▋                                 | 2176/43598 [00:47<01:38, 419.29 examples/s]Tokenizing train (num_proc=12):   5%|█▊                                 | 2304/43598 [00:47<01:21, 508.35 examples/s]Tokenizing train (num_proc=12):   6%|█▉                                 | 2432/43598 [00:47<01:08, 601.32 examples/s]Tokenizing train (num_proc=12):   6%|██                                 | 2560/43598 [00:47<01:00, 682.26 examples/s]Tokenizing train (num_proc=12):   6%|██▏                                | 2688/43598 [00:47<00:52, 776.37 examples/s]Tokenizing train (num_proc=12):   6%|██▎                                | 2816/43598 [00:47<00:49, 829.26 examples/s]Tokenizing train (num_proc=12):   7%|██▎                                | 2944/43598 [00:47<00:45, 893.99 examples/s]Tokenizing train (num_proc=12):   7%|██▍                                | 3072/43598 [00:47<00:44, 915.48 examples/s]Tokenizing train (num_proc=12):   7%|██▌                                | 3200/43598 [00:48<00:42, 959.01 examples/s]Tokenizing train (num_proc=12):   8%|██▋                                | 3328/43598 [00:48<00:42, 956.87 examples/s]Tokenizing train (num_proc=12):   8%|██▋                               | 3456/43598 [00:48<00:39, 1004.20 examples/s]Tokenizing train (num_proc=12):   8%|██▊                               | 3584/43598 [00:48<00:38, 1034.43 examples/s]Tokenizing train (num_proc=12):   8%|██▊                               | 3634/43598 [01:03<00:38, 1034.43 examples/s]Tokenizing train (num_proc=12):   9%|███                                 | 3762/43598 [01:12<33:31, 19.80 examples/s]Tokenizing train (num_proc=12):   9%|███▏                                | 3890/43598 [01:12<24:18, 27.22 examples/s]Tokenizing train (num_proc=12):   9%|███▎                                | 4018/43598 [01:12<17:30, 37.67 examples/s]Tokenizing train (num_proc=12):  10%|███▍                                | 4146/43598 [01:12<12:34, 52.27 examples/s]Tokenizing train (num_proc=12):  10%|███▌                                | 4274/43598 [01:12<09:02, 72.46 examples/s]Tokenizing train (num_proc=12):  10%|███▋                                | 4402/43598 [01:12<06:32, 99.82 examples/s]Tokenizing train (num_proc=12):  10%|███▋                               | 4530/43598 [01:12<04:46, 136.47 examples/s]Tokenizing train (num_proc=12):  11%|███▋                               | 4658/43598 [01:12<03:31, 184.43 examples/s]Tokenizing train (num_proc=12):  11%|███▊                               | 4786/43598 [01:13<02:39, 243.38 examples/s]Tokenizing train (num_proc=12):  11%|███▉                               | 4914/43598 [01:13<02:03, 312.80 examples/s]Tokenizing train (num_proc=12):  12%|████                               | 5042/43598 [01:13<01:37, 393.63 examples/s]Tokenizing train (num_proc=12):  12%|████▏                              | 5170/43598 [01:13<01:18, 487.13 examples/s]Tokenizing train (num_proc=12):  12%|████▎                              | 5298/43598 [01:13<01:05, 582.90 examples/s]Tokenizing train (num_proc=12):  12%|████▎                              | 5426/43598 [01:13<00:54, 695.37 examples/s]Tokenizing train (num_proc=12):  13%|████▍                              | 5554/43598 [01:13<00:48, 779.11 examples/s]Tokenizing train (num_proc=12):  13%|████▌                              | 5682/43598 [01:13<00:44, 843.70 examples/s]Tokenizing train (num_proc=12):  13%|████▋                              | 5810/43598 [01:14<00:41, 917.78 examples/s]Tokenizing train (num_proc=12):  14%|████▊                              | 5938/43598 [01:14<00:38, 985.64 examples/s]Tokenizing train (num_proc=12):  14%|████▋                             | 6066/43598 [01:14<00:36, 1032.62 examples/s]Tokenizing train (num_proc=12):  14%|████▊                             | 6194/43598 [01:14<00:36, 1034.24 examples/s]Tokenizing train (num_proc=12):  15%|████▉                             | 6322/43598 [01:14<00:36, 1028.22 examples/s]Tokenizing train (num_proc=12):  15%|█████                             | 6450/43598 [01:14<00:35, 1058.67 examples/s]Tokenizing train (num_proc=12):  15%|█████▏                            | 6578/43598 [01:14<00:34, 1088.35 examples/s]Tokenizing train (num_proc=12):  15%|█████▏                            | 6706/43598 [01:14<00:34, 1079.61 examples/s]Tokenizing train (num_proc=12):  16%|█████▎                            | 6834/43598 [01:15<00:34, 1069.24 examples/s]Tokenizing train (num_proc=12):  16%|█████▍                            | 6962/43598 [01:15<00:34, 1061.62 examples/s]Tokenizing train (num_proc=12):  16%|█████▌                            | 7090/43598 [01:15<00:33, 1081.57 examples/s]Tokenizing train (num_proc=12):  17%|█████▋                            | 7218/43598 [01:15<00:33, 1076.76 examples/s]Tokenizing train (num_proc=12):  17%|█████▋                            | 7268/43598 [01:26<00:33, 1076.76 examples/s]Tokenizing train (num_proc=12):  17%|██████                              | 7396/43598 [01:38<29:14, 20.64 examples/s]Tokenizing train (num_proc=12):  17%|██████▏                             | 7524/43598 [01:38<21:13, 28.33 examples/s]Tokenizing train (num_proc=12):  18%|██████▎                             | 7652/43598 [01:38<15:18, 39.15 examples/s]Tokenizing train (num_proc=12):  18%|██████▍                             | 7780/43598 [01:38<11:00, 54.26 examples/s]Tokenizing train (num_proc=12):  18%|██████▌                             | 7908/43598 [01:38<07:54, 75.28 examples/s]Tokenizing train (num_proc=12):  18%|██████▍                            | 8036/43598 [01:38<05:44, 103.27 examples/s]Tokenizing train (num_proc=12):  19%|██████▌                            | 8164/43598 [01:38<04:11, 140.64 examples/s]Tokenizing train (num_proc=12):  19%|██████▋                            | 8292/43598 [01:39<03:05, 190.28 examples/s]Tokenizing train (num_proc=12):  19%|██████▊                            | 8420/43598 [01:39<02:19, 252.14 examples/s]Tokenizing train (num_proc=12):  20%|██████▊                            | 8548/43598 [01:39<01:47, 326.17 examples/s]Tokenizing train (num_proc=12):  20%|██████▉                            | 8676/43598 [01:39<01:23, 418.33 examples/s]Tokenizing train (num_proc=12):  20%|███████                            | 8804/43598 [01:39<01:07, 514.81 examples/s]Tokenizing train (num_proc=12):  20%|███████▏                           | 8932/43598 [01:39<00:55, 620.11 examples/s]Tokenizing train (num_proc=12):  21%|███████▎                           | 9060/43598 [01:39<00:48, 705.60 examples/s]Tokenizing train (num_proc=12):  21%|███████▍                           | 9188/43598 [01:39<00:44, 779.37 examples/s]Tokenizing train (num_proc=12):  21%|███████▍                           | 9316/43598 [01:39<00:40, 850.38 examples/s]Tokenizing train (num_proc=12):  22%|███████▌                           | 9444/43598 [01:40<00:38, 896.06 examples/s]Tokenizing train (num_proc=12):  22%|███████▋                           | 9572/43598 [01:40<00:36, 943.91 examples/s]Tokenizing train (num_proc=12):  22%|███████▊                           | 9700/43598 [01:40<00:34, 989.50 examples/s]Tokenizing train (num_proc=12):  23%|███████▉                           | 9828/43598 [01:40<00:34, 986.97 examples/s]Tokenizing train (num_proc=12):  23%|███████▊                          | 9956/43598 [01:40<00:33, 1009.29 examples/s]Tokenizing train (num_proc=12):  23%|███████▋                         | 10084/43598 [01:40<00:33, 1004.12 examples/s]Tokenizing train (num_proc=12):  23%|███████▉                          | 10212/43598 [01:40<00:33, 999.61 examples/s]Tokenizing train (num_proc=12):  24%|███████▊                         | 10340/43598 [01:40<00:32, 1034.31 examples/s]Tokenizing train (num_proc=12):  24%|███████▉                         | 10468/43598 [01:41<00:31, 1044.94 examples/s]Tokenizing train (num_proc=12):  24%|████████                         | 10596/43598 [01:41<00:31, 1051.40 examples/s]Tokenizing train (num_proc=12):  25%|████████                         | 10724/43598 [01:41<00:30, 1076.25 examples/s]Tokenizing train (num_proc=12):  25%|████████▏                        | 10852/43598 [01:41<00:30, 1072.34 examples/s]Tokenizing train (num_proc=12):  25%|████████▎                        | 10901/43598 [01:53<00:30, 1072.34 examples/s]Tokenizing train (num_proc=12):  25%|████████▊                          | 11029/43598 [02:03<25:54, 20.95 examples/s]Tokenizing train (num_proc=12):  26%|████████▉                          | 11157/43598 [02:03<18:48, 28.74 examples/s]Tokenizing train (num_proc=12):  26%|█████████                          | 11285/43598 [02:04<13:33, 39.73 examples/s]Tokenizing train (num_proc=12):  26%|█████████▏                         | 11413/43598 [02:04<09:45, 55.00 examples/s]Tokenizing train (num_proc=12):  26%|█████████▎                         | 11541/43598 [02:04<07:01, 75.98 examples/s]Tokenizing train (num_proc=12):  27%|█████████                         | 11669/43598 [02:04<05:05, 104.48 examples/s]Tokenizing train (num_proc=12):  27%|█████████▏                        | 11797/43598 [02:04<03:44, 141.76 examples/s]Tokenizing train (num_proc=12):  27%|█████████▎                        | 11925/43598 [02:04<02:46, 190.70 examples/s]Tokenizing train (num_proc=12):  28%|█████████▍                        | 12053/43598 [02:04<02:06, 249.61 examples/s]Tokenizing train (num_proc=12):  28%|█████████▍                        | 12181/43598 [02:04<01:36, 326.19 examples/s]Tokenizing train (num_proc=12):  28%|█████████▌                        | 12309/43598 [02:05<01:16, 406.87 examples/s]Tokenizing train (num_proc=12):  29%|█████████▋                        | 12437/43598 [02:05<01:02, 498.77 examples/s]Tokenizing train (num_proc=12):  29%|█████████▊                        | 12565/43598 [02:05<00:51, 604.98 examples/s]Tokenizing train (num_proc=12):  29%|█████████▉                        | 12821/43598 [02:05<00:39, 779.84 examples/s]Tokenizing train (num_proc=12):  30%|██████████                        | 12949/43598 [02:05<00:36, 846.14 examples/s]Tokenizing train (num_proc=12):  30%|██████████▏                       | 13077/43598 [02:05<00:33, 912.57 examples/s]Tokenizing train (num_proc=12):  30%|██████████▎                       | 13205/43598 [02:05<00:32, 939.48 examples/s]Tokenizing train (num_proc=12):  31%|██████████▍                       | 13333/43598 [02:06<00:31, 974.05 examples/s]Tokenizing train (num_proc=12):  31%|██████████▍                       | 13461/43598 [02:06<00:30, 984.28 examples/s]Tokenizing train (num_proc=12):  31%|██████████▎                      | 13589/43598 [02:06<00:29, 1004.46 examples/s]Tokenizing train (num_proc=12):  31%|██████████▍                      | 13717/43598 [02:06<00:28, 1043.70 examples/s]Tokenizing train (num_proc=12):  32%|██████████▍                      | 13845/43598 [02:06<00:27, 1069.54 examples/s]Tokenizing train (num_proc=12):  32%|██████████▌                      | 13973/43598 [02:06<00:27, 1081.21 examples/s]Tokenizing train (num_proc=12):  32%|██████████▋                      | 14101/43598 [02:06<00:27, 1062.32 examples/s]Tokenizing train (num_proc=12):  33%|██████████▊                      | 14229/43598 [02:06<00:27, 1072.64 examples/s]Tokenizing train (num_proc=12):  33%|██████████▊                      | 14357/43598 [02:06<00:26, 1108.37 examples/s]Tokenizing train (num_proc=12):  33%|███████████▎                      | 14534/43598 [02:07<00:37, 779.28 examples/s]Tokenizing train (num_proc=12):  33%|███████████▎                      | 14534/43598 [02:23<00:37, 779.28 examples/s]Tokenizing train (num_proc=12):  34%|███████████▊                       | 14662/43598 [02:28<22:59, 20.98 examples/s]Tokenizing train (num_proc=12):  34%|███████████▊                       | 14790/43598 [02:29<16:32, 29.02 examples/s]Tokenizing train (num_proc=12):  34%|███████████▉                       | 14918/43598 [02:29<11:51, 40.32 examples/s]Tokenizing train (num_proc=12):  35%|████████████                       | 15046/43598 [02:29<08:29, 56.06 examples/s]Tokenizing train (num_proc=12):  35%|████████████▏                      | 15174/43598 [02:29<06:05, 77.73 examples/s]Tokenizing train (num_proc=12):  35%|███████████▉                      | 15302/43598 [02:29<04:23, 107.22 examples/s]Tokenizing train (num_proc=12):  35%|████████████                      | 15430/43598 [02:29<03:13, 145.66 examples/s]Tokenizing train (num_proc=12):  36%|████████████▏                     | 15558/43598 [02:29<02:22, 196.09 examples/s]Tokenizing train (num_proc=12):  36%|████████████▏                     | 15686/43598 [02:29<01:47, 260.58 examples/s]Tokenizing train (num_proc=12):  36%|████████████▎                     | 15814/43598 [02:29<01:21, 339.70 examples/s]Tokenizing train (num_proc=12):  37%|████████████▍                     | 15942/43598 [02:30<01:04, 428.39 examples/s]Tokenizing train (num_proc=12):  37%|████████████▌                     | 16070/43598 [02:30<00:53, 516.17 examples/s]Tokenizing train (num_proc=12):  37%|████████████▋                     | 16198/43598 [02:30<00:44, 609.17 examples/s]Tokenizing train (num_proc=12):  37%|████████████▋                     | 16326/43598 [02:30<00:38, 712.62 examples/s]Tokenizing train (num_proc=12):  38%|████████████▊                     | 16454/43598 [02:30<00:33, 820.81 examples/s]Tokenizing train (num_proc=12):  38%|████████████▉                     | 16582/43598 [02:30<00:31, 866.18 examples/s]Tokenizing train (num_proc=12):  38%|█████████████                     | 16710/43598 [02:30<00:29, 922.05 examples/s]Tokenizing train (num_proc=12):  39%|█████████████▏                    | 16838/43598 [02:30<00:27, 975.10 examples/s]Tokenizing train (num_proc=12):  39%|████████████▊                    | 16966/43598 [02:31<00:26, 1010.72 examples/s]Tokenizing train (num_proc=12):  39%|████████████▉                    | 17094/43598 [02:31<00:25, 1020.43 examples/s]Tokenizing train (num_proc=12):  40%|█████████████                    | 17222/43598 [02:31<00:25, 1037.77 examples/s]Tokenizing train (num_proc=12):  40%|█████████████▏                   | 17350/43598 [02:31<00:25, 1038.36 examples/s]Tokenizing train (num_proc=12):  40%|█████████████▏                   | 17478/43598 [02:31<00:25, 1039.10 examples/s]Tokenizing train (num_proc=12):  40%|█████████████▎                   | 17606/43598 [02:31<00:24, 1068.25 examples/s]Tokenizing train (num_proc=12):  41%|█████████████▍                   | 17734/43598 [02:31<00:24, 1074.89 examples/s]Tokenizing train (num_proc=12):  41%|█████████████▌                   | 17862/43598 [02:31<00:23, 1097.07 examples/s]Tokenizing train (num_proc=12):  41%|█████████████▌                   | 17990/43598 [02:31<00:22, 1115.28 examples/s]Tokenizing train (num_proc=12):  42%|█████████████▋                   | 18118/43598 [02:32<00:22, 1117.23 examples/s]Tokenizing train (num_proc=12):  42%|█████████████▊                   | 18167/43598 [02:43<00:22, 1117.23 examples/s]Tokenizing train (num_proc=12):  42%|██████████████▋                    | 18295/43598 [02:53<19:00, 22.18 examples/s]Tokenizing train (num_proc=12):  42%|██████████████▊                    | 18423/43598 [02:53<13:46, 30.46 examples/s]Tokenizing train (num_proc=12):  43%|██████████████▉                    | 18551/43598 [02:53<09:55, 42.06 examples/s]Tokenizing train (num_proc=12):  43%|██████████████▉                    | 18679/43598 [02:53<07:07, 58.30 examples/s]Tokenizing train (num_proc=12):  43%|███████████████                    | 18807/43598 [02:53<05:07, 80.54 examples/s]Tokenizing train (num_proc=12):  43%|██████████████▊                   | 18935/43598 [02:53<03:43, 110.29 examples/s]Tokenizing train (num_proc=12):  44%|██████████████▊                   | 19063/43598 [02:53<02:44, 149.29 examples/s]Tokenizing train (num_proc=12):  44%|██████████████▉                   | 19191/43598 [02:54<02:00, 202.25 examples/s]Tokenizing train (num_proc=12):  44%|███████████████                   | 19319/43598 [02:54<01:31, 266.38 examples/s]Tokenizing train (num_proc=12):  45%|███████████████▏                  | 19447/43598 [02:54<01:11, 339.44 examples/s]Tokenizing train (num_proc=12):  45%|███████████████▎                  | 19575/43598 [02:54<00:55, 429.34 examples/s]Tokenizing train (num_proc=12):  45%|███████████████▎                  | 19703/43598 [02:54<00:45, 530.61 examples/s]Tokenizing train (num_proc=12):  45%|███████████████▍                  | 19831/43598 [02:54<00:38, 616.69 examples/s]Tokenizing train (num_proc=12):  46%|███████████████▌                  | 19959/43598 [02:54<00:34, 688.78 examples/s]Tokenizing train (num_proc=12):  46%|███████████████▋                  | 20087/43598 [02:54<00:30, 758.96 examples/s]Tokenizing train (num_proc=12):  46%|███████████████▊                  | 20215/43598 [02:55<00:28, 815.47 examples/s]Tokenizing train (num_proc=12):  47%|███████████████▊                  | 20343/43598 [02:55<00:26, 870.86 examples/s]Tokenizing train (num_proc=12):  47%|███████████████▉                  | 20471/43598 [02:55<00:24, 959.77 examples/s]Tokenizing train (num_proc=12):  47%|████████████████                  | 20599/43598 [02:55<00:23, 968.19 examples/s]Tokenizing train (num_proc=12):  48%|████████████████▏                 | 20727/43598 [02:55<00:23, 961.04 examples/s]Tokenizing train (num_proc=12):  48%|████████████████▎                 | 20855/43598 [02:55<00:23, 950.48 examples/s]Tokenizing train (num_proc=12):  48%|████████████████▎                 | 20983/43598 [02:55<00:23, 978.79 examples/s]Tokenizing train (num_proc=12):  48%|███████████████▉                 | 21111/43598 [02:55<00:22, 1008.37 examples/s]Tokenizing train (num_proc=12):  49%|████████████████                 | 21239/43598 [02:56<00:21, 1036.10 examples/s]Tokenizing train (num_proc=12):  49%|████████████████▏                | 21367/43598 [02:56<00:20, 1084.11 examples/s]Tokenizing train (num_proc=12):  49%|████████████████▎                | 21495/43598 [02:56<00:19, 1110.15 examples/s]Tokenizing train (num_proc=12):  50%|████████████████▎                | 21623/43598 [02:56<00:20, 1096.14 examples/s]Tokenizing train (num_proc=12):  50%|████████████████▍                | 21751/43598 [02:56<00:20, 1072.16 examples/s]Tokenizing train (num_proc=12):  50%|████████████████▌                | 21800/43598 [03:06<00:20, 1072.16 examples/s]Tokenizing train (num_proc=12):  50%|█████████████████▌                 | 21928/43598 [03:17<16:29, 21.90 examples/s]Tokenizing train (num_proc=12):  51%|█████████████████▋                 | 22056/43598 [03:18<11:57, 30.04 examples/s]Tokenizing train (num_proc=12):  51%|█████████████████▊                 | 22184/43598 [03:18<08:36, 41.50 examples/s]Tokenizing train (num_proc=12):  51%|█████████████████▉                 | 22312/43598 [03:18<06:10, 57.47 examples/s]Tokenizing train (num_proc=12):  51%|██████████████████                 | 22440/43598 [03:18<04:27, 79.20 examples/s]Tokenizing train (num_proc=12):  52%|█████████████████▌                | 22568/43598 [03:18<03:13, 108.66 examples/s]Tokenizing train (num_proc=12):  52%|█████████████████▋                | 22696/43598 [03:18<02:21, 147.93 examples/s]Tokenizing train (num_proc=12):  52%|█████████████████▊                | 22824/43598 [03:18<01:44, 199.26 examples/s]Tokenizing train (num_proc=12):  53%|█████████████████▉                | 22952/43598 [03:18<01:18, 264.15 examples/s]Tokenizing train (num_proc=12):  53%|█████████████████▉                | 23080/43598 [03:19<00:59, 342.40 examples/s]Tokenizing train (num_proc=12):  53%|██████████████████                | 23208/43598 [03:19<00:47, 430.76 examples/s]Tokenizing train (num_proc=12):  54%|██████████████████▏               | 23336/43598 [03:19<00:38, 526.53 examples/s]Tokenizing train (num_proc=12):  54%|██████████████████▎               | 23464/43598 [03:19<00:32, 624.46 examples/s]Tokenizing train (num_proc=12):  54%|██████████████████▍               | 23592/43598 [03:19<00:27, 717.09 examples/s]Tokenizing train (num_proc=12):  54%|██████████████████▍               | 23720/43598 [03:19<00:25, 791.98 examples/s]Tokenizing train (num_proc=12):  55%|██████████████████▌               | 23848/43598 [03:19<00:23, 853.53 examples/s]Tokenizing train (num_proc=12):  55%|██████████████████▋               | 23976/43598 [03:19<00:21, 917.95 examples/s]Tokenizing train (num_proc=12):  55%|██████████████████▊               | 24104/43598 [03:20<00:19, 981.45 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████▎              | 24232/43598 [03:20<00:19, 1014.01 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████▍              | 24360/43598 [03:20<00:18, 1019.56 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████▌              | 24488/43598 [03:20<00:18, 1060.44 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████▋              | 24616/43598 [03:20<00:17, 1098.35 examples/s]Tokenizing train (num_proc=12):  57%|██████████████████▋              | 24744/43598 [03:20<00:16, 1128.94 examples/s]Tokenizing train (num_proc=12):  57%|██████████████████▊              | 24872/43598 [03:20<00:16, 1111.83 examples/s]Tokenizing train (num_proc=12):  57%|██████████████████▉              | 25000/43598 [03:20<00:16, 1119.80 examples/s]Tokenizing train (num_proc=12):  58%|███████████████████              | 25128/43598 [03:20<00:16, 1107.45 examples/s]Tokenizing train (num_proc=12):  58%|███████████████████              | 25256/43598 [03:21<00:16, 1106.13 examples/s]Tokenizing train (num_proc=12):  58%|███████████████████▏             | 25384/43598 [03:21<00:16, 1073.69 examples/s]Tokenizing train (num_proc=12):  58%|███████████████████▎             | 25433/43598 [03:33<00:16, 1073.69 examples/s]Tokenizing train (num_proc=12):  59%|████████████████████▌              | 25561/43598 [03:43<14:05, 21.34 examples/s]Tokenizing train (num_proc=12):  59%|████████████████████▌              | 25689/43598 [03:43<10:11, 29.30 examples/s]Tokenizing train (num_proc=12):  59%|████████████████████▋              | 25817/43598 [03:43<07:19, 40.46 examples/s]Tokenizing train (num_proc=12):  60%|████████████████████▊              | 25945/43598 [03:43<05:15, 55.99 examples/s]Tokenizing train (num_proc=12):  60%|████████████████████▉              | 26073/43598 [03:43<03:46, 77.43 examples/s]Tokenizing train (num_proc=12):  60%|████████████████████▍             | 26201/43598 [03:43<02:43, 106.57 examples/s]Tokenizing train (num_proc=12):  60%|████████████████████▌             | 26329/43598 [03:43<01:58, 145.50 examples/s]Tokenizing train (num_proc=12):  61%|████████████████████▋             | 26457/43598 [03:44<01:27, 196.87 examples/s]Tokenizing train (num_proc=12):  61%|████████████████████▋             | 26585/43598 [03:44<01:05, 258.45 examples/s]Tokenizing train (num_proc=12):  61%|████████████████████▊             | 26713/43598 [03:44<00:50, 334.32 examples/s]Tokenizing train (num_proc=12):  62%|████████████████████▉             | 26841/43598 [03:44<00:39, 420.03 examples/s]Tokenizing train (num_proc=12):  62%|█████████████████████             | 26969/43598 [03:44<00:32, 514.07 examples/s]Tokenizing train (num_proc=12):  62%|█████████████████████▏            | 27097/43598 [03:44<00:27, 598.11 examples/s]Tokenizing train (num_proc=12):  62%|█████████████████████▏            | 27225/43598 [03:44<00:23, 694.28 examples/s]Tokenizing train (num_proc=12):  63%|█████████████████████▎            | 27353/43598 [03:44<00:20, 782.37 examples/s]Tokenizing train (num_proc=12):  63%|█████████████████████▍            | 27481/43598 [03:44<00:18, 860.48 examples/s]Tokenizing train (num_proc=12):  63%|█████████████████████▌            | 27609/43598 [03:45<00:17, 911.77 examples/s]Tokenizing train (num_proc=12):  64%|█████████████████████▋            | 27737/43598 [03:45<00:16, 947.03 examples/s]Tokenizing train (num_proc=12):  64%|█████████████████████▋            | 27865/43598 [03:45<00:16, 968.90 examples/s]Tokenizing train (num_proc=12):  64%|█████████████████████▊            | 27993/43598 [03:45<00:15, 982.81 examples/s]Tokenizing train (num_proc=12):  65%|█████████████████████▉            | 28121/43598 [03:45<00:15, 989.81 examples/s]Tokenizing train (num_proc=12):  65%|█████████████████████▍           | 28249/43598 [03:45<00:15, 1015.29 examples/s]Tokenizing train (num_proc=12):  65%|█████████████████████▍           | 28377/43598 [03:45<00:14, 1047.38 examples/s]Tokenizing train (num_proc=12):  65%|█████████████████████▌           | 28505/43598 [03:45<00:14, 1062.11 examples/s]Tokenizing train (num_proc=12):  66%|█████████████████████▋           | 28633/43598 [03:46<00:13, 1109.86 examples/s]Tokenizing train (num_proc=12):  66%|█████████████████████▊           | 28761/43598 [03:46<00:13, 1108.61 examples/s]Tokenizing train (num_proc=12):  66%|█████████████████████▊           | 28889/43598 [03:46<00:13, 1095.39 examples/s]Tokenizing train (num_proc=12):  67%|█████████████████████▉           | 29017/43598 [03:46<00:13, 1062.01 examples/s]Tokenizing train (num_proc=12):  67%|██████████████████████           | 29066/43598 [03:57<00:13, 1062.01 examples/s]Tokenizing train (num_proc=12):  67%|███████████████████████▍           | 29194/43598 [04:07<10:36, 22.62 examples/s]Tokenizing train (num_proc=12):  67%|███████████████████████▌           | 29322/43598 [04:07<07:40, 31.02 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████▋           | 29450/43598 [04:07<05:30, 42.83 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████▋           | 29578/43598 [04:07<03:56, 59.22 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████▊           | 29706/43598 [04:07<02:49, 81.74 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████▎          | 29834/43598 [04:07<02:02, 112.43 examples/s]Tokenizing train (num_proc=12):  69%|███████████████████████▎          | 29962/43598 [04:07<01:29, 153.16 examples/s]Tokenizing train (num_proc=12):  69%|███████████████████████▍          | 30090/43598 [04:08<01:05, 205.60 examples/s]Tokenizing train (num_proc=12):  69%|███████████████████████▌          | 30218/43598 [04:08<00:49, 271.60 examples/s]Tokenizing train (num_proc=12):  70%|███████████████████████▊          | 30474/43598 [04:08<00:31, 420.85 examples/s]Tokenizing train (num_proc=12):  70%|███████████████████████▊          | 30602/43598 [04:08<00:26, 496.71 examples/s]Tokenizing train (num_proc=12):  70%|███████████████████████▉          | 30730/43598 [04:08<00:22, 582.17 examples/s]Tokenizing train (num_proc=12):  71%|████████████████████████          | 30858/43598 [04:08<00:19, 669.61 examples/s]Tokenizing train (num_proc=12):  71%|████████████████████████▏         | 30986/43598 [04:08<00:16, 761.33 examples/s]Tokenizing train (num_proc=12):  71%|████████████████████████▎         | 31114/43598 [04:08<00:14, 835.36 examples/s]Tokenizing train (num_proc=12):  72%|████████████████████████▎         | 31242/43598 [04:09<00:13, 905.00 examples/s]Tokenizing train (num_proc=12):  72%|████████████████████████▍         | 31370/43598 [04:09<00:12, 954.39 examples/s]Tokenizing train (num_proc=12):  72%|████████████████████████▌         | 31498/43598 [04:09<00:12, 987.82 examples/s]Tokenizing train (num_proc=12):  73%|███████████████████████▉         | 31626/43598 [04:09<00:11, 1005.00 examples/s]Tokenizing train (num_proc=12):  73%|████████████████████████         | 31754/43598 [04:09<00:11, 1066.19 examples/s]Tokenizing train (num_proc=12):  73%|████████████████████████▏        | 31882/43598 [04:09<00:11, 1062.83 examples/s]Tokenizing train (num_proc=12):  73%|████████████████████████▏        | 32010/43598 [04:09<00:10, 1087.98 examples/s]Tokenizing train (num_proc=12):  74%|████████████████████████▎        | 32138/43598 [04:09<00:10, 1108.66 examples/s]Tokenizing train (num_proc=12):  74%|████████████████████████▍        | 32266/43598 [04:09<00:10, 1061.26 examples/s]Tokenizing train (num_proc=12):  74%|████████████████████████▌        | 32394/43598 [04:10<00:10, 1100.46 examples/s]Tokenizing train (num_proc=12):  75%|████████████████████████▌        | 32522/43598 [04:10<00:10, 1084.68 examples/s]Tokenizing train (num_proc=12):  75%|████████████████████████▋        | 32650/43598 [04:10<00:10, 1043.46 examples/s]Tokenizing train (num_proc=12):  75%|████████████████████████▊        | 32699/43598 [04:23<00:10, 1043.46 examples/s]Tokenizing train (num_proc=12):  75%|██████████████████████████▎        | 32827/43598 [04:33<08:42, 20.63 examples/s]Tokenizing train (num_proc=12):  76%|██████████████████████████▍        | 32955/43598 [04:33<06:15, 28.32 examples/s]Tokenizing train (num_proc=12):  76%|██████████████████████████▌        | 33083/43598 [04:33<04:28, 39.14 examples/s]Tokenizing train (num_proc=12):  76%|██████████████████████████▋        | 33211/43598 [04:33<03:11, 54.26 examples/s]Tokenizing train (num_proc=12):  76%|██████████████████████████▊        | 33339/43598 [04:33<02:16, 75.14 examples/s]Tokenizing train (num_proc=12):  77%|██████████████████████████        | 33467/43598 [04:33<01:37, 103.62 examples/s]Tokenizing train (num_proc=12):  77%|██████████████████████████▏       | 33595/43598 [04:33<01:10, 141.59 examples/s]Tokenizing train (num_proc=12):  77%|██████████████████████████▎       | 33723/43598 [04:33<00:51, 191.09 examples/s]Tokenizing train (num_proc=12):  78%|██████████████████████████▍       | 33851/43598 [04:34<00:38, 251.67 examples/s]Tokenizing train (num_proc=12):  78%|██████████████████████████▍       | 33979/43598 [04:34<00:29, 326.79 examples/s]Tokenizing train (num_proc=12):  78%|██████████████████████████▌       | 34107/43598 [04:34<00:23, 412.10 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████▋       | 34235/43598 [04:34<00:18, 510.33 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████▊       | 34363/43598 [04:34<00:15, 600.15 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████▉       | 34491/43598 [04:34<00:13, 697.25 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████▉       | 34619/43598 [04:34<00:11, 766.10 examples/s]Tokenizing train (num_proc=12):  80%|███████████████████████████       | 34747/43598 [04:34<00:10, 851.59 examples/s]Tokenizing train (num_proc=12):  80%|███████████████████████████▏      | 34875/43598 [04:35<00:09, 903.18 examples/s]Tokenizing train (num_proc=12):  80%|███████████████████████████▎      | 35003/43598 [04:35<00:08, 980.96 examples/s]Tokenizing train (num_proc=12):  81%|██████████████████████████▌      | 35131/43598 [04:35<00:08, 1025.12 examples/s]Tokenizing train (num_proc=12):  81%|██████████████████████████▋      | 35259/43598 [04:35<00:08, 1022.39 examples/s]Tokenizing train (num_proc=12):  81%|██████████████████████████▊      | 35387/43598 [04:35<00:07, 1043.17 examples/s]Tokenizing train (num_proc=12):  81%|██████████████████████████▉      | 35515/43598 [04:35<00:07, 1039.44 examples/s]Tokenizing train (num_proc=12):  82%|██████████████████████████▉      | 35643/43598 [04:35<00:07, 1029.73 examples/s]Tokenizing train (num_proc=12):  82%|███████████████████████████      | 35771/43598 [04:35<00:07, 1043.40 examples/s]Tokenizing train (num_proc=12):  82%|███████████████████████████▏     | 35899/43598 [04:35<00:07, 1003.87 examples/s]Tokenizing train (num_proc=12):  83%|███████████████████████████▎     | 36027/43598 [04:36<00:07, 1025.62 examples/s]Tokenizing train (num_proc=12):  83%|███████████████████████████▎     | 36155/43598 [04:36<00:07, 1061.42 examples/s]Tokenizing train (num_proc=12):  83%|███████████████████████████▍     | 36283/43598 [04:36<00:06, 1067.21 examples/s]Tokenizing train (num_proc=12):  83%|███████████████████████████▌     | 36332/43598 [04:47<00:06, 1067.21 examples/s]Tokenizing train (num_proc=12):  84%|█████████████████████████████▎     | 36460/43598 [04:56<05:08, 23.14 examples/s]Tokenizing train (num_proc=12):  84%|█████████████████████████████▎     | 36588/43598 [04:56<03:40, 31.78 examples/s]Tokenizing train (num_proc=12):  84%|█████████████████████████████▍     | 36716/43598 [04:56<02:36, 43.91 examples/s]Tokenizing train (num_proc=12):  85%|█████████████████████████████▌     | 36844/43598 [04:56<01:51, 60.84 examples/s]Tokenizing train (num_proc=12):  85%|█████████████████████████████▋     | 36972/43598 [04:57<01:18, 84.21 examples/s]Tokenizing train (num_proc=12):  85%|████████████████████████████▉     | 37100/43598 [04:57<00:56, 115.44 examples/s]Tokenizing train (num_proc=12):  85%|█████████████████████████████     | 37228/43598 [04:57<00:40, 156.84 examples/s]Tokenizing train (num_proc=12):  86%|█████████████████████████████▏    | 37356/43598 [04:57<00:29, 209.59 examples/s]Tokenizing train (num_proc=12):  86%|█████████████████████████████▏    | 37484/43598 [04:57<00:22, 276.87 examples/s]Tokenizing train (num_proc=12):  86%|█████████████████████████████▎    | 37612/43598 [04:57<00:16, 353.88 examples/s]Tokenizing train (num_proc=12):  87%|█████████████████████████████▍    | 37740/43598 [04:57<00:13, 443.95 examples/s]Tokenizing train (num_proc=12):  87%|█████████████████████████████▌    | 37868/43598 [04:57<00:10, 536.84 examples/s]Tokenizing train (num_proc=12):  87%|█████████████████████████████▋    | 37996/43598 [04:58<00:09, 621.51 examples/s]Tokenizing train (num_proc=12):  87%|█████████████████████████████▋    | 38124/43598 [04:58<00:07, 714.37 examples/s]Tokenizing train (num_proc=12):  88%|█████████████████████████████▊    | 38252/43598 [04:58<00:06, 778.72 examples/s]Tokenizing train (num_proc=12):  88%|█████████████████████████████▉    | 38380/43598 [04:58<00:06, 854.41 examples/s]Tokenizing train (num_proc=12):  88%|██████████████████████████████    | 38508/43598 [04:58<00:05, 903.85 examples/s]Tokenizing train (num_proc=12):  89%|██████████████████████████████▏   | 38636/43598 [04:58<00:05, 973.83 examples/s]Tokenizing train (num_proc=12):  89%|██████████████████████████████▏   | 38764/43598 [04:58<00:04, 989.30 examples/s]Tokenizing train (num_proc=12):  89%|█████████████████████████████▍   | 38892/43598 [04:58<00:04, 1027.56 examples/s]Tokenizing train (num_proc=12):  89%|█████████████████████████████▌   | 39020/43598 [04:58<00:04, 1022.96 examples/s]Tokenizing train (num_proc=12):  90%|█████████████████████████████▋   | 39148/43598 [04:59<00:04, 1043.02 examples/s]Tokenizing train (num_proc=12):  90%|█████████████████████████████▋   | 39276/43598 [04:59<00:04, 1076.46 examples/s]Tokenizing train (num_proc=12):  90%|█████████████████████████████▊   | 39404/43598 [04:59<00:03, 1103.11 examples/s]Tokenizing train (num_proc=12):  91%|█████████████████████████████▉   | 39532/43598 [04:59<00:03, 1097.49 examples/s]Tokenizing train (num_proc=12):  91%|██████████████████████████████   | 39660/43598 [04:59<00:03, 1063.63 examples/s]Tokenizing train (num_proc=12):  91%|██████████████████████████████   | 39788/43598 [04:59<00:03, 1118.72 examples/s]Tokenizing train (num_proc=12):  92%|██████████████████████████████▏  | 39916/43598 [04:59<00:03, 1074.88 examples/s]Tokenizing train (num_proc=12):  92%|██████████████████████████████▎  | 39965/43598 [05:13<00:03, 1074.88 examples/s]Tokenizing train (num_proc=12):  92%|████████████████████████████████▏  | 40093/43598 [05:20<02:36, 22.37 examples/s]Tokenizing train (num_proc=12):  92%|████████████████████████████████▎  | 40221/43598 [05:20<01:49, 30.72 examples/s]Tokenizing train (num_proc=12):  93%|████████████████████████████████▍  | 40349/43598 [05:21<01:16, 42.43 examples/s]Tokenizing train (num_proc=12):  93%|████████████████████████████████▍  | 40477/43598 [05:21<00:53, 58.72 examples/s]Tokenizing train (num_proc=12):  93%|████████████████████████████████▌  | 40605/43598 [05:21<00:36, 81.03 examples/s]Tokenizing train (num_proc=12):  93%|███████████████████████████████▊  | 40733/43598 [05:21<00:25, 111.63 examples/s]Tokenizing train (num_proc=12):  94%|███████████████████████████████▊  | 40861/43598 [05:21<00:17, 152.84 examples/s]Tokenizing train (num_proc=12):  94%|███████████████████████████████▉  | 40989/43598 [05:21<00:12, 204.38 examples/s]Tokenizing train (num_proc=12):  94%|████████████████████████████████  | 41117/43598 [05:21<00:09, 269.29 examples/s]Tokenizing train (num_proc=12):  95%|████████████████████████████████▏ | 41245/43598 [05:21<00:06, 341.71 examples/s]Tokenizing train (num_proc=12):  95%|████████████████████████████████▎ | 41373/43598 [05:21<00:05, 429.94 examples/s]Tokenizing train (num_proc=12):  95%|████████████████████████████████▎ | 41501/43598 [05:22<00:04, 523.06 examples/s]Tokenizing train (num_proc=12):  95%|████████████████████████████████▍ | 41629/43598 [05:22<00:03, 622.59 examples/s]Tokenizing train (num_proc=12):  96%|████████████████████████████████▌ | 41757/43598 [05:22<00:02, 718.48 examples/s]Tokenizing train (num_proc=12):  96%|████████████████████████████████▋ | 41885/43598 [05:22<00:02, 803.71 examples/s]Tokenizing train (num_proc=12):  96%|████████████████████████████████▊ | 42013/43598 [05:22<00:01, 865.52 examples/s]Tokenizing train (num_proc=12):  97%|████████████████████████████████▊ | 42141/43598 [05:22<00:01, 908.31 examples/s]Tokenizing train (num_proc=12):  97%|████████████████████████████████▉ | 42269/43598 [05:22<00:01, 956.64 examples/s]Tokenizing train (num_proc=12):  97%|████████████████████████████████ | 42397/43598 [05:22<00:01, 1026.57 examples/s]Tokenizing train (num_proc=12):  98%|████████████████████████████████▏| 42525/43598 [05:23<00:01, 1036.48 examples/s]Tokenizing train (num_proc=12):  98%|████████████████████████████████▎| 42653/43598 [05:23<00:00, 1031.30 examples/s]Tokenizing train (num_proc=12):  98%|████████████████████████████████▍| 42781/43598 [05:23<00:00, 1045.67 examples/s]Tokenizing train (num_proc=12):  98%|████████████████████████████████▍| 42909/43598 [05:23<00:00, 1080.66 examples/s]Tokenizing train (num_proc=12):  99%|████████████████████████████████▌| 43037/43598 [05:23<00:00, 1093.14 examples/s]Tokenizing train (num_proc=12):  99%|████████████████████████████████▊| 43293/43598 [05:23<00:00, 1147.39 examples/s]Tokenizing train (num_proc=12): 100%|████████████████████████████████▊| 43421/43598 [05:23<00:00, 1120.24 examples/s]Tokenizing train (num_proc=12): 100%|████████████████████████████████▉| 43549/43598 [05:23<00:00, 1112.68 examples/s]Traceback (most recent call last):
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/process.py", line 314, in _bootstrap
+    self.run()
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/managers.py", line 600, in _run_server
+    server.serve_forever()
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/managers.py", line 184, in serve_forever
+    sys.exit(0)
+SystemExit: 0
+
+During handling of the above exception, another exception occurred:
+
+Traceback (most recent call last):
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 752, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 703, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 701, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfsf11b8e076c605d0b00004a77'
+Tokenizing train (num_proc=12): 100%|██████████████████████████████████| 43598/43598 [05:24<00:00, 134.18 examples/s]
+[WARNING|trainer.py:816] 2026-04-17 23:15:28,732 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Saving the dataset (0/2 shards):   0%|                                              | 0/43598 [00:00<?, ? examples/s]Saving the dataset (0/2 shards):   9%|██▉                             | 4000/43598 [00:00<00:01, 24844.87 examples/s]Saving the dataset (0/2 shards):  18%|█████▊                          | 8000/43598 [00:00<00:01, 28619.48 examples/s]Saving the dataset (0/2 shards):  28%|████████▌                      | 12000/43598 [00:00<00:01, 29601.42 examples/s]Saving the dataset (0/2 shards):  39%|████████████                   | 17000/43598 [00:00<00:00, 32546.57 examples/s]Saving the dataset (0/2 shards):  48%|██████████████▉                | 21000/43598 [00:00<00:00, 31410.45 examples/s]Saving the dataset (1/2 shards):  50%|███████████████▌               | 21799/43598 [00:01<00:00, 31410.45 examples/s]Saving the dataset (1/2 shards):  59%|██████████████████▎            | 25799/43598 [00:01<00:01, 17442.33 examples/s]Saving the dataset (1/2 shards):  71%|█████████████████████▉         | 30799/43598 [00:01<00:00, 21505.01 examples/s]Saving the dataset (1/2 shards):  80%|████████████████████████▋      | 34799/43598 [00:01<00:00, 24138.95 examples/s]Saving the dataset (1/2 shards):  89%|███████████████████████████▌   | 38799/43598 [00:01<00:00, 26447.90 examples/s]Saving the dataset (1/2 shards): 100%|███████████████████████████████| 43598/43598 [00:01<00:00, 27802.12 examples/s]Saving the dataset (2/2 shards): 100%|███████████████████████████████| 43598/43598 [00:02<00:00, 27802.12 examples/s]Saving the dataset (2/2 shards): 100%|███████████████████████████████| 43598/43598 [00:02<00:00, 20826.88 examples/s]
+[WARNING|trainer.py:816] 2026-04-17 23:15:33,479 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Tokenizing test (num_proc=12):   0%|                                                 | 0/2339 [00:00<?, ? examples/s]Tokenizing test (num_proc=12):   5%|██▏                                    | 128/2339 [00:41<12:00,  3.07 examples/s]Tokenizing test (num_proc=12):  14%|█████▍                                 | 323/2339 [01:14<07:19,  4.59 examples/s]Tokenizing test (num_proc=12):  22%|████████▋                              | 518/2339 [01:48<05:57,  5.10 examples/s]Tokenizing test (num_proc=12):  30%|███████████▉                           | 713/2339 [02:21<05:00,  5.41 examples/s]Tokenizing test (num_proc=12):  33%|█████████████                          | 780/2339 [02:21<03:59,  6.50 examples/s]Tokenizing test (num_proc=12):  33%|█████████████                          | 780/2339 [02:38<03:59,  6.50 examples/s]Tokenizing test (num_proc=12):  39%|███████████████▏                       | 908/2339 [02:54<04:26,  5.37 examples/s]Tokenizing test (num_proc=12):  47%|█████████████████▉                    | 1103/2339 [03:28<03:43,  5.52 examples/s]Tokenizing test (num_proc=12):  50%|███████████████████                   | 1170/2339 [03:28<02:56,  6.62 examples/s]Tokenizing test (num_proc=12):  50%|███████████████████                   | 1170/2339 [03:38<02:56,  6.62 examples/s]Tokenizing test (num_proc=12):  55%|█████████████████████                 | 1298/2339 [04:02<03:15,  5.34 examples/s]Tokenizing test (num_proc=12):  64%|████████████████████████▎             | 1493/2339 [04:35<02:33,  5.52 examples/s]Tokenizing test (num_proc=12):  67%|█████████████████████████▎            | 1560/2339 [04:36<01:57,  6.61 examples/s]Tokenizing test (num_proc=12):  67%|█████████████████████████▎            | 1560/2339 [04:48<01:57,  6.61 examples/s]Tokenizing test (num_proc=12):  72%|███████████████████████████▍          | 1688/2339 [05:09<02:00,  5.39 examples/s]Tokenizing test (num_proc=12):  81%|██████████████████████████████▌       | 1883/2339 [05:44<01:23,  5.48 examples/s]Tokenizing test (num_proc=12):  89%|█████████████████████████████████▊    | 2078/2339 [06:17<00:46,  5.59 examples/s]Tokenizing test (num_proc=12):  97%|████████████████████████████████████▉ | 2273/2339 [06:52<00:11,  5.63 examples/s]Traceback (most recent call last):
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/process.py", line 314, in _bootstrap
+    self.run()
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/managers.py", line 600, in _run_server
+    server.serve_forever()
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/managers.py", line 184, in serve_forever
+    sys.exit(0)
+SystemExit: 0
+
+During handling of the above exception, another exception occurred:
+
+Traceback (most recent call last):
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 752, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 703, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 701, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfsbe3c7026e5ff91b100004a78'
+Tokenizing test (num_proc=12): 100%|██████████████████████████████████████| 2339/2339 [06:52<00:00,  5.67 examples/s]
+[WARNING|trainer.py:816] 2026-04-17 23:23:12,662 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Saving the dataset (0/1 shards):   0%|                                               | 0/2339 [00:00<?, ? examples/s]Saving the dataset (1/1 shards): 100%|█████████████████████████████████| 2339/2339 [00:00<00:00, 15509.95 examples/s]Saving the dataset (1/1 shards): 100%|█████████████████████████████████| 2339/2339 [00:00<00:00, 15488.82 examples/s]
+/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
+  super().__init__(
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,281 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,282 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,282 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,475 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,475 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,475 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,475 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,476 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,476 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,501 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,501 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:816] 2026-04-17 23:23:14,501 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
+  super().__init__(
+/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
+  super().__init__(
+/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
+  super().__init__(
+[INFO|trainer.py:748] 2026-04-17 23:23:14,673 >> Using auto half precision backend
+/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in LlamaForCausalLM because mixed precision turned on in FSDP. Affects: model.embed_tokens.weight, model.norm.weight, lm_head.weight.
+  warnings.warn(
+/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in LlamaDecoderLayer because mixed precision turned on in FSDP. Affects: self_attn.q_proj.weight, self_attn.k_proj.weight, self_attn.v_proj.weight, self_attn.o_proj.weight, mlp.gate_proj.weight, mlp.up_proj.weight, mlp.down_proj.weight, input_layernorm.weight, post_attention_layernorm.weight.
+  warnings.warn(
+/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/accelerate/accelerator.py:1563: UserWarning: FSDP upcast of low precision parameters may affect the precision of model checkpoints.
+  warnings.warn(
+[INFO|trainer.py:2414] 2026-04-17 23:23:23,819 >> ***** Running training *****
+[INFO|trainer.py:2415] 2026-04-17 23:23:23,819 >>   Num examples = 43,598
+[INFO|trainer.py:2416] 2026-04-17 23:23:23,819 >>   Num Epochs = 1
+[INFO|trainer.py:2417] 2026-04-17 23:23:23,819 >>   Instantaneous batch size per device = 8
+[INFO|trainer.py:2420] 2026-04-17 23:23:23,819 >>   Total train batch size (w. parallel, distributed & accumulation) = 64
+[INFO|trainer.py:2421] 2026-04-17 23:23:23,819 >>   Gradient Accumulation steps = 2
+[INFO|trainer.py:2422] 2026-04-17 23:23:23,819 >>   Total optimization steps = 681
+[INFO|trainer.py:2423] 2026-04-17 23:23:23,820 >>   Number of trainable parameters = 2,007,565,312
+[INFO|integration_utils.py:831] 2026-04-17 23:23:23,821 >> Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
+wandb: Currently logged in as: can-not-fand (can-not-fand-northeastern-university). Use `wandb login --relogin` to force relogin
+wandb: wandb version 0.26.0 is available!  To upgrade, please run:
+wandb:  $ pip install wandb --upgrade
+wandb: Tracking run with wandb version 0.17.5
+wandb: Run data is saved locally in /scratch/feng.yulu/dynamic-dpo-v4/wandb/wandb/run-20260417_232327-zg7hpnnu
+wandb: Run `wandb offline` to turn off syncing.
+wandb: Syncing run llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753
+wandb: ⭐️ View project at https://wandb.ai/can-not-fand-northeastern-university/ood-run-4xh200
+wandb: 🚀 View run at https://wandb.ai/can-not-fand-northeastern-university/ood-run-4xh200/runs/zg7hpnnu
+  0%|                                                                                        | 0/681 [00:00<?, ?it/s][WARNING|modeling_utils.py:1713] 2026-04-17 23:23:33,563 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
+[WARNING|modeling_utils.py:1713] 2026-04-17 23:23:33,571 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
+[WARNING|modeling_utils.py:1713] 2026-04-17 23:23:33,579 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
+[WARNING|modeling_utils.py:1713] 2026-04-17 23:23:33,587 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
+  0%|                                                                                | 1/681 [00:02<30:46,  2.72s/it]                                                                                                                     {'loss': 1.3849, 'grad_norm': 83.69244384765625, 'learning_rate': 0.0, 'beta_dpo/gap_mean': -0.004527175799012184, 'beta_dpo/gap_std': 0.06229356676340103, 'beta_dpo/beta_used_raw': 0.10115084052085876, 'beta_dpo/beta_used': 0.10115084052085876, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4974287748336792, 'logits/rejected': -0.43299180269241333, 'beta_dpo/beta': 0.10115084052085876, 'beta_dpo/loss_margin_mean': -0.02287048101425171, 'beta_dpo/beta_margin_mean': -0.002253394341096282, 'beta_dpo/beta_margin_std': 0.042461980134248734, 'beta_dpo/beta_margin_grad_mean': -0.5005621910095215, 'beta_dpo/beta_margin_grad_std': 0.010608955286443233, 'epoch': 0.0}
+  0%|                                                                                | 1/681 [00:02<30:46,  2.72s/it]  0%|▏                                                                               | 2/681 [00:05<32:04,  2.83s/it]                                                                                                                     {'loss': 1.389, 'grad_norm': 72.02227783203125, 'learning_rate': 7.246376811594203e-09, 'beta_dpo/gap_mean': -0.0141224917024374, 'beta_dpo/gap_std': 0.1194789782166481, 'beta_dpo/beta_used_raw': 0.09928660839796066, 'beta_dpo/beta_used': 0.09928660839796066, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4953641891479492, 'logits/rejected': -0.4594460129737854, 'beta_dpo/beta': 0.09928660839796066, 'beta_dpo/loss_margin_mean': -0.06572240591049194, 'beta_dpo/beta_margin_mean': -0.006530125625431538, 'beta_dpo/beta_margin_std': 0.034978773444890976, 'beta_dpo/beta_margin_grad_mean': -0.501632034778595, 'beta_dpo/beta_margin_grad_std': 0.008741416968405247, 'epoch': 0.0}
+  0%|▏                                                                               | 2/681 [00:05<32:04,  2.83s/it]  0%|▎                                                                               | 3/681 [00:08<31:45,  2.81s/it]                                                                                                                     {'loss': 1.389, 'grad_norm': 67.19432067871094, 'learning_rate': 1.4492753623188406e-08, 'beta_dpo/gap_mean': -0.006174812093377113, 'beta_dpo/gap_std': 0.16936704516410828, 'beta_dpo/beta_used_raw': 0.09881577640771866, 'beta_dpo/beta_used': 0.09881577640771866, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48158758878707886, 'logits/rejected': -0.4422696828842163, 'beta_dpo/beta': 0.09881577640771866, 'beta_dpo/loss_margin_mean': 0.04976421594619751, 'beta_dpo/beta_margin_mean': 0.00491556478664279, 'beta_dpo/beta_margin_std': 0.03592138737440109, 'beta_dpo/beta_margin_grad_mean': -0.49877238273620605, 'beta_dpo/beta_margin_grad_std': 0.008976051583886147, 'epoch': 0.0}
+  0%|▎                                                                               | 3/681 [00:08<31:45,  2.81s/it]  1%|▍                                                                               | 4/681 [00:11<31:56,  2.83s/it]                                                                                                                     {'loss': 1.3977, 'grad_norm': 67.43733215332031, 'learning_rate': 2.1739130434782606e-08, 'beta_dpo/gap_mean': -0.00973600521683693, 'beta_dpo/gap_std': 0.2109805941581726, 'beta_dpo/beta_used_raw': 0.09335151314735413, 'beta_dpo/beta_used': 0.09335151314735413, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45274418592453003, 'logits/rejected': -0.42465052008628845, 'beta_dpo/beta': 0.09335151314735413, 'beta_dpo/loss_margin_mean': -0.04590195417404175, 'beta_dpo/beta_margin_mean': -0.004296026658266783, 'beta_dpo/beta_margin_std': 0.03754071146249771, 'beta_dpo/beta_margin_grad_mean': -0.5010735988616943, 'beta_dpo/beta_margin_grad_std': 0.009380017407238483, 'epoch': 0.01}
+  1%|▍                                                                               | 4/681 [00:11<31:56,  2.83s/it]  1%|▌                                                                               | 5/681 [00:14<31:55,  2.83s/it]                                                                                                                     {'loss': 1.3858, 'grad_norm': 87.71318817138672, 'learning_rate': 2.898550724637681e-08, 'beta_dpo/gap_mean': -0.0020640306174755096, 'beta_dpo/gap_std': 0.2421741932630539, 'beta_dpo/beta_used_raw': 0.10049673914909363, 'beta_dpo/beta_used': 0.10049673914909363, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4956454932689667, 'logits/rejected': -0.4505915641784668, 'beta_dpo/beta': 0.10049673914909363, 'beta_dpo/loss_margin_mean': 0.05585688352584839, 'beta_dpo/beta_margin_mean': 0.005582462064921856, 'beta_dpo/beta_margin_std': 0.03796974569559097, 'beta_dpo/beta_margin_grad_mean': -0.4986048936843872, 'beta_dpo/beta_margin_grad_std': 0.009488900192081928, 'epoch': 0.01}
+  1%|▌                                                                               | 5/681 [00:14<31:55,  2.83s/it]  1%|▋                                                                               | 6/681 [00:16<30:26,  2.71s/it]                                                                                                                     {'loss': 1.3854, 'grad_norm': 90.84674072265625, 'learning_rate': 3.6231884057971014e-08, 'beta_dpo/gap_mean': 0.0017710481770336628, 'beta_dpo/gap_std': 0.2680016756057739, 'beta_dpo/beta_used_raw': 0.10047884285449982, 'beta_dpo/beta_used': 0.10047884285449982, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5020167827606201, 'logits/rejected': -0.4594297409057617, 'beta_dpo/beta': 0.10047884285449982, 'beta_dpo/loss_margin_mean': -0.007976382970809937, 'beta_dpo/beta_margin_mean': -0.0008351176511496305, 'beta_dpo/beta_margin_std': 0.03574404865503311, 'beta_dpo/beta_margin_grad_mean': -0.500208854675293, 'beta_dpo/beta_margin_grad_std': 0.008933261968195438, 'epoch': 0.01}
+  1%|▋                                                                               | 6/681 [00:16<30:26,  2.71s/it]  1%|▊                                                                               | 7/681 [00:19<29:57,  2.67s/it]                                                                                                                     {'loss': 1.3865, 'grad_norm': 83.6563491821289, 'learning_rate': 4.347826086956521e-08, 'beta_dpo/gap_mean': 6.500491872429848e-05, 'beta_dpo/gap_std': 0.2939686179161072, 'beta_dpo/beta_used_raw': 0.09998422861099243, 'beta_dpo/beta_used': 0.09998422861099243, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5061265826225281, 'logits/rejected': -0.4723086953163147, 'beta_dpo/beta': 0.09998422861099243, 'beta_dpo/loss_margin_mean': -0.009219467639923096, 'beta_dpo/beta_margin_mean': -0.0009349790052510798, 'beta_dpo/beta_margin_std': 0.04061206057667732, 'beta_dpo/beta_margin_grad_mean': -0.5002336502075195, 'beta_dpo/beta_margin_grad_std': 0.01014900952577591, 'epoch': 0.01}
+  1%|▊                                                                               | 7/681 [00:19<29:57,  2.67s/it]  1%|▉                                                                               | 8/681 [00:21<29:27,  2.63s/it]                                                                                                                     {'loss': 1.3836, 'grad_norm': 77.50525665283203, 'learning_rate': 5.0724637681159424e-08, 'beta_dpo/gap_mean': -0.009944056160748005, 'beta_dpo/gap_std': 0.3154027462005615, 'beta_dpo/beta_used_raw': 0.1022939383983612, 'beta_dpo/beta_used': 0.1022939383983612, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5334175825119019, 'logits/rejected': -0.510188102722168, 'beta_dpo/beta': 0.1022939383983612, 'beta_dpo/loss_margin_mean': -0.061917901039123535, 'beta_dpo/beta_margin_mean': -0.006352751050144434, 'beta_dpo/beta_margin_std': 0.042014747858047485, 'beta_dpo/beta_margin_grad_mean': -0.5015852451324463, 'beta_dpo/beta_margin_grad_std': 0.010492443107068539, 'epoch': 0.01}
+  1%|▉                                                                               | 8/681 [00:21<29:27,  2.63s/it]  1%|█                                                                               | 9/681 [00:24<29:49,  2.66s/it]                                                                                                                     {'loss': 1.3895, 'grad_norm': 77.50155639648438, 'learning_rate': 5.797101449275362e-08, 'beta_dpo/gap_mean': -0.005505750421434641, 'beta_dpo/gap_std': 0.34114253520965576, 'beta_dpo/beta_used_raw': 0.09855471551418304, 'beta_dpo/beta_used': 0.09855471551418304, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.523200511932373, 'logits/rejected': -0.478301465511322, 'beta_dpo/beta': 0.09855471551418304, 'beta_dpo/loss_margin_mean': 0.02003002166748047, 'beta_dpo/beta_margin_mean': 0.00194238789845258, 'beta_dpo/beta_margin_std': 0.04742159694433212, 'beta_dpo/beta_margin_grad_mean': -0.49951478838920593, 'beta_dpo/beta_margin_grad_std': 0.011848426423966885, 'epoch': 0.01}
+  1%|█                                                                               | 9/681 [00:24<29:49,  2.66s/it]  1%|█▏                                                                             | 10/681 [00:27<30:14,  2.70s/it]                                                                                                                     {'loss': 1.3878, 'grad_norm': 72.39192962646484, 'learning_rate': 6.521739130434782e-08, 'beta_dpo/gap_mean': -0.010290170088410378, 'beta_dpo/gap_std': 0.3536257743835449, 'beta_dpo/beta_used_raw': 0.0998501181602478, 'beta_dpo/beta_used': 0.0998501181602478, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.518991231918335, 'logits/rejected': -0.4768357276916504, 'beta_dpo/beta': 0.0998501181602478, 'beta_dpo/loss_margin_mean': -0.021320700645446777, 'beta_dpo/beta_margin_mean': -0.002129613421857357, 'beta_dpo/beta_margin_std': 0.04054965451359749, 'beta_dpo/beta_margin_grad_mean': -0.5005317330360413, 'beta_dpo/beta_margin_grad_std': 0.010131197981536388, 'epoch': 0.01}
+  1%|█▏                                                                             | 10/681 [00:27<30:14,  2.70s/it]  2%|█▎                                                                             | 11/681 [00:30<30:46,  2.76s/it]                                                                                                                     {'loss': 1.3833, 'grad_norm': 66.96553802490234, 'learning_rate': 7.246376811594203e-08, 'beta_dpo/gap_mean': -0.004253363702446222, 'beta_dpo/gap_std': 0.35756930708885193, 'beta_dpo/beta_used_raw': 0.10206712037324905, 'beta_dpo/beta_used': 0.10206712037324905, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4826526641845703, 'logits/rejected': -0.4586416780948639, 'beta_dpo/beta': 0.10206712037324905, 'beta_dpo/loss_margin_mean': 0.03583630919456482, 'beta_dpo/beta_margin_mean': 0.003652524435892701, 'beta_dpo/beta_margin_std': 0.03466520085930824, 'beta_dpo/beta_margin_grad_mean': -0.49908754229545593, 'beta_dpo/beta_margin_grad_std': 0.008663208223879337, 'epoch': 0.02}
+  2%|█▎                                                                             | 11/681 [00:30<30:46,  2.76s/it]  2%|█▍                                                                             | 12/681 [00:32<30:23,  2.73s/it]                                                                                                                     {'loss': 1.392, 'grad_norm': 83.22624206542969, 'learning_rate': 7.971014492753623e-08, 'beta_dpo/gap_mean': -0.00683976337313652, 'beta_dpo/gap_std': 0.3720043897628784, 'beta_dpo/beta_used_raw': 0.09693565964698792, 'beta_dpo/beta_used': 0.09693565964698792, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.547247052192688, 'logits/rejected': -0.5113379955291748, 'beta_dpo/beta': 0.09693565964698792, 'beta_dpo/loss_margin_mean': -0.017470553517341614, 'beta_dpo/beta_margin_mean': -0.0017924468265846372, 'beta_dpo/beta_margin_std': 0.042050570249557495, 'beta_dpo/beta_margin_grad_mean': -0.500446617603302, 'beta_dpo/beta_margin_grad_std': 0.01050448976457119, 'epoch': 0.02}
+  2%|█▍                                                                             | 12/681 [00:32<30:23,  2.73s/it]  2%|█▌                                                                             | 13/681 [00:35<30:47,  2.77s/it]                                                                                                                     {'loss': 1.3897, 'grad_norm': 82.04718017578125, 'learning_rate': 8.695652173913042e-08, 'beta_dpo/gap_mean': -0.006056391168385744, 'beta_dpo/gap_std': 0.3698127865791321, 'beta_dpo/beta_used_raw': 0.09837324917316437, 'beta_dpo/beta_used': 0.09837324917316437, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4824892282485962, 'logits/rejected': -0.45439815521240234, 'beta_dpo/beta': 0.09837324917316437, 'beta_dpo/loss_margin_mean': 0.002656310796737671, 'beta_dpo/beta_margin_mean': 0.00025006092619150877, 'beta_dpo/beta_margin_std': 0.03974674642086029, 'beta_dpo/beta_margin_grad_mean': -0.4999392330646515, 'beta_dpo/beta_margin_grad_std': 0.00992752518504858, 'epoch': 0.02}
+  2%|█▌                                                                             | 13/681 [00:35<30:47,  2.77s/it]  2%|█▌                                                                             | 14/681 [00:38<30:15,  2.72s/it]                                                                                                                     {'loss': 1.3877, 'grad_norm': 89.19822692871094, 'learning_rate': 9.420289855072464e-08, 'beta_dpo/gap_mean': -0.0021513975225389004, 'beta_dpo/gap_std': 0.37402260303497314, 'beta_dpo/beta_used_raw': 0.09926562756299973, 'beta_dpo/beta_used': 0.09926562756299973, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47684037685394287, 'logits/rejected': -0.437483549118042, 'beta_dpo/beta': 0.09926562756299973, 'beta_dpo/loss_margin_mean': -0.01792725920677185, 'beta_dpo/beta_margin_mean': -0.001605634461157024, 'beta_dpo/beta_margin_std': 0.03615177050232887, 'beta_dpo/beta_margin_grad_mean': -0.5004010200500488, 'beta_dpo/beta_margin_grad_std': 0.009033882059156895, 'epoch': 0.02}
+  2%|█▌                                                                             | 14/681 [00:38<30:15,  2.72s/it]  2%|█▋                                                                             | 15/681 [00:40<30:06,  2.71s/it]                                                                                                                     {'loss': 1.3806, 'grad_norm': 72.2989501953125, 'learning_rate': 1.0144927536231885e-07, 'beta_dpo/gap_mean': 0.0069586304016411304, 'beta_dpo/gap_std': 0.3670150637626648, 'beta_dpo/beta_used_raw': 0.1028667539358139, 'beta_dpo/beta_used': 0.1028667539358139, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4976166784763336, 'logits/rejected': -0.47907328605651855, 'beta_dpo/beta': 0.1028667539358139, 'beta_dpo/loss_margin_mean': 0.05616268515586853, 'beta_dpo/beta_margin_mean': 0.006086469162255526, 'beta_dpo/beta_margin_std': 0.03645266592502594, 'beta_dpo/beta_margin_grad_mean': -0.49847865104675293, 'beta_dpo/beta_margin_grad_std': 0.009109060280025005, 'epoch': 0.02}
+  2%|█▋                                                                             | 15/681 [00:40<30:06,  2.71s/it]  2%|█▊                                                                             | 16/681 [00:43<29:40,  2.68s/it]                                                                                                                     {'loss': 1.3833, 'grad_norm': 85.27164459228516, 'learning_rate': 1.0869565217391303e-07, 'beta_dpo/gap_mean': 0.01056666485965252, 'beta_dpo/gap_std': 0.369087815284729, 'beta_dpo/beta_used_raw': 0.10129574686288834, 'beta_dpo/beta_used': 0.10129574686288834, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5442918539047241, 'logits/rejected': -0.5051777362823486, 'beta_dpo/beta': 0.10129574686288834, 'beta_dpo/loss_margin_mean': 0.04578801989555359, 'beta_dpo/beta_margin_mean': 0.004635946359485388, 'beta_dpo/beta_margin_std': 0.03721487522125244, 'beta_dpo/beta_margin_grad_mean': -0.4988415837287903, 'beta_dpo/beta_margin_grad_std': 0.009300184436142445, 'epoch': 0.02}
+  2%|█▊                                                                             | 16/681 [00:43<29:40,  2.68s/it]  2%|█▉                                                                             | 17/681 [00:46<29:22,  2.65s/it]                                                                                                                     {'loss': 1.3755, 'grad_norm': 80.40909576416016, 'learning_rate': 1.1594202898550725e-07, 'beta_dpo/gap_mean': 0.023403100669384003, 'beta_dpo/gap_std': 0.37113308906555176, 'beta_dpo/beta_used_raw': 0.10490189492702484, 'beta_dpo/beta_used': 0.10490189492702484, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4828060269355774, 'logits/rejected': -0.44346535205841064, 'beta_dpo/beta': 0.10490189492702484, 'beta_dpo/loss_margin_mean': 0.10013490915298462, 'beta_dpo/beta_margin_mean': 0.010502819903194904, 'beta_dpo/beta_margin_std': 0.039345428347587585, 'beta_dpo/beta_margin_grad_mean': -0.4973750412464142, 'beta_dpo/beta_margin_grad_std': 0.009830176830291748, 'epoch': 0.02}
+  2%|█▉                                                                             | 17/681 [00:46<29:22,  2.65s/it]  3%|██                                                                             | 18/681 [00:48<28:59,  2.62s/it]                                                                                                                     {'loss': 1.3833, 'grad_norm': 82.2762680053711, 'learning_rate': 1.2318840579710146e-07, 'beta_dpo/gap_mean': 0.029124243184924126, 'beta_dpo/gap_std': 0.3635770082473755, 'beta_dpo/beta_used_raw': 0.1001388430595398, 'beta_dpo/beta_used': 0.1001388430595398, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5221867561340332, 'logits/rejected': -0.4699585437774658, 'beta_dpo/beta': 0.1001388430595398, 'beta_dpo/loss_margin_mean': 0.03153112530708313, 'beta_dpo/beta_margin_mean': 0.00319434585981071, 'beta_dpo/beta_margin_std': 0.03238019719719887, 'beta_dpo/beta_margin_grad_mean': -0.4992016553878784, 'beta_dpo/beta_margin_grad_std': 0.008092939853668213, 'epoch': 0.03}
+  3%|██                                                                             | 18/681 [00:48<28:59,  2.62s/it]  3%|██▏                                                                            | 19/681 [00:51<28:54,  2.62s/it]                                                                                                                     {'loss': 1.3788, 'grad_norm': 67.32933807373047, 'learning_rate': 1.3043478260869563e-07, 'beta_dpo/gap_mean': 0.03644995018839836, 'beta_dpo/gap_std': 0.36511197686195374, 'beta_dpo/beta_used_raw': 0.10230091959238052, 'beta_dpo/beta_used': 0.10230091959238052, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49089670181274414, 'logits/rejected': -0.4410245716571808, 'beta_dpo/beta': 0.10230091959238052, 'beta_dpo/loss_margin_mean': 0.09297522902488708, 'beta_dpo/beta_margin_mean': 0.009549921378493309, 'beta_dpo/beta_margin_std': 0.03987620025873184, 'beta_dpo/beta_margin_grad_mean': -0.4976135194301605, 'beta_dpo/beta_margin_grad_std': 0.009962659329175949, 'epoch': 0.03}
+  3%|██▏                                                                            | 19/681 [00:51<28:54,  2.62s/it]  3%|██▎                                                                            | 20/681 [00:53<28:51,  2.62s/it]                                                                                                                     {'loss': 1.3796, 'grad_norm': 77.79698944091797, 'learning_rate': 1.3768115942028986e-07, 'beta_dpo/gap_mean': 0.04330967366695404, 'beta_dpo/gap_std': 0.36020204424858093, 'beta_dpo/beta_used_raw': 0.10144417732954025, 'beta_dpo/beta_used': 0.10144417732954025, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5257374048233032, 'logits/rejected': -0.4667814075946808, 'beta_dpo/beta': 0.10144417732954025, 'beta_dpo/loss_margin_mean': 0.0418030321598053, 'beta_dpo/beta_margin_mean': 0.0042366455309093, 'beta_dpo/beta_margin_std': 0.031295765191316605, 'beta_dpo/beta_margin_grad_mean': -0.49894100427627563, 'beta_dpo/beta_margin_grad_std': 0.007821588777005672, 'epoch': 0.03}
+  3%|██▎                                                                            | 20/681 [00:53<28:51,  2.62s/it]  3%|██▍                                                                            | 21/681 [00:56<28:36,  2.60s/it]                                                                                                                     {'loss': 1.3762, 'grad_norm': 84.59689331054688, 'learning_rate': 1.4492753623188405e-07, 'beta_dpo/gap_mean': 0.052578218281269073, 'beta_dpo/gap_std': 0.3585847020149231, 'beta_dpo/beta_used_raw': 0.10282687842845917, 'beta_dpo/beta_used': 0.10282687842845917, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5015609860420227, 'logits/rejected': -0.4782274663448334, 'beta_dpo/beta': 0.10282687842845917, 'beta_dpo/loss_margin_mean': 0.1178915798664093, 'beta_dpo/beta_margin_mean': 0.012177429161965847, 'beta_dpo/beta_margin_std': 0.04252319782972336, 'beta_dpo/beta_margin_grad_mean': -0.49695706367492676, 'beta_dpo/beta_margin_grad_std': 0.010617760010063648, 'epoch': 0.03}
+  3%|██▍                                                                            | 21/681 [00:56<28:36,  2.60s/it]  3%|██▌                                                                            | 22/681 [00:59<28:59,  2.64s/it]                                                                                                                     {'loss': 1.375, 'grad_norm': 82.02935028076172, 'learning_rate': 1.5217391304347825e-07, 'beta_dpo/gap_mean': 0.07795767486095428, 'beta_dpo/gap_std': 0.37775668501853943, 'beta_dpo/beta_used_raw': 0.1021641194820404, 'beta_dpo/beta_used': 0.1021641194820404, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5076688528060913, 'logits/rejected': -0.46508467197418213, 'beta_dpo/beta': 0.1021641194820404, 'beta_dpo/loss_margin_mean': 0.2064528465270996, 'beta_dpo/beta_margin_mean': 0.021053766831755638, 'beta_dpo/beta_margin_std': 0.04432320222258568, 'beta_dpo/beta_margin_grad_mean': -0.494739294052124, 'beta_dpo/beta_margin_grad_std': 0.011074875481426716, 'epoch': 0.03}
+  3%|██▌                                                                            | 22/681 [00:59<28:59,  2.64s/it]  3%|██▋                                                                            | 23/681 [01:02<30:07,  2.75s/it]                                                                                                                     {'loss': 1.3708, 'grad_norm': 76.44645690917969, 'learning_rate': 1.5942028985507245e-07, 'beta_dpo/gap_mean': 0.10390491783618927, 'beta_dpo/gap_std': 0.3772027790546417, 'beta_dpo/beta_used_raw': 0.10281073302030563, 'beta_dpo/beta_used': 0.10281073302030563, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5184653997421265, 'logits/rejected': -0.4976601004600525, 'beta_dpo/beta': 0.10281073302030563, 'beta_dpo/loss_margin_mean': 0.2033129334449768, 'beta_dpo/beta_margin_mean': 0.02100636623799801, 'beta_dpo/beta_margin_std': 0.03903375566005707, 'beta_dpo/beta_margin_grad_mean': -0.4947512447834015, 'beta_dpo/beta_margin_grad_std': 0.009751598350703716, 'epoch': 0.03}
+  3%|██▋                                                                            | 23/681 [01:02<30:07,  2.75s/it]  4%|██▊                                                                            | 24/681 [01:04<29:58,  2.74s/it]                                                                                                                     {'loss': 1.3656, 'grad_norm': 94.25565338134766, 'learning_rate': 1.6666666666666665e-07, 'beta_dpo/gap_mean': 0.12391284108161926, 'beta_dpo/gap_std': 0.37767690420150757, 'beta_dpo/beta_used_raw': 0.10454396903514862, 'beta_dpo/beta_used': 0.10454396903514862, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5424538254737854, 'logits/rejected': -0.5254075527191162, 'beta_dpo/beta': 0.10454396903514862, 'beta_dpo/loss_margin_mean': 0.2502744197845459, 'beta_dpo/beta_margin_mean': 0.026394186541438103, 'beta_dpo/beta_margin_std': 0.04219713807106018, 'beta_dpo/beta_margin_grad_mean': -0.4934062063694, 'beta_dpo/beta_margin_grad_std': 0.010538320057094097, 'epoch': 0.04}
+  4%|██▊                                                                            | 24/681 [01:04<29:58,  2.74s/it]  4%|██▉                                                                            | 25/681 [01:07<30:00,  2.74s/it]                                                                                                                     {'loss': 1.37, 'grad_norm': 75.07634735107422, 'learning_rate': 1.7391304347826085e-07, 'beta_dpo/gap_mean': 0.14912059903144836, 'beta_dpo/gap_std': 0.3832852840423584, 'beta_dpo/beta_used_raw': 0.100839763879776, 'beta_dpo/beta_used': 0.100839763879776, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4918757677078247, 'logits/rejected': -0.46183332800865173, 'beta_dpo/beta': 0.100839763879776, 'beta_dpo/loss_margin_mean': 0.22906917333602905, 'beta_dpo/beta_margin_mean': 0.02309180237352848, 'beta_dpo/beta_margin_std': 0.03954963758587837, 'beta_dpo/beta_margin_grad_mean': -0.4942309856414795, 'beta_dpo/beta_margin_grad_std': 0.009877659380435944, 'epoch': 0.04}
+  4%|██▉                                                                            | 25/681 [01:07<30:00,  2.74s/it]  4%|███                                                                            | 26/681 [01:10<28:35,  2.62s/it]                                                                                                                     {'loss': 1.3654, 'grad_norm': 78.68896484375, 'learning_rate': 1.8115942028985507e-07, 'beta_dpo/gap_mean': 0.1847640573978424, 'beta_dpo/gap_std': 0.4011450409889221, 'beta_dpo/beta_used_raw': 0.10145638883113861, 'beta_dpo/beta_used': 0.10145638883113861, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5504664182662964, 'logits/rejected': -0.5192441344261169, 'beta_dpo/beta': 0.10145638883113861, 'beta_dpo/loss_margin_mean': 0.3683029115200043, 'beta_dpo/beta_margin_mean': 0.037368275225162506, 'beta_dpo/beta_margin_std': 0.050109487026929855, 'beta_dpo/beta_margin_grad_mean': -0.4906671941280365, 'beta_dpo/beta_margin_grad_std': 0.012507390230894089, 'epoch': 0.04}
+  4%|███                                                                            | 26/681 [01:10<28:35,  2.62s/it]  4%|███▏                                                                           | 27/681 [01:12<28:12,  2.59s/it]                                                                                                                     {'loss': 1.3563, 'grad_norm': 87.7347183227539, 'learning_rate': 1.8840579710144927e-07, 'beta_dpo/gap_mean': 0.23974978923797607, 'beta_dpo/gap_std': 0.42792779207229614, 'beta_dpo/beta_used_raw': 0.10302956402301788, 'beta_dpo/beta_used': 0.10302956402301788, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5187373161315918, 'logits/rejected': -0.4824272394180298, 'beta_dpo/beta': 0.10302956402301788, 'beta_dpo/loss_margin_mean': 0.47268885374069214, 'beta_dpo/beta_margin_mean': 0.049370817840099335, 'beta_dpo/beta_margin_std': 0.057142678648233414, 'beta_dpo/beta_margin_grad_mean': -0.4876747727394104, 'beta_dpo/beta_margin_grad_std': 0.01424187608063221, 'epoch': 0.04}
+  4%|███▏                                                                           | 27/681 [01:12<28:12,  2.59s/it]  4%|███▏                                                                           | 28/681 [01:15<28:22,  2.61s/it]                                                                                                                     {'loss': 1.3579, 'grad_norm': 75.64714050292969, 'learning_rate': 1.9565217391304347e-07, 'beta_dpo/gap_mean': 0.2491932511329651, 'beta_dpo/gap_std': 0.4498485326766968, 'beta_dpo/beta_used_raw': 0.102115698158741, 'beta_dpo/beta_used': 0.102115698158741, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5084043741226196, 'logits/rejected': -0.4534956216812134, 'beta_dpo/beta': 0.102115698158741, 'beta_dpo/loss_margin_mean': 0.295854777097702, 'beta_dpo/beta_margin_mean': 0.03022361919283867, 'beta_dpo/beta_margin_std': 0.056595128029584885, 'beta_dpo/beta_margin_grad_mean': -0.49245062470436096, 'beta_dpo/beta_margin_grad_std': 0.014135321602225304, 'epoch': 0.04}
+  4%|███▏                                                                           | 28/681 [01:15<28:22,  2.61s/it]  4%|███▎                                                                           | 29/681 [01:17<27:12,  2.50s/it]                                                                                                                     {'loss': 1.346, 'grad_norm': 94.25686645507812, 'learning_rate': 2.028985507246377e-07, 'beta_dpo/gap_mean': 0.29277026653289795, 'beta_dpo/gap_std': 0.47807806730270386, 'beta_dpo/beta_used_raw': 0.10585251450538635, 'beta_dpo/beta_used': 0.10585251450538635, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5720121264457703, 'logits/rejected': -0.5272256731987, 'beta_dpo/beta': 0.10585251450538635, 'beta_dpo/loss_margin_mean': 0.4953559637069702, 'beta_dpo/beta_margin_mean': 0.05249761790037155, 'beta_dpo/beta_margin_std': 0.062127504497766495, 'beta_dpo/beta_margin_grad_mean': -0.4868943691253662, 'beta_dpo/beta_margin_grad_std': 0.015499315224587917, 'epoch': 0.04}
+  4%|███▎                                                                           | 29/681 [01:17<27:12,  2.50s/it]  4%|███▍                                                                           | 30/681 [01:20<28:05,  2.59s/it]                                                                                                                     {'loss': 1.3372, 'grad_norm': 91.32884979248047, 'learning_rate': 2.1014492753623187e-07, 'beta_dpo/gap_mean': 0.3511636555194855, 'beta_dpo/gap_std': 0.5038948059082031, 'beta_dpo/beta_used_raw': 0.10716623067855835, 'beta_dpo/beta_used': 0.10716623067855835, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4944499731063843, 'logits/rejected': -0.4637511968612671, 'beta_dpo/beta': 0.10716623067855835, 'beta_dpo/loss_margin_mean': 0.6101883053779602, 'beta_dpo/beta_margin_mean': 0.06553145498037338, 'beta_dpo/beta_margin_std': 0.06532347202301025, 'beta_dpo/beta_margin_grad_mean': -0.48364534974098206, 'beta_dpo/beta_margin_grad_std': 0.016273001208901405, 'epoch': 0.04}
+  4%|███▍                                                                           | 30/681 [01:20<28:05,  2.59s/it]  5%|███▌                                                                           | 31/681 [01:22<28:28,  2.63s/it]                                                                                                                     {'loss': 1.3554, 'grad_norm': 68.29032135009766, 'learning_rate': 2.1739130434782607e-07, 'beta_dpo/gap_mean': 0.36561119556427, 'beta_dpo/gap_std': 0.5108226537704468, 'beta_dpo/beta_used_raw': 0.09747521579265594, 'beta_dpo/beta_used': 0.09747521579265594, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5044275522232056, 'logits/rejected': -0.4597151279449463, 'beta_dpo/beta': 0.09747521579265594, 'beta_dpo/loss_margin_mean': 0.4201761782169342, 'beta_dpo/beta_margin_mean': 0.041009921580553055, 'beta_dpo/beta_margin_std': 0.05886054411530495, 'beta_dpo/beta_margin_grad_mean': -0.48976314067840576, 'beta_dpo/beta_margin_grad_std': 0.014673292636871338, 'epoch': 0.05}
+  5%|███▌                                                                           | 31/681 [01:22<28:28,  2.63s/it]  5%|███▋                                                                           | 32/681 [01:25<29:03,  2.69s/it]                                                                                                                     {'loss': 1.338, 'grad_norm': 78.29996490478516, 'learning_rate': 2.2463768115942027e-07, 'beta_dpo/gap_mean': 0.4219781458377838, 'beta_dpo/gap_std': 0.56684410572052, 'beta_dpo/beta_used_raw': 0.10314959287643433, 'beta_dpo/beta_used': 0.10314959287643433, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5184359550476074, 'logits/rejected': -0.4776637554168701, 'beta_dpo/beta': 0.10314959287643433, 'beta_dpo/loss_margin_mean': 0.7036821842193604, 'beta_dpo/beta_margin_mean': 0.07229103147983551, 'beta_dpo/beta_margin_std': 0.08329294621944427, 'beta_dpo/beta_margin_grad_mean': -0.4819798171520233, 'beta_dpo/beta_margin_grad_std': 0.020708369091153145, 'epoch': 0.05}
+  5%|███▋                                                                           | 32/681 [01:25<29:03,  2.69s/it]  5%|███▊                                                                           | 33/681 [01:28<28:46,  2.66s/it]                                                                                                                     {'loss': 1.3384, 'grad_norm': 75.79508209228516, 'learning_rate': 2.318840579710145e-07, 'beta_dpo/gap_mean': 0.4387624263763428, 'beta_dpo/gap_std': 0.5823417901992798, 'beta_dpo/beta_used_raw': 0.10217119753360748, 'beta_dpo/beta_used': 0.10217119753360748, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47731277346611023, 'logits/rejected': -0.4508548974990845, 'beta_dpo/beta': 0.10217119753360748, 'beta_dpo/loss_margin_mean': 0.5102719664573669, 'beta_dpo/beta_margin_mean': 0.05285169929265976, 'beta_dpo/beta_margin_std': 0.0644962415099144, 'beta_dpo/beta_margin_grad_mean': -0.48680615425109863, 'beta_dpo/beta_margin_grad_std': 0.016086775809526443, 'epoch': 0.05}
+  5%|███▊                                                                           | 33/681 [01:28<28:46,  2.66s/it]  5%|███▉                                                                           | 34/681 [01:31<28:44,  2.67s/it]                                                                                                                     {'loss': 1.3401, 'grad_norm': 66.3543930053711, 'learning_rate': 2.391304347826087e-07, 'beta_dpo/gap_mean': 0.48840245604515076, 'beta_dpo/gap_std': 0.6152428388595581, 'beta_dpo/beta_used_raw': 0.09928236901760101, 'beta_dpo/beta_used': 0.09928236901760101, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5100936889648438, 'logits/rejected': -0.4925019145011902, 'beta_dpo/beta': 0.09928236901760101, 'beta_dpo/loss_margin_mean': 0.7295181751251221, 'beta_dpo/beta_margin_mean': 0.07247772812843323, 'beta_dpo/beta_margin_std': 0.07699740678071976, 'beta_dpo/beta_margin_grad_mean': -0.4819219708442688, 'beta_dpo/beta_margin_grad_std': 0.01917845755815506, 'epoch': 0.05}
+  5%|███▉                                                                           | 34/681 [01:31<28:44,  2.67s/it]  5%|████                                                                           | 35/681 [01:33<28:52,  2.68s/it]                                                                                                                     {'loss': 1.3114, 'grad_norm': 77.56873321533203, 'learning_rate': 2.463768115942029e-07, 'beta_dpo/gap_mean': 0.5772824883460999, 'beta_dpo/gap_std': 0.6622889637947083, 'beta_dpo/beta_used_raw': 0.10785353183746338, 'beta_dpo/beta_used': 0.10785353183746338, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5331075191497803, 'logits/rejected': -0.49618980288505554, 'beta_dpo/beta': 0.10785353183746338, 'beta_dpo/loss_margin_mean': 0.9983453750610352, 'beta_dpo/beta_margin_mean': 0.10804824531078339, 'beta_dpo/beta_margin_std': 0.10100562125444412, 'beta_dpo/beta_margin_grad_mean': -0.47311800718307495, 'beta_dpo/beta_margin_grad_std': 0.02489115111529827, 'epoch': 0.05}
+  5%|████                                                                           | 35/681 [01:33<28:52,  2.68s/it]  5%|████▏                                                                          | 36/681 [01:36<28:52,  2.69s/it]                                                                                                                     {'loss': 1.3121, 'grad_norm': 73.26063537597656, 'learning_rate': 2.536231884057971e-07, 'beta_dpo/gap_mean': 0.6375015377998352, 'beta_dpo/gap_std': 0.7486386299133301, 'beta_dpo/beta_used_raw': 0.10545908659696579, 'beta_dpo/beta_used': 0.10545908659696579, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5830014944076538, 'logits/rejected': -0.5479526519775391, 'beta_dpo/beta': 0.10545908659696579, 'beta_dpo/loss_margin_mean': 0.9657546281814575, 'beta_dpo/beta_margin_mean': 0.10363934934139252, 'beta_dpo/beta_margin_std': 0.12403807044029236, 'beta_dpo/beta_margin_grad_mean': -0.4742385447025299, 'beta_dpo/beta_margin_grad_std': 0.030729172751307487, 'epoch': 0.05}
+  5%|████▏                                                                          | 36/681 [01:36<28:52,  2.69s/it]  5%|████▎                                                                          | 37/681 [01:39<28:40,  2.67s/it]                                                                                                                     {'loss': 1.3286, 'grad_norm': 50.44397735595703, 'learning_rate': 2.6086956521739126e-07, 'beta_dpo/gap_mean': 0.7214508056640625, 'beta_dpo/gap_std': 0.8505280017852783, 'beta_dpo/beta_used_raw': 0.0942203551530838, 'beta_dpo/beta_used': 0.0942203551530838, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5012315511703491, 'logits/rejected': -0.45690277218818665, 'beta_dpo/beta': 0.0942203551530838, 'beta_dpo/loss_margin_mean': 0.9462437629699707, 'beta_dpo/beta_margin_mean': 0.09107129275798798, 'beta_dpo/beta_margin_std': 0.1248544380068779, 'beta_dpo/beta_margin_grad_mean': -0.47738873958587646, 'beta_dpo/beta_margin_grad_std': 0.03081784024834633, 'epoch': 0.05}
+  5%|████▎                                                                          | 37/681 [01:39<28:40,  2.67s/it]  6%|████▍                                                                          | 38/681 [01:41<27:27,  2.56s/it]                                                                                                                     {'loss': 1.2998, 'grad_norm': 67.5627212524414, 'learning_rate': 2.681159420289855e-07, 'beta_dpo/gap_mean': 0.7879455089569092, 'beta_dpo/gap_std': 0.9812790155410767, 'beta_dpo/beta_used_raw': 0.1041734591126442, 'beta_dpo/beta_used': 0.1041734591126442, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5276659727096558, 'logits/rejected': -0.4949561655521393, 'beta_dpo/beta': 0.1041734591126442, 'beta_dpo/loss_margin_mean': 1.224595069885254, 'beta_dpo/beta_margin_mean': 0.12841160595417023, 'beta_dpo/beta_margin_std': 0.16240736842155457, 'beta_dpo/beta_margin_grad_mean': -0.4682784676551819, 'beta_dpo/beta_margin_grad_std': 0.03961404040455818, 'epoch': 0.06}
+  6%|████▍                                                                          | 38/681 [01:41<27:27,  2.56s/it]  6%|████▌                                                                          | 39/681 [01:43<27:21,  2.56s/it]                                                                                                                     {'loss': 1.275, 'grad_norm': 74.21395874023438, 'learning_rate': 2.753623188405797e-07, 'beta_dpo/gap_mean': 0.9118002653121948, 'beta_dpo/gap_std': 1.0534446239471436, 'beta_dpo/beta_used_raw': 0.10857867449522018, 'beta_dpo/beta_used': 0.10857867449522018, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5588313341140747, 'logits/rejected': -0.5193623304367065, 'beta_dpo/beta': 0.10857867449522018, 'beta_dpo/loss_margin_mean': 1.4260352849960327, 'beta_dpo/beta_margin_mean': 0.15660372376441956, 'beta_dpo/beta_margin_std': 0.15102945268154144, 'beta_dpo/beta_margin_grad_mean': -0.46116903424263, 'beta_dpo/beta_margin_grad_std': 0.03715595230460167, 'epoch': 0.06}
+  6%|████▌                                                                          | 39/681 [01:43<27:21,  2.56s/it]  6%|████▋                                                                          | 40/681 [01:46<27:48,  2.60s/it]                                                                                                                     {'loss': 1.2931, 'grad_norm': 55.91511154174805, 'learning_rate': 2.8260869565217386e-07, 'beta_dpo/gap_mean': 0.9838204383850098, 'beta_dpo/gap_std': 1.121214509010315, 'beta_dpo/beta_used_raw': 0.0998622328042984, 'beta_dpo/beta_used': 0.0998622328042984, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4998742341995239, 'logits/rejected': -0.46878963708877563, 'beta_dpo/beta': 0.0998622328042984, 'beta_dpo/loss_margin_mean': 1.3697092533111572, 'beta_dpo/beta_margin_mean': 0.13751423358917236, 'beta_dpo/beta_margin_std': 0.16336165368556976, 'beta_dpo/beta_margin_grad_mean': -0.4660206437110901, 'beta_dpo/beta_margin_grad_std': 0.03987602889537811, 'epoch': 0.06}
+  6%|████▋                                                                          | 40/681 [01:46<27:48,  2.60s/it]  6%|████▊                                                                          | 41/681 [01:49<27:38,  2.59s/it]                                                                                                                     {'loss': 1.2849, 'grad_norm': 59.53895950317383, 'learning_rate': 2.898550724637681e-07, 'beta_dpo/gap_mean': 1.111755609512329, 'beta_dpo/gap_std': 1.2354657649993896, 'beta_dpo/beta_used_raw': 0.09814733266830444, 'beta_dpo/beta_used': 0.09814733266830444, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5415744781494141, 'logits/rejected': -0.5051206350326538, 'beta_dpo/beta': 0.09814733266830444, 'beta_dpo/loss_margin_mean': 1.6996898651123047, 'beta_dpo/beta_margin_mean': 0.1658371239900589, 'beta_dpo/beta_margin_std': 0.16969500482082367, 'beta_dpo/beta_margin_grad_mean': -0.4590160846710205, 'beta_dpo/beta_margin_grad_std': 0.04150310531258583, 'epoch': 0.06}
+  6%|████▊                                                                          | 41/681 [01:49<27:38,  2.59s/it]  6%|████▊                                                                          | 42/681 [01:51<27:25,  2.58s/it]                                                                                                                     {'loss': 1.2274, 'grad_norm': 74.77738189697266, 'learning_rate': 2.971014492753623e-07, 'beta_dpo/gap_mean': 1.3095552921295166, 'beta_dpo/gap_std': 1.4133354425430298, 'beta_dpo/beta_used_raw': 0.11233452707529068, 'beta_dpo/beta_used': 0.11233452707529068, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5276546478271484, 'logits/rejected': -0.4807955324649811, 'beta_dpo/beta': 0.11233452707529068, 'beta_dpo/loss_margin_mean': 2.2716450691223145, 'beta_dpo/beta_margin_mean': 0.25520431995391846, 'beta_dpo/beta_margin_std': 0.23295927047729492, 'beta_dpo/beta_margin_grad_mean': -0.43761613965034485, 'beta_dpo/beta_margin_grad_std': 0.055440664291381836, 'epoch': 0.06}
+  6%|████▊                                                                          | 42/681 [01:51<27:25,  2.58s/it]  6%|████▉                                                                          | 43/681 [01:54<27:27,  2.58s/it]                                                                                                                     {'loss': 1.1947, 'grad_norm': 79.2459487915039, 'learning_rate': 3.043478260869565e-07, 'beta_dpo/gap_mean': 1.495275855064392, 'beta_dpo/gap_std': 1.494248390197754, 'beta_dpo/beta_used_raw': 0.11648497730493546, 'beta_dpo/beta_used': 0.11648497730493546, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5580309629440308, 'logits/rejected': -0.5340878963470459, 'beta_dpo/beta': 0.11648497730493546, 'beta_dpo/loss_margin_mean': 2.2226815223693848, 'beta_dpo/beta_margin_mean': 0.2601800560951233, 'beta_dpo/beta_margin_std': 0.2120179980993271, 'beta_dpo/beta_margin_grad_mean': -0.4362444281578064, 'beta_dpo/beta_margin_grad_std': 0.05007302016019821, 'epoch': 0.06}
+  6%|████▉                                                                          | 43/681 [01:54<27:27,  2.58s/it]  6%|█████                                                                          | 44/681 [01:57<27:52,  2.63s/it]                                                                                                                     {'loss': 1.1951, 'grad_norm': 80.41355895996094, 'learning_rate': 3.115942028985507e-07, 'beta_dpo/gap_mean': 1.653472900390625, 'beta_dpo/gap_std': 1.5553144216537476, 'beta_dpo/beta_used_raw': 0.11155369877815247, 'beta_dpo/beta_used': 0.11155369877815247, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47205644845962524, 'logits/rejected': -0.45171642303466797, 'beta_dpo/beta': 0.11155369877815247, 'beta_dpo/loss_margin_mean': 2.398895740509033, 'beta_dpo/beta_margin_mean': 0.2672099471092224, 'beta_dpo/beta_margin_std': 0.20892754197120667, 'beta_dpo/beta_margin_grad_mean': -0.4344336986541748, 'beta_dpo/beta_margin_grad_std': 0.05017215758562088, 'epoch': 0.06}
+  6%|█████                                                                          | 44/681 [01:57<27:52,  2.63s/it]  7%|█████▏                                                                         | 45/681 [01:59<27:51,  2.63s/it]                                                                                                                     {'loss': 1.2831, 'grad_norm': 47.4119987487793, 'learning_rate': 3.188405797101449e-07, 'beta_dpo/gap_mean': 1.7186641693115234, 'beta_dpo/gap_std': 1.6547086238861084, 'beta_dpo/beta_used_raw': 0.07954459637403488, 'beta_dpo/beta_used': 0.07954459637403488, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45731085538864136, 'logits/rejected': -0.4441610276699066, 'beta_dpo/beta': 0.07954459637403488, 'beta_dpo/loss_margin_mean': 1.9536571502685547, 'beta_dpo/beta_margin_mean': 0.15512201189994812, 'beta_dpo/beta_margin_std': 0.17768782377243042, 'beta_dpo/beta_margin_grad_mean': -0.4617185890674591, 'beta_dpo/beta_margin_grad_std': 0.043333351612091064, 'epoch': 0.07}
+  7%|█████▏                                                                         | 45/681 [01:59<27:51,  2.63s/it]  7%|█████▎                                                                         | 46/681 [02:02<28:16,  2.67s/it]                                                                                                                     {'loss': 1.244, 'grad_norm': 66.04317474365234, 'learning_rate': 3.260869565217391e-07, 'beta_dpo/gap_mean': 1.8407939672470093, 'beta_dpo/gap_std': 1.877316951751709, 'beta_dpo/beta_used_raw': 0.08992807567119598, 'beta_dpo/beta_used': 0.08992807567119598, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.517339289188385, 'logits/rejected': -0.46569010615348816, 'beta_dpo/beta': 0.08992807567119598, 'beta_dpo/loss_margin_mean': 2.509418249130249, 'beta_dpo/beta_margin_mean': 0.22959379851818085, 'beta_dpo/beta_margin_std': 0.2589755356311798, 'beta_dpo/beta_margin_grad_mean': -0.44419437646865845, 'beta_dpo/beta_margin_grad_std': 0.060576457530260086, 'epoch': 0.07}
+  7%|█████▎                                                                         | 46/681 [02:02<28:16,  2.67s/it]  7%|█████▍                                                                         | 47/681 [02:05<28:13,  2.67s/it]                                                                                                                     {'loss': 1.1832, 'grad_norm': 67.16490173339844, 'learning_rate': 3.333333333333333e-07, 'beta_dpo/gap_mean': 1.97328519821167, 'beta_dpo/gap_std': 1.9843567609786987, 'beta_dpo/beta_used_raw': 0.10393651574850082, 'beta_dpo/beta_used': 0.10393651574850082, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5952492952346802, 'logits/rejected': -0.5439423322677612, 'beta_dpo/beta': 0.10393651574850082, 'beta_dpo/loss_margin_mean': 2.603851795196533, 'beta_dpo/beta_margin_mean': 0.28237393498420715, 'beta_dpo/beta_margin_std': 0.2598910629749298, 'beta_dpo/beta_margin_grad_mean': -0.43122005462646484, 'beta_dpo/beta_margin_grad_std': 0.062102172523736954, 'epoch': 0.07}
+  7%|█████▍                                                                         | 47/681 [02:05<28:13,  2.67s/it]  7%|█████▌                                                                         | 48/681 [02:08<28:49,  2.73s/it]                                                                                                                     {'loss': 1.1987, 'grad_norm': 78.59500122070312, 'learning_rate': 3.4057971014492755e-07, 'beta_dpo/gap_mean': 2.1250531673431396, 'beta_dpo/gap_std': 2.0948853492736816, 'beta_dpo/beta_used_raw': 0.09790638089179993, 'beta_dpo/beta_used': 0.09790638089179993, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5685693025588989, 'logits/rejected': -0.5092687606811523, 'beta_dpo/beta': 0.09790638089179993, 'beta_dpo/loss_margin_mean': 2.544447422027588, 'beta_dpo/beta_margin_mean': 0.2532716393470764, 'beta_dpo/beta_margin_std': 0.272605299949646, 'beta_dpo/beta_margin_grad_mean': -0.43831878900527954, 'beta_dpo/beta_margin_grad_std': 0.06469718366861343, 'epoch': 0.07}
+  7%|█████▌                                                                         | 48/681 [02:08<28:49,  2.73s/it]  7%|█████▋                                                                         | 49/681 [02:10<28:10,  2.67s/it]                                                                                                                     {'loss': 1.1095, 'grad_norm': 240.3484344482422, 'learning_rate': 3.478260869565217e-07, 'beta_dpo/gap_mean': 2.2471675872802734, 'beta_dpo/gap_std': 2.2004098892211914, 'beta_dpo/beta_used_raw': 0.11987863481044769, 'beta_dpo/beta_used': 0.11987863481044769, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5591256618499756, 'logits/rejected': -0.5024401545524597, 'beta_dpo/beta': 0.11987863481044769, 'beta_dpo/loss_margin_mean': 3.125662088394165, 'beta_dpo/beta_margin_mean': 0.3685282766819, 'beta_dpo/beta_margin_std': 0.3620261251926422, 'beta_dpo/beta_margin_grad_mean': -0.41220971941947937, 'beta_dpo/beta_margin_grad_std': 0.08246695250272751, 'epoch': 0.07}
+  7%|█████▋                                                                         | 49/681 [02:10<28:10,  2.67s/it]  7%|█████▊                                                                         | 50/681 [02:13<28:05,  2.67s/it]                                                                                                                     {'loss': 1.1672, 'grad_norm': 64.82975769042969, 'learning_rate': 3.5507246376811595e-07, 'beta_dpo/gap_mean': 2.4781899452209473, 'beta_dpo/gap_std': 2.4213905334472656, 'beta_dpo/beta_used_raw': 0.10016916692256927, 'beta_dpo/beta_used': 0.10016916692256927, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5334613919258118, 'logits/rejected': -0.497406542301178, 'beta_dpo/beta': 0.10016916692256927, 'beta_dpo/loss_margin_mean': 3.3676936626434326, 'beta_dpo/beta_margin_mean': 0.3364598751068115, 'beta_dpo/beta_margin_std': 0.32345935702323914, 'beta_dpo/beta_margin_grad_mean': -0.4190990924835205, 'beta_dpo/beta_margin_grad_std': 0.07547645270824432, 'epoch': 0.07}
+  7%|█████▊                                                                         | 50/681 [02:13<28:05,  2.67s/it]  7%|█████▉                                                                         | 51/681 [02:15<28:06,  2.68s/it]                                                                                                                     {'loss': 1.2592, 'grad_norm': 36.31479263305664, 'learning_rate': 3.6231884057971015e-07, 'beta_dpo/gap_mean': 2.662703275680542, 'beta_dpo/gap_std': 2.715353012084961, 'beta_dpo/beta_used_raw': 0.0657687559723854, 'beta_dpo/beta_used': 0.0657687559723854, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5016952753067017, 'logits/rejected': -0.4681543707847595, 'beta_dpo/beta': 0.0657687559723854, 'beta_dpo/loss_margin_mean': 3.3309483528137207, 'beta_dpo/beta_margin_mean': 0.22254019975662231, 'beta_dpo/beta_margin_std': 0.2765715718269348, 'beta_dpo/beta_margin_grad_mean': -0.44602659344673157, 'beta_dpo/beta_margin_grad_std': 0.06567390263080597, 'epoch': 0.07}
+  7%|█████▉                                                                         | 51/681 [02:15<28:06,  2.68s/it]  8%|██████                                                                         | 52/681 [02:18<27:25,  2.62s/it]                                                                                                                     {'loss': 0.9776, 'grad_norm': 85.15430450439453, 'learning_rate': 3.695652173913043e-07, 'beta_dpo/gap_mean': 3.020768404006958, 'beta_dpo/gap_std': 2.9662249088287354, 'beta_dpo/beta_used_raw': 0.13919858634471893, 'beta_dpo/beta_used': 0.13919858634471893, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5425816774368286, 'logits/rejected': -0.4867020845413208, 'beta_dpo/beta': 0.13919858634471893, 'beta_dpo/loss_margin_mean': 5.1557536125183105, 'beta_dpo/beta_margin_mean': 0.7171680927276611, 'beta_dpo/beta_margin_std': 0.5753344297409058, 'beta_dpo/beta_margin_grad_mean': -0.34051814675331116, 'beta_dpo/beta_margin_grad_std': 0.11514287441968918, 'epoch': 0.08}
+  8%|██████                                                                         | 52/681 [02:18<27:25,  2.62s/it]  8%|██████▏                                                                        | 53/681 [02:20<27:17,  2.61s/it]                                                                                                                     {'loss': 1.0761, 'grad_norm': 66.78472137451172, 'learning_rate': 3.7681159420289855e-07, 'beta_dpo/gap_mean': 3.373033046722412, 'beta_dpo/gap_std': 3.254366874694824, 'beta_dpo/beta_used_raw': 0.10637001693248749, 'beta_dpo/beta_used': 0.10637001693248749, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5930138826370239, 'logits/rejected': -0.5710781812667847, 'beta_dpo/beta': 0.10637001693248749, 'beta_dpo/loss_margin_mean': 5.15134334564209, 'beta_dpo/beta_margin_mean': 0.5370194315910339, 'beta_dpo/beta_margin_std': 0.5486578345298767, 'beta_dpo/beta_margin_grad_mean': -0.3794803321361542, 'beta_dpo/beta_margin_grad_std': 0.10878144204616547, 'epoch': 0.08}
+  8%|██████▏                                                                        | 53/681 [02:21<27:17,  2.61s/it]  8%|██████▎                                                                        | 54/681 [02:23<26:29,  2.53s/it]                                                                                                                     {'loss': 1.0957, 'grad_norm': 54.912174224853516, 'learning_rate': 3.8405797101449274e-07, 'beta_dpo/gap_mean': 3.6533608436584473, 'beta_dpo/gap_std': 3.5544323921203613, 'beta_dpo/beta_used_raw': 0.09235785901546478, 'beta_dpo/beta_used': 0.09235785901546478, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5769028663635254, 'logits/rejected': -0.5225714445114136, 'beta_dpo/beta': 0.09235785901546478, 'beta_dpo/loss_margin_mean': 4.466633319854736, 'beta_dpo/beta_margin_mean': 0.42590391635894775, 'beta_dpo/beta_margin_std': 0.46513980627059937, 'beta_dpo/beta_margin_grad_mean': -0.4021127223968506, 'beta_dpo/beta_margin_grad_std': 0.09637561440467834, 'epoch': 0.08}
+  8%|██████▎                                                                        | 54/681 [02:23<26:29,  2.53s/it]  8%|██████▍                                                                        | 55/681 [02:25<25:35,  2.45s/it]                                                                                                                     {'loss': 0.9505, 'grad_norm': 70.0872573852539, 'learning_rate': 3.9130434782608694e-07, 'beta_dpo/gap_mean': 3.942603826522827, 'beta_dpo/gap_std': 3.9598231315612793, 'beta_dpo/beta_used_raw': 0.12684877216815948, 'beta_dpo/beta_used': 0.12684877216815948, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6278643608093262, 'logits/rejected': -0.5644968748092651, 'beta_dpo/beta': 0.12684877216815948, 'beta_dpo/loss_margin_mean': 5.50035285949707, 'beta_dpo/beta_margin_mean': 0.690856397151947, 'beta_dpo/beta_margin_std': 0.7624755501747131, 'beta_dpo/beta_margin_grad_mean': -0.3536130487918854, 'beta_dpo/beta_margin_grad_std': 0.14455373585224152, 'epoch': 0.08}
+  8%|██████▍                                                                        | 55/681 [02:25<25:35,  2.45s/it]  8%|██████▍                                                                        | 56/681 [02:28<26:29,  2.54s/it]                                                                                                                     {'loss': 1.0989, 'grad_norm': 50.04378128051758, 'learning_rate': 3.9855072463768114e-07, 'beta_dpo/gap_mean': 4.207155227661133, 'beta_dpo/gap_std': 4.369948387145996, 'beta_dpo/beta_used_raw': 0.08802211284637451, 'beta_dpo/beta_used': 0.08802211284637451, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6108717918395996, 'logits/rejected': -0.5681912899017334, 'beta_dpo/beta': 0.08802211284637451, 'beta_dpo/loss_margin_mean': 5.1305742263793945, 'beta_dpo/beta_margin_mean': 0.45057377219200134, 'beta_dpo/beta_margin_std': 0.5337446928024292, 'beta_dpo/beta_margin_grad_mean': -0.39712223410606384, 'beta_dpo/beta_margin_grad_std': 0.1159137487411499, 'epoch': 0.08}
+  8%|██████▍                                                                        | 56/681 [02:28<26:29,  2.54s/it]  8%|██████▌                                                                        | 57/681 [02:30<26:17,  2.53s/it]                                                                                                                     {'loss': 0.8215, 'grad_norm': 76.4854736328125, 'learning_rate': 4.057971014492754e-07, 'beta_dpo/gap_mean': 4.442320823669434, 'beta_dpo/gap_std': 4.536768436431885, 'beta_dpo/beta_used_raw': 0.151127427816391, 'beta_dpo/beta_used': 0.151127427816391, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5923542976379395, 'logits/rejected': -0.5654958486557007, 'beta_dpo/beta': 0.151127427816391, 'beta_dpo/loss_margin_mean': 5.748650074005127, 'beta_dpo/beta_margin_mean': 0.8648303747177124, 'beta_dpo/beta_margin_std': 0.7930364012718201, 'beta_dpo/beta_margin_grad_mean': -0.31904980540275574, 'beta_dpo/beta_margin_grad_std': 0.14913946390151978, 'epoch': 0.08}
+  8%|██████▌                                                                        | 57/681 [02:30<26:17,  2.53s/it]  9%|██████▋                                                                        | 58/681 [02:33<26:35,  2.56s/it]                                                                                                                     {'loss': 1.0303, 'grad_norm': 63.09685134887695, 'learning_rate': 4.1304347826086954e-07, 'beta_dpo/gap_mean': 4.803388595581055, 'beta_dpo/gap_std': 4.8988494873046875, 'beta_dpo/beta_used_raw': 0.09416334331035614, 'beta_dpo/beta_used': 0.09416334331035614, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.595874547958374, 'logits/rejected': -0.5206152200698853, 'beta_dpo/beta': 0.09416334331035614, 'beta_dpo/loss_margin_mean': 6.5755534172058105, 'beta_dpo/beta_margin_mean': 0.6299749612808228, 'beta_dpo/beta_margin_std': 0.6659680008888245, 'beta_dpo/beta_margin_grad_mean': -0.3633388876914978, 'beta_dpo/beta_margin_grad_std': 0.13083474338054657, 'epoch': 0.09}
+  9%|██████▋                                                                        | 58/681 [02:33<26:35,  2.56s/it]  9%|██████▊                                                                        | 59/681 [02:36<26:36,  2.57s/it]                                                                                                                     {'loss': 0.9537, 'grad_norm': 60.62688064575195, 'learning_rate': 4.2028985507246374e-07, 'beta_dpo/gap_mean': 5.30738639831543, 'beta_dpo/gap_std': 5.2926130294799805, 'beta_dpo/beta_used_raw': 0.10466543585062027, 'beta_dpo/beta_used': 0.10466543585062027, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5974893569946289, 'logits/rejected': -0.5545705556869507, 'beta_dpo/beta': 0.10466543585062027, 'beta_dpo/loss_margin_mean': 6.950667381286621, 'beta_dpo/beta_margin_mean': 0.829659640789032, 'beta_dpo/beta_margin_std': 1.0400630235671997, 'beta_dpo/beta_margin_grad_mean': -0.34448105096817017, 'beta_dpo/beta_margin_grad_std': 0.15328913927078247, 'epoch': 0.09}
+  9%|██████▊                                                                        | 59/681 [02:36<26:36,  2.57s/it]  9%|██████▉                                                                        | 60/681 [02:38<26:27,  2.56s/it]                                                                                                                     {'loss': 0.8759, 'grad_norm': 69.3149185180664, 'learning_rate': 4.2753623188405794e-07, 'beta_dpo/gap_mean': 5.407642364501953, 'beta_dpo/gap_std': 5.513436317443848, 'beta_dpo/beta_used_raw': 0.11850239336490631, 'beta_dpo/beta_used': 0.11850239336490631, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5805940628051758, 'logits/rejected': -0.5189210772514343, 'beta_dpo/beta': 0.11850239336490631, 'beta_dpo/loss_margin_mean': 5.766895294189453, 'beta_dpo/beta_margin_mean': 0.7030664086341858, 'beta_dpo/beta_margin_std': 0.7772324085235596, 'beta_dpo/beta_margin_grad_mean': -0.3506718575954437, 'beta_dpo/beta_margin_grad_std': 0.15503977239131927, 'epoch': 0.09}
+  9%|██████▉                                                                        | 60/681 [02:38<26:27,  2.56s/it]  9%|███████                                                                        | 61/681 [02:41<26:42,  2.58s/it]                                                                                                                     {'loss': 1.0428, 'grad_norm': 49.676326751708984, 'learning_rate': 4.3478260869565214e-07, 'beta_dpo/gap_mean': 5.656585693359375, 'beta_dpo/gap_std': 6.2068586349487305, 'beta_dpo/beta_used_raw': 0.08738794177770615, 'beta_dpo/beta_used': 0.08738794177770615, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5972954034805298, 'logits/rejected': -0.5621410608291626, 'beta_dpo/beta': 0.08738794177770615, 'beta_dpo/loss_margin_mean': 6.976743221282959, 'beta_dpo/beta_margin_mean': 0.6398810744285583, 'beta_dpo/beta_margin_std': 1.0747108459472656, 'beta_dpo/beta_margin_grad_mean': -0.37938931584358215, 'beta_dpo/beta_margin_grad_std': 0.15377961099147797, 'epoch': 0.09}
+  9%|███████                                                                        | 61/681 [02:41<26:42,  2.58s/it]  9%|███████▏                                                                       | 62/681 [02:44<27:10,  2.63s/it]                                                                                                                     {'loss': 1.0477, 'grad_norm': 49.01858901977539, 'learning_rate': 4.420289855072464e-07, 'beta_dpo/gap_mean': 5.591924667358398, 'beta_dpo/gap_std': 6.288469314575195, 'beta_dpo/beta_used_raw': 0.07970167696475983, 'beta_dpo/beta_used': 0.07970167696475983, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5811234712600708, 'logits/rejected': -0.5460039973258972, 'beta_dpo/beta': 0.07970167696475983, 'beta_dpo/loss_margin_mean': 5.3183794021606445, 'beta_dpo/beta_margin_mean': 0.45351850986480713, 'beta_dpo/beta_margin_std': 0.6815299987792969, 'beta_dpo/beta_margin_grad_mean': -0.4036404490470886, 'beta_dpo/beta_margin_grad_std': 0.1279177963733673, 'epoch': 0.09}
+  9%|███████▏                                                                       | 62/681 [02:44<27:10,  2.63s/it]  9%|███████▎                                                                       | 63/681 [02:46<26:57,  2.62s/it]                                                                                                                     {'loss': 0.934, 'grad_norm': 54.96387481689453, 'learning_rate': 4.4927536231884053e-07, 'beta_dpo/gap_mean': 5.912351608276367, 'beta_dpo/gap_std': 6.507175445556641, 'beta_dpo/beta_used_raw': 0.10061165690422058, 'beta_dpo/beta_used': 0.10061165690422058, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5760135650634766, 'logits/rejected': -0.5288089513778687, 'beta_dpo/beta': 0.10061165690422058, 'beta_dpo/loss_margin_mean': 7.235960006713867, 'beta_dpo/beta_margin_mean': 0.8012576103210449, 'beta_dpo/beta_margin_std': 0.977336049079895, 'beta_dpo/beta_margin_grad_mean': -0.3452926576137543, 'beta_dpo/beta_margin_grad_std': 0.16270661354064941, 'epoch': 0.09}
+  9%|███████▎                                                                       | 63/681 [02:46<26:57,  2.62s/it]  9%|███████▍                                                                       | 64/681 [02:49<26:29,  2.58s/it]                                                                                                                     {'loss': 0.892, 'grad_norm': 54.98874282836914, 'learning_rate': 4.5652173913043473e-07, 'beta_dpo/gap_mean': 6.382755279541016, 'beta_dpo/gap_std': 7.030701637268066, 'beta_dpo/beta_used_raw': 0.11127346754074097, 'beta_dpo/beta_used': 0.11127346754074097, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5682976245880127, 'logits/rejected': -0.5359951257705688, 'beta_dpo/beta': 0.11127346754074097, 'beta_dpo/loss_margin_mean': 8.447539329528809, 'beta_dpo/beta_margin_mean': 1.0696979761123657, 'beta_dpo/beta_margin_std': 1.435511589050293, 'beta_dpo/beta_margin_grad_mean': -0.32286009192466736, 'beta_dpo/beta_margin_grad_std': 0.17790742218494415, 'epoch': 0.09}
+  9%|███████▍                                                                       | 64/681 [02:49<26:29,  2.58s/it] 10%|███████▌                                                                       | 65/681 [02:51<26:33,  2.59s/it]                                                                                                                     {'loss': 0.7454, 'grad_norm': 84.47888946533203, 'learning_rate': 4.63768115942029e-07, 'beta_dpo/gap_mean': 6.738654136657715, 'beta_dpo/gap_std': 7.486597061157227, 'beta_dpo/beta_used_raw': 0.15355268120765686, 'beta_dpo/beta_used': 0.15355268120765686, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6392999887466431, 'logits/rejected': -0.6247435808181763, 'beta_dpo/beta': 0.15355268120765686, 'beta_dpo/loss_margin_mean': 8.504437446594238, 'beta_dpo/beta_margin_mean': 1.3807626962661743, 'beta_dpo/beta_margin_std': 1.8169898986816406, 'beta_dpo/beta_margin_grad_mean': -0.28559890389442444, 'beta_dpo/beta_margin_grad_std': 0.21047906577587128, 'epoch': 0.1}
+ 10%|███████▌                                                                       | 65/681 [02:51<26:33,  2.59s/it] 10%|███████▋                                                                       | 66/681 [02:54<26:38,  2.60s/it]                                                                                                                     {'loss': 1.1833, 'grad_norm': 30.142791748046875, 'learning_rate': 4.7101449275362313e-07, 'beta_dpo/gap_mean': 7.011206150054932, 'beta_dpo/gap_std': 7.803816795349121, 'beta_dpo/beta_used_raw': 0.038759633898735046, 'beta_dpo/beta_used': 0.038759633898735046, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6175287365913391, 'logits/rejected': -0.5830913186073303, 'beta_dpo/beta': 0.038759633898735046, 'beta_dpo/loss_margin_mean': 7.870203971862793, 'beta_dpo/beta_margin_mean': 0.3621111810207367, 'beta_dpo/beta_margin_std': 0.5689931511878967, 'beta_dpo/beta_margin_grad_mean': -0.42082634568214417, 'beta_dpo/beta_margin_grad_std': 0.11057644337415695, 'epoch': 0.1}
+ 10%|███████▋                                                                       | 66/681 [02:54<26:38,  2.60s/it] 10%|███████▊                                                                       | 67/681 [02:56<25:34,  2.50s/it]                                                                                                                     {'loss': 1.0324, 'grad_norm': 44.186004638671875, 'learning_rate': 4.782608695652174e-07, 'beta_dpo/gap_mean': 7.094534873962402, 'beta_dpo/gap_std': 8.07803726196289, 'beta_dpo/beta_used_raw': 0.06989531219005585, 'beta_dpo/beta_used': 0.06989531219005585, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6101835370063782, 'logits/rejected': -0.5699295997619629, 'beta_dpo/beta': 0.06989531219005585, 'beta_dpo/loss_margin_mean': 8.12269401550293, 'beta_dpo/beta_margin_mean': 0.59562087059021, 'beta_dpo/beta_margin_std': 0.8447734117507935, 'beta_dpo/beta_margin_grad_mean': -0.38001659512519836, 'beta_dpo/beta_margin_grad_std': 0.14094047248363495, 'epoch': 0.1}
+ 10%|███████▊                                                                       | 67/681 [02:56<25:34,  2.50s/it] 10%|███████▉                                                                       | 68/681 [02:59<25:44,  2.52s/it]                                                                                                                     {'loss': 0.953, 'grad_norm': 40.886878967285156, 'learning_rate': 4.855072463768116e-07, 'beta_dpo/gap_mean': 7.258274078369141, 'beta_dpo/gap_std': 8.184741973876953, 'beta_dpo/beta_used_raw': 0.06118408590555191, 'beta_dpo/beta_used': 0.09041684120893478, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6218951940536499, 'logits/rejected': -0.5630506873130798, 'beta_dpo/beta': 0.09041684120893478, 'beta_dpo/loss_margin_mean': 7.898317813873291, 'beta_dpo/beta_margin_mean': 0.7865732908248901, 'beta_dpo/beta_margin_std': 1.181038498878479, 'beta_dpo/beta_margin_grad_mean': -0.3650799095630646, 'beta_dpo/beta_margin_grad_std': 0.1839817315340042, 'epoch': 0.1}
+ 10%|███████▉                                                                       | 68/681 [02:59<25:44,  2.52s/it] 10%|████████                                                                       | 69/681 [03:01<26:26,  2.59s/it]                                                                                                                     {'loss': 0.7568, 'grad_norm': 72.10195922851562, 'learning_rate': 4.927536231884058e-07, 'beta_dpo/gap_mean': 7.689189434051514, 'beta_dpo/gap_std': 8.327251434326172, 'beta_dpo/beta_used_raw': 0.12943625450134277, 'beta_dpo/beta_used': 0.12943625450134277, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5902745723724365, 'logits/rejected': -0.5661255717277527, 'beta_dpo/beta': 0.12943625450134277, 'beta_dpo/loss_margin_mean': 9.463652610778809, 'beta_dpo/beta_margin_mean': 1.2787585258483887, 'beta_dpo/beta_margin_std': 1.491976022720337, 'beta_dpo/beta_margin_grad_mean': -0.28914546966552734, 'beta_dpo/beta_margin_grad_std': 0.1749580055475235, 'epoch': 0.1}
+ 10%|████████                                                                       | 69/681 [03:01<26:26,  2.59s/it] 10%|████████                                                                       | 70/681 [03:04<26:00,  2.55s/it]                                                                                                                     {'loss': 1.0241, 'grad_norm': 58.23539352416992, 'learning_rate': 5e-07, 'beta_dpo/gap_mean': 8.018512725830078, 'beta_dpo/gap_std': 8.71467399597168, 'beta_dpo/beta_used_raw': 0.06600124388933182, 'beta_dpo/beta_used': 0.0740790069103241, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6226065158843994, 'logits/rejected': -0.5874596834182739, 'beta_dpo/beta': 0.0740790069103241, 'beta_dpo/loss_margin_mean': 10.070143699645996, 'beta_dpo/beta_margin_mean': 0.8269989490509033, 'beta_dpo/beta_margin_std': 1.3370610475540161, 'beta_dpo/beta_margin_grad_mean': -0.369037926197052, 'beta_dpo/beta_margin_grad_std': 0.1858556717634201, 'epoch': 0.1}
+ 10%|████████                                                                       | 70/681 [03:04<26:00,  2.55s/it] 10%|████████▏                                                                      | 71/681 [03:06<26:00,  2.56s/it]                                                                                                                     {'loss': 0.8167, 'grad_norm': 47.67396545410156, 'learning_rate': 4.999967061337492e-07, 'beta_dpo/gap_mean': 8.682525634765625, 'beta_dpo/gap_std': 9.29095458984375, 'beta_dpo/beta_used_raw': 0.10465647280216217, 'beta_dpo/beta_used': 0.10465647280216217, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6586190462112427, 'logits/rejected': -0.6172687411308289, 'beta_dpo/beta': 0.10465647280216217, 'beta_dpo/loss_margin_mean': 11.49172306060791, 'beta_dpo/beta_margin_mean': 1.1773220300674438, 'beta_dpo/beta_margin_std': 1.2341235876083374, 'beta_dpo/beta_margin_grad_mean': -0.29003310203552246, 'beta_dpo/beta_margin_grad_std': 0.17214025557041168, 'epoch': 0.1}
+ 10%|████████▏                                                                      | 71/681 [03:06<26:00,  2.56s/it] 11%|████████▎                                                                      | 72/681 [03:09<26:24,  2.60s/it]                                                                                                                     {'loss': 0.5912, 'grad_norm': 75.66039276123047, 'learning_rate': 4.999868246217933e-07, 'beta_dpo/gap_mean': 9.315265655517578, 'beta_dpo/gap_std': 9.664226531982422, 'beta_dpo/beta_used_raw': 0.1546517014503479, 'beta_dpo/beta_used': 0.1546517014503479, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6442696452140808, 'logits/rejected': -0.6082816123962402, 'beta_dpo/beta': 0.1546517014503479, 'beta_dpo/loss_margin_mean': 12.12594985961914, 'beta_dpo/beta_margin_mean': 1.905733585357666, 'beta_dpo/beta_margin_std': 2.095893383026123, 'beta_dpo/beta_margin_grad_mean': -0.24096769094467163, 'beta_dpo/beta_margin_grad_std': 0.22502072155475616, 'epoch': 0.11}
+ 11%|████████▎                                                                      | 72/681 [03:09<26:24,  2.60s/it] 11%|████████▍                                                                      | 73/681 [03:12<26:53,  2.65s/it]                                                                                                                     {'loss': 0.877, 'grad_norm': 63.61186981201172, 'learning_rate': 4.999703557245192e-07, 'beta_dpo/gap_mean': 9.892107009887695, 'beta_dpo/gap_std': 10.947005271911621, 'beta_dpo/beta_used_raw': 0.09382159262895584, 'beta_dpo/beta_used': 0.09382159262895584, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6697020530700684, 'logits/rejected': -0.6270005702972412, 'beta_dpo/beta': 0.09382159262895584, 'beta_dpo/loss_margin_mean': 12.176095008850098, 'beta_dpo/beta_margin_mean': 1.1267133951187134, 'beta_dpo/beta_margin_std': 1.6691551208496094, 'beta_dpo/beta_margin_grad_mean': -0.3226276934146881, 'beta_dpo/beta_margin_grad_std': 0.23689226806163788, 'epoch': 0.11}
+ 11%|████████▍                                                                      | 73/681 [03:12<26:53,  2.65s/it] 11%|████████▌                                                                      | 74/681 [03:14<26:28,  2.62s/it]                                                                                                                     {'loss': 1.0827, 'grad_norm': 36.97188949584961, 'learning_rate': 4.999472998758977e-07, 'beta_dpo/gap_mean': 10.440993309020996, 'beta_dpo/gap_std': 12.396344184875488, 'beta_dpo/beta_used_raw': 0.04306982085108757, 'beta_dpo/beta_used': 0.0458955280482769, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.605143129825592, 'logits/rejected': -0.5923604965209961, 'beta_dpo/beta': 0.0458955280482769, 'beta_dpo/loss_margin_mean': 13.167186737060547, 'beta_dpo/beta_margin_mean': 0.6362202763557434, 'beta_dpo/beta_margin_std': 1.2357457876205444, 'beta_dpo/beta_margin_grad_mean': -0.38849544525146484, 'beta_dpo/beta_margin_grad_std': 0.181712806224823, 'epoch': 0.11}
+ 11%|████████▌                                                                      | 74/681 [03:14<26:28,  2.62s/it] 11%|████████▋                                                                      | 75/681 [03:17<26:41,  2.64s/it]                                                                                                                     {'loss': 0.6467, 'grad_norm': 92.53497314453125, 'learning_rate': 4.999176576834721e-07, 'beta_dpo/gap_mean': 11.546646118164062, 'beta_dpo/gap_std': 13.614230155944824, 'beta_dpo/beta_used_raw': 0.1566300094127655, 'beta_dpo/beta_used': 0.1566300094127655, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6607112288475037, 'logits/rejected': -0.6499860286712646, 'beta_dpo/beta': 0.1566300094127655, 'beta_dpo/loss_margin_mean': 18.43977165222168, 'beta_dpo/beta_margin_mean': 3.023698568344116, 'beta_dpo/beta_margin_std': 3.2827866077423096, 'beta_dpo/beta_margin_grad_mean': -0.19501835107803345, 'beta_dpo/beta_margin_grad_std': 0.2327680140733719, 'epoch': 0.11}
+ 11%|████████▋                                                                      | 75/681 [03:17<26:41,  2.64s/it] 11%|████████▊                                                                      | 76/681 [03:20<26:23,  2.62s/it]                                                                                                                     {'loss': 1.0088, 'grad_norm': 44.36159133911133, 'learning_rate': 4.998814299283415e-07, 'beta_dpo/gap_mean': 12.032630920410156, 'beta_dpo/gap_std': 13.884933471679688, 'beta_dpo/beta_used_raw': 0.004215408116579056, 'beta_dpo/beta_used': 0.05693836510181427, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6945298910140991, 'logits/rejected': -0.6507744789123535, 'beta_dpo/beta': 0.05693836510181427, 'beta_dpo/loss_margin_mean': 11.839239120483398, 'beta_dpo/beta_margin_mean': 0.6884029507637024, 'beta_dpo/beta_margin_std': 1.4083665609359741, 'beta_dpo/beta_margin_grad_mean': -0.3819631040096283, 'beta_dpo/beta_margin_grad_std': 0.20355312526226044, 'epoch': 0.11}
+ 11%|████████▊                                                                      | 76/681 [03:20<26:23,  2.62s/it] 11%|████████▉                                                                      | 77/681 [03:22<25:14,  2.51s/it]                                                                                                                     {'loss': 0.3922, 'grad_norm': 122.56193542480469, 'learning_rate': 4.998386175651409e-07, 'beta_dpo/gap_mean': 13.085380554199219, 'beta_dpo/gap_std': 14.796323776245117, 'beta_dpo/beta_used_raw': 0.3072592616081238, 'beta_dpo/beta_used': 0.3072592616081238, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6592667102813721, 'logits/rejected': -0.6153388023376465, 'beta_dpo/beta': 0.3072592616081238, 'beta_dpo/loss_margin_mean': 18.652969360351562, 'beta_dpo/beta_margin_mean': 6.070537090301514, 'beta_dpo/beta_margin_std': 7.8197712898254395, 'beta_dpo/beta_margin_grad_mean': -0.16621431708335876, 'beta_dpo/beta_margin_grad_std': 0.2623097002506256, 'epoch': 0.11}
+ 11%|████████▉                                                                      | 77/681 [03:22<25:14,  2.51s/it] 11%|█████████                                                                      | 78/681 [03:25<25:37,  2.55s/it]                                                                                                                     {'loss': 0.7759, 'grad_norm': 55.331443786621094, 'learning_rate': 4.997892217220159e-07, 'beta_dpo/gap_mean': 13.365839958190918, 'beta_dpo/gap_std': 15.315971374511719, 'beta_dpo/beta_used_raw': 0.12561628222465515, 'beta_dpo/beta_used': 0.14949087798595428, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6192628145217896, 'logits/rejected': -0.5899114608764648, 'beta_dpo/beta': 0.14949087798595428, 'beta_dpo/loss_margin_mean': 14.452160835266113, 'beta_dpo/beta_margin_mean': 2.418715238571167, 'beta_dpo/beta_margin_std': 3.7272212505340576, 'beta_dpo/beta_margin_grad_mean': -0.3154319226741791, 'beta_dpo/beta_margin_grad_std': 0.24938298761844635, 'epoch': 0.11}
+ 11%|█████████                                                                      | 78/681 [03:25<25:37,  2.55s/it] 12%|█████████▏                                                                     | 79/681 [03:27<25:50,  2.58s/it]                                                                                                                     {'loss': 0.8819, 'grad_norm': 69.28112030029297, 'learning_rate': 4.997332437005931e-07, 'beta_dpo/gap_mean': 13.848381042480469, 'beta_dpo/gap_std': 16.022428512573242, 'beta_dpo/beta_used_raw': -0.001482747495174408, 'beta_dpo/beta_used': 0.11019716411828995, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6417551636695862, 'logits/rejected': -0.608524739742279, 'beta_dpo/beta': 0.11019716411828995, 'beta_dpo/loss_margin_mean': 15.7933349609375, 'beta_dpo/beta_margin_mean': 1.7321070432662964, 'beta_dpo/beta_margin_std': 3.166022777557373, 'beta_dpo/beta_margin_grad_mean': -0.3492397964000702, 'beta_dpo/beta_margin_grad_std': 0.24441301822662354, 'epoch': 0.12}
+ 12%|█████████▏                                                                     | 79/681 [03:27<25:50,  2.58s/it] 12%|█████████▎                                                                     | 80/681 [03:30<25:48,  2.58s/it]                                                                                                                     {'loss': 1.3671, 'grad_norm': 2.357767343521118, 'learning_rate': 4.996706849759452e-07, 'beta_dpo/gap_mean': 14.141023635864258, 'beta_dpo/gap_std': 16.736181259155273, 'beta_dpo/beta_used_raw': -0.12951478362083435, 'beta_dpo/beta_used': 0.001718068728223443, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7271322011947632, 'logits/rejected': -0.6814069747924805, 'beta_dpo/beta': 0.001718068728223443, 'beta_dpo/loss_margin_mean': 14.089604377746582, 'beta_dpo/beta_margin_mean': 0.02697627618908882, 'beta_dpo/beta_margin_std': 0.04508247226476669, 'beta_dpo/beta_margin_grad_mean': -0.49326348304748535, 'beta_dpo/beta_margin_grad_std': 0.011248563416302204, 'epoch': 0.12}
+ 12%|█████████▎                                                                     | 80/681 [03:30<25:48,  2.58s/it] 12%|█████████▍                                                                     | 81/681 [03:33<26:38,  2.66s/it]                                                                                                                     {'loss': 1.0778, 'grad_norm': 137.00436401367188, 'learning_rate': 4.996015471965529e-07, 'beta_dpo/gap_mean': 14.902729034423828, 'beta_dpo/gap_std': 17.593263626098633, 'beta_dpo/beta_used_raw': 0.08890701830387115, 'beta_dpo/beta_used': 0.1173420324921608, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7320711016654968, 'logits/rejected': -0.699401319026947, 'beta_dpo/beta': 0.1173420324921608, 'beta_dpo/loss_margin_mean': 19.815006256103516, 'beta_dpo/beta_margin_mean': 2.6220462322235107, 'beta_dpo/beta_margin_std': 4.677156925201416, 'beta_dpo/beta_margin_grad_mean': -0.3296668529510498, 'beta_dpo/beta_margin_grad_std': 0.2772652506828308, 'epoch': 0.12}
+ 12%|█████████▍                                                                     | 81/681 [03:33<26:38,  2.66s/it] 12%|█████████▌                                                                     | 82/681 [03:35<25:55,  2.60s/it]                                                                                                                     {'loss': 1.0506, 'grad_norm': 50.82543182373047, 'learning_rate': 4.995258321842611e-07, 'beta_dpo/gap_mean': 14.832651138305664, 'beta_dpo/gap_std': 18.701509475708008, 'beta_dpo/beta_used_raw': 0.04351024702191353, 'beta_dpo/beta_used': 0.04351024702191353, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.649533748626709, 'logits/rejected': -0.6332418918609619, 'beta_dpo/beta': 0.04351024702191353, 'beta_dpo/loss_margin_mean': 15.354249954223633, 'beta_dpo/beta_margin_mean': 0.48920586705207825, 'beta_dpo/beta_margin_std': 1.2577557563781738, 'beta_dpo/beta_margin_grad_mean': -0.40177345275878906, 'beta_dpo/beta_margin_grad_std': 0.19916068017482758, 'epoch': 0.12}
+ 12%|█████████▌                                                                     | 82/681 [03:35<25:55,  2.60s/it] 12%|█████████▋                                                                     | 83/681 [03:38<25:23,  2.55s/it]                                                                                                                     {'loss': 1.3736, 'grad_norm': 1.6841143369674683, 'learning_rate': 4.994435419342304e-07, 'beta_dpo/gap_mean': 15.605181694030762, 'beta_dpo/gap_std': 19.392963409423828, 'beta_dpo/beta_used_raw': -0.06825613230466843, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6862367391586304, 'logits/rejected': -0.643555760383606, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 17.986804962158203, 'beta_dpo/beta_margin_mean': 0.017986806109547615, 'beta_dpo/beta_margin_std': 0.021009791642427444, 'beta_dpo/beta_margin_grad_mean': -0.4955040216445923, 'beta_dpo/beta_margin_grad_std': 0.0052512530237436295, 'epoch': 0.12}
+ 12%|█████████▋                                                                     | 83/681 [03:38<25:23,  2.55s/it] 12%|█████████▋                                                                     | 84/681 [03:40<25:59,  2.61s/it]                                                                                                                     {'loss': 0.7014, 'grad_norm': 86.9267349243164, 'learning_rate': 4.993546786148857e-07, 'beta_dpo/gap_mean': 15.893194198608398, 'beta_dpo/gap_std': 18.990737915039062, 'beta_dpo/beta_used_raw': 0.14811725914478302, 'beta_dpo/beta_used': 0.14811725914478302, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6301603317260742, 'logits/rejected': -0.5886775851249695, 'beta_dpo/beta': 0.14811725914478302, 'beta_dpo/loss_margin_mean': 15.966986656188965, 'beta_dpo/beta_margin_mean': 2.8868696689605713, 'beta_dpo/beta_margin_std': 4.1358442306518555, 'beta_dpo/beta_margin_grad_mean': -0.2708915174007416, 'beta_dpo/beta_margin_grad_std': 0.20906409621238708, 'epoch': 0.12}
+ 12%|█████████▋                                                                     | 84/681 [03:40<25:59,  2.61s/it] 12%|█████████▊                                                                     | 85/681 [03:43<26:01,  2.62s/it]                                                                                                                     {'loss': 1.0304, 'grad_norm': 61.42685317993164, 'learning_rate': 4.992592445678582e-07, 'beta_dpo/gap_mean': 15.512821197509766, 'beta_dpo/gap_std': 18.84861183166504, 'beta_dpo/beta_used_raw': -0.06038748845458031, 'beta_dpo/beta_used': 0.05548453703522682, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6268604397773743, 'logits/rejected': -0.5931763648986816, 'beta_dpo/beta': 0.05548453703522682, 'beta_dpo/loss_margin_mean': 15.94063663482666, 'beta_dpo/beta_margin_mean': 1.1414363384246826, 'beta_dpo/beta_margin_std': 1.9398654699325562, 'beta_dpo/beta_margin_grad_mean': -0.3620225489139557, 'beta_dpo/beta_margin_grad_std': 0.21889419853687286, 'epoch': 0.12}
+ 12%|█████████▊                                                                     | 85/681 [03:43<26:01,  2.62s/it] 13%|█████████▉                                                                     | 86/681 [03:46<26:50,  2.71s/it]                                                                                                                     {'loss': 1.17, 'grad_norm': 116.6102523803711, 'learning_rate': 4.991572423079235e-07, 'beta_dpo/gap_mean': 15.852239608764648, 'beta_dpo/gap_std': 20.208812713623047, 'beta_dpo/beta_used_raw': -0.07008485496044159, 'beta_dpo/beta_used': 0.08018074184656143, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6792384386062622, 'logits/rejected': -0.6633239984512329, 'beta_dpo/beta': 0.08018074184656143, 'beta_dpo/loss_margin_mean': 16.962554931640625, 'beta_dpo/beta_margin_mean': 1.180087924003601, 'beta_dpo/beta_margin_std': 3.0287249088287354, 'beta_dpo/beta_margin_grad_mean': -0.3861086666584015, 'beta_dpo/beta_margin_grad_std': 0.2810457944869995, 'epoch': 0.13}
+ 13%|█████████▉                                                                     | 86/681 [03:46<26:50,  2.71s/it] 13%|██████████                                                                     | 87/681 [03:48<26:21,  2.66s/it]                                                                                                                     {'loss': 0.7054, 'grad_norm': 81.023681640625, 'learning_rate': 4.990486745229364e-07, 'beta_dpo/gap_mean': 16.574663162231445, 'beta_dpo/gap_std': 21.20650863647461, 'beta_dpo/beta_used_raw': 0.12275532633066177, 'beta_dpo/beta_used': 0.12275532633066177, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7079585790634155, 'logits/rejected': -0.675015389919281, 'beta_dpo/beta': 0.12275532633066177, 'beta_dpo/loss_margin_mean': 18.905868530273438, 'beta_dpo/beta_margin_mean': 2.5129313468933105, 'beta_dpo/beta_margin_std': 3.3721165657043457, 'beta_dpo/beta_margin_grad_mean': -0.2609297037124634, 'beta_dpo/beta_margin_grad_std': 0.26698076725006104, 'epoch': 0.13}
+ 13%|██████████                                                                     | 87/681 [03:48<26:21,  2.66s/it] 13%|██████████▏                                                                    | 88/681 [03:51<26:11,  2.65s/it]                                                                                                                     {'loss': 1.0505, 'grad_norm': 91.79285430908203, 'learning_rate': 4.989335440737586e-07, 'beta_dpo/gap_mean': 16.420879364013672, 'beta_dpo/gap_std': 22.033344268798828, 'beta_dpo/beta_used_raw': 0.07114126533269882, 'beta_dpo/beta_used': 0.10302203893661499, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.661591649055481, 'logits/rejected': -0.6481854915618896, 'beta_dpo/beta': 0.10302203893661499, 'beta_dpo/loss_margin_mean': 14.693923950195312, 'beta_dpo/beta_margin_mean': 1.8344087600708008, 'beta_dpo/beta_margin_std': 4.733022689819336, 'beta_dpo/beta_margin_grad_mean': -0.38228002190589905, 'beta_dpo/beta_margin_grad_std': 0.26822036504745483, 'epoch': 0.13}
+ 13%|██████████▏                                                                    | 88/681 [03:51<26:11,  2.65s/it] 13%|██████████▎                                                                    | 89/681 [03:54<25:40,  2.60s/it]                                                                                                                     {'loss': 0.8893, 'grad_norm': 84.89918518066406, 'learning_rate': 4.988118539941847e-07, 'beta_dpo/gap_mean': 15.963903427124023, 'beta_dpo/gap_std': 21.23855209350586, 'beta_dpo/beta_used_raw': -0.0026644468307495117, 'beta_dpo/beta_used': 0.12089363485574722, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7054777145385742, 'logits/rejected': -0.666853129863739, 'beta_dpo/beta': 0.12089363485574722, 'beta_dpo/loss_margin_mean': 15.816018104553223, 'beta_dpo/beta_margin_mean': 2.3120830059051514, 'beta_dpo/beta_margin_std': 3.9636423587799072, 'beta_dpo/beta_margin_grad_mean': -0.32127439975738525, 'beta_dpo/beta_margin_grad_std': 0.2475607842206955, 'epoch': 0.13}
+ 13%|██████████▎                                                                    | 89/681 [03:54<25:40,  2.60s/it] 13%|██████████▍                                                                    | 90/681 [03:56<25:07,  2.55s/it]                                                                                                                     {'loss': 1.3734, 'grad_norm': 1.6320456266403198, 'learning_rate': 4.986836074908615e-07, 'beta_dpo/gap_mean': 16.511451721191406, 'beta_dpo/gap_std': 22.19609832763672, 'beta_dpo/beta_used_raw': -0.10932803153991699, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6601126194000244, 'logits/rejected': -0.6607536673545837, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 20.473350524902344, 'beta_dpo/beta_margin_mean': 0.020473351702094078, 'beta_dpo/beta_margin_std': 0.029139788821339607, 'beta_dpo/beta_margin_grad_mean': -0.4948834478855133, 'beta_dpo/beta_margin_grad_std': 0.007280984427779913, 'epoch': 0.13}
+ 13%|██████████▍                                                                    | 90/681 [03:56<25:07,  2.55s/it] 13%|██████████▌                                                                    | 91/681 [03:59<25:16,  2.57s/it]                                                                                                                     {'loss': 1.135, 'grad_norm': 163.5145721435547, 'learning_rate': 4.985488079432037e-07, 'beta_dpo/gap_mean': 16.999650955200195, 'beta_dpo/gap_std': 22.816213607788086, 'beta_dpo/beta_used_raw': 0.060106635093688965, 'beta_dpo/beta_used': 0.0956064909696579, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.683163583278656, 'logits/rejected': -0.6435012817382812, 'beta_dpo/beta': 0.0956064909696579, 'beta_dpo/loss_margin_mean': 17.7425594329834, 'beta_dpo/beta_margin_mean': 1.9452344179153442, 'beta_dpo/beta_margin_std': 3.7261810302734375, 'beta_dpo/beta_margin_grad_mean': -0.36107704043388367, 'beta_dpo/beta_margin_grad_std': 0.26534104347229004, 'epoch': 0.13}
+ 13%|██████████▌                                                                    | 91/681 [03:59<25:16,  2.57s/it] 14%|██████████▋                                                                    | 92/681 [04:01<24:58,  2.54s/it]                                                                                                                     {'loss': 1.3231, 'grad_norm': 7.026480197906494, 'learning_rate': 4.984074589033043e-07, 'beta_dpo/gap_mean': 17.035350799560547, 'beta_dpo/gap_std': 22.991302490234375, 'beta_dpo/beta_used_raw': -0.09906575083732605, 'beta_dpo/beta_used': 0.004416329320520163, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.714478611946106, 'logits/rejected': -0.685989499092102, 'beta_dpo/beta': 0.004416329320520163, 'beta_dpo/loss_margin_mean': 17.186429977416992, 'beta_dpo/beta_margin_mean': 0.08677387237548828, 'beta_dpo/beta_margin_std': 0.1371731013059616, 'beta_dpo/beta_margin_grad_mean': -0.47850051522254944, 'beta_dpo/beta_margin_grad_std': 0.033828821033239365, 'epoch': 0.14}
+ 14%|██████████▋                                                                    | 92/681 [04:01<24:58,  2.54s/it] 14%|██████████▊                                                                    | 93/681 [04:03<23:41,  2.42s/it]                                                                                                                     {'loss': 1.216, 'grad_norm': 17.654693603515625, 'learning_rate': 4.982595640958425e-07, 'beta_dpo/gap_mean': 17.194652557373047, 'beta_dpo/gap_std': 22.38436508178711, 'beta_dpo/beta_used_raw': 0.003189191222190857, 'beta_dpo/beta_used': 0.012795208021998405, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7458562850952148, 'logits/rejected': -0.6881492137908936, 'beta_dpo/beta': 0.012795208021998405, 'beta_dpo/loss_margin_mean': 17.124244689941406, 'beta_dpo/beta_margin_mean': 0.21816346049308777, 'beta_dpo/beta_margin_std': 0.3640429377555847, 'beta_dpo/beta_margin_grad_mean': -0.4487362504005432, 'beta_dpo/beta_margin_grad_std': 0.08327450603246689, 'epoch': 0.14}
+ 14%|██████████▊                                                                    | 93/681 [04:03<23:41,  2.42s/it] 14%|██████████▉                                                                    | 94/681 [04:06<24:53,  2.54s/it]                                                                                                                     {'loss': 0.9494, 'grad_norm': 86.43866729736328, 'learning_rate': 4.98105127417984e-07, 'beta_dpo/gap_mean': 17.62067222595215, 'beta_dpo/gap_std': 22.231197357177734, 'beta_dpo/beta_used_raw': 0.05387556180357933, 'beta_dpo/beta_used': 0.08266030997037888, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6766291260719299, 'logits/rejected': -0.6523104310035706, 'beta_dpo/beta': 0.08266030997037888, 'beta_dpo/loss_margin_mean': 19.16136932373047, 'beta_dpo/beta_margin_mean': 1.8386805057525635, 'beta_dpo/beta_margin_std': 3.1514334678649902, 'beta_dpo/beta_margin_grad_mean': -0.34286096692085266, 'beta_dpo/beta_margin_grad_std': 0.254118949174881, 'epoch': 0.14}
+ 14%|██████████▉                                                                    | 94/681 [04:06<24:53,  2.54s/it] 14%|███████████                                                                    | 95/681 [04:09<24:37,  2.52s/it]                                                                                                                     {'loss': 1.3739, 'grad_norm': 1.29397714138031, 'learning_rate': 4.979441529392784e-07, 'beta_dpo/gap_mean': 17.355606079101562, 'beta_dpo/gap_std': 21.673551559448242, 'beta_dpo/beta_used_raw': -0.1939472258090973, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.737293004989624, 'logits/rejected': -0.7039185166358948, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 15.809903144836426, 'beta_dpo/beta_margin_mean': 0.015809904783964157, 'beta_dpo/beta_margin_std': 0.018763281404972076, 'beta_dpo/beta_margin_grad_mean': -0.4960479736328125, 'beta_dpo/beta_margin_grad_std': 0.00468993978574872, 'epoch': 0.14}
+ 14%|███████████                                                                    | 95/681 [04:09<24:37,  2.52s/it] 14%|███████████▏                                                                   | 96/681 [04:11<24:43,  2.54s/it]                                                                                                                     {'loss': 0.7946, 'grad_norm': 48.836517333984375, 'learning_rate': 4.977766449015534e-07, 'beta_dpo/gap_mean': 17.98691177368164, 'beta_dpo/gap_std': 21.86615753173828, 'beta_dpo/beta_used_raw': -0.02500748634338379, 'beta_dpo/beta_used': 0.1486305147409439, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7020214796066284, 'logits/rejected': -0.6632054448127747, 'beta_dpo/beta': 0.1486305147409439, 'beta_dpo/loss_margin_mean': 21.639110565185547, 'beta_dpo/beta_margin_mean': 3.7028400897979736, 'beta_dpo/beta_margin_std': 6.17563533782959, 'beta_dpo/beta_margin_grad_mean': -0.30508890748023987, 'beta_dpo/beta_margin_grad_std': 0.2417270988225937, 'epoch': 0.14}
+ 14%|███████████▏                                                                   | 96/681 [04:11<24:43,  2.54s/it] 14%|███████████▎                                                                   | 97/681 [04:14<25:24,  2.61s/it]                                                                                                                     {'loss': 0.9477, 'grad_norm': 62.58485794067383, 'learning_rate': 4.976026077188012e-07, 'beta_dpo/gap_mean': 17.544296264648438, 'beta_dpo/gap_std': 21.351360321044922, 'beta_dpo/beta_used_raw': 0.023374740034341812, 'beta_dpo/beta_used': 0.06436537951231003, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6425115466117859, 'logits/rejected': -0.5889946818351746, 'beta_dpo/beta': 0.06436537951231003, 'beta_dpo/loss_margin_mean': 16.46492576599121, 'beta_dpo/beta_margin_mean': 1.3948326110839844, 'beta_dpo/beta_margin_std': 2.1092705726623535, 'beta_dpo/beta_margin_grad_mean': -0.3319231867790222, 'beta_dpo/beta_margin_grad_std': 0.21798565983772278, 'epoch': 0.14}
+ 14%|███████████▎                                                                   | 97/681 [04:14<25:24,  2.61s/it] 14%|███████████▎                                                                   | 98/681 [04:16<24:43,  2.55s/it]                                                                                                                     {'loss': 1.0858, 'grad_norm': 155.92921447753906, 'learning_rate': 4.974220459770639e-07, 'beta_dpo/gap_mean': 17.85407257080078, 'beta_dpo/gap_std': 21.613468170166016, 'beta_dpo/beta_used_raw': 0.16680875420570374, 'beta_dpo/beta_used': 0.1993415206670761, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6993780136108398, 'logits/rejected': -0.6774000525474548, 'beta_dpo/beta': 0.1993415206670761, 'beta_dpo/loss_margin_mean': 18.21445655822754, 'beta_dpo/beta_margin_mean': 3.733274221420288, 'beta_dpo/beta_margin_std': 8.150524139404297, 'beta_dpo/beta_margin_grad_mean': -0.3418026566505432, 'beta_dpo/beta_margin_grad_std': 0.29540500044822693, 'epoch': 0.14}
+ 14%|███████████▎                                                                   | 98/681 [04:16<24:43,  2.55s/it] 15%|███████████▍                                                                   | 99/681 [04:18<23:46,  2.45s/it]                                                                                                                     {'loss': 0.7627, 'grad_norm': 45.9489860534668, 'learning_rate': 4.972349644343108e-07, 'beta_dpo/gap_mean': 18.435466766357422, 'beta_dpo/gap_std': 22.153942108154297, 'beta_dpo/beta_used_raw': 0.05922618508338928, 'beta_dpo/beta_used': 0.05922618508338928, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6738119125366211, 'logits/rejected': -0.6671220660209656, 'beta_dpo/beta': 0.05922618508338928, 'beta_dpo/loss_margin_mean': 21.74091911315918, 'beta_dpo/beta_margin_mean': 1.2846572399139404, 'beta_dpo/beta_margin_std': 1.4927436113357544, 'beta_dpo/beta_margin_grad_mean': -0.29211270809173584, 'beta_dpo/beta_margin_grad_std': 0.1934242695569992, 'epoch': 0.15}
+ 15%|███████████▍                                                                   | 99/681 [04:19<23:46,  2.45s/it] 15%|███████████▍                                                                  | 100/681 [04:21<24:11,  2.50s/it]                                                                                                                     {'loss': 0.9552, 'grad_norm': 40.60963821411133, 'learning_rate': 4.970413680203148e-07, 'beta_dpo/gap_mean': 17.79035186767578, 'beta_dpo/gap_std': 22.48064422607422, 'beta_dpo/beta_used_raw': 0.027484482154250145, 'beta_dpo/beta_used': 0.049059588462114334, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6705986261367798, 'logits/rejected': -0.62305748462677, 'beta_dpo/beta': 0.049059588462114334, 'beta_dpo/loss_margin_mean': 13.807634353637695, 'beta_dpo/beta_margin_mean': 0.7820718884468079, 'beta_dpo/beta_margin_std': 1.3751544952392578, 'beta_dpo/beta_margin_grad_mean': -0.376477986574173, 'beta_dpo/beta_margin_grad_std': 0.19105187058448792, 'epoch': 0.15}
+ 15%|███████████▍                                                                  | 100/681 [04:21<24:11,  2.50s/it][INFO|trainer.py:4307] 2026-04-17 23:27:53,623 >> 
+***** Running Evaluation *****
+[INFO|trainer.py:4309] 2026-04-17 23:27:53,624 >>   Num examples = 2339
+[INFO|trainer.py:4312] 2026-04-17 23:27:53,624 >>   Batch size = 8
+
+  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A
+  3%|██▏                                                                              | 2/73 [00:00<00:20,  3.55it/s][A
+  4%|███▎                                                                             | 3/73 [00:01<00:27,  2.56it/s][A
+  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.25it/s][A
+  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.11it/s][A
+  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.00it/s][A
+ 10%|███████▊                                                                         | 7/73 [00:03<00:32,  2.06it/s][A
+ 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.92it/s][A
+ 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.87it/s][A
+ 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.84it/s][A
+ 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A
+ 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.81it/s][A
+ 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.85it/s][A
+ 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.82it/s][A
+ 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.82it/s][A
+ 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.75it/s][A
+ 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.74it/s][A
+ 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.73it/s][A
+ 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.70it/s][A
+ 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.69it/s][A
+ 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.69it/s][A
+ 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.68it/s][A
+ 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:29,  1.72it/s][A
+ 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.73it/s][A
+ 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:28,  1.71it/s][A
+ 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.73it/s][A
+ 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s][A
+ 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.89it/s][A
+ 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:23,  1.91it/s][A
+ 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.93it/s][A
+ 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.84it/s][A
+ 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.88it/s][A
+ 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:21,  1.90it/s][A
+ 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:21,  1.86it/s][A
+ 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.79it/s][A
+ 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.81it/s][A
+ 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s][A
+ 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.87it/s][A
+ 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:19,  1.79it/s][A
+ 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.81it/s][A
+ 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.88it/s][A
+ 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:16,  1.83it/s][A
+ 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s][A
+ 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.84it/s][A
+ 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s][A
+ 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.85it/s][A
+ 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.81it/s][A
+ 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:26<00:13,  1.79it/s][A
+ 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.78it/s][A
+ 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.80it/s][A
+ 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.78it/s][A
+ 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.73it/s][A
+ 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s][A
+ 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.81it/s][A
+ 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.80it/s][A
+ 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.84it/s][A
+ 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.77it/s][A
+ 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s][A
+ 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.84it/s][A
+ 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s][A
+ 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A
+ 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.75it/s][A
+ 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.87it/s][A
+ 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.94it/s][A
+ 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.91it/s][A
+ 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.84it/s][A
+ 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.88it/s][A
+ 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:37<00:02,  1.83it/s][A
+ 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.80it/s][A
+ 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A
+ 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.80it/s][A
+ 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.80it/s][A
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A                                                                                                                     
+                                                                                                                     [A{'eval_loss': 0.6785586476325989, 'eval_runtime': 40.2677, 'eval_samples_per_second': 58.086, 'eval_steps_per_second': 1.838, 'eval_beta_dpo/beta': 0.004559545312076807, 'eval_beta_dpo/loss_margin_mean': 9.809774398803711, 'eval_beta_dpo/beta_margin_mean': 0.07250447571277618, 'eval_beta_dpo/beta_margin_std': 0.1095583513379097, 'eval_beta_dpo/beta_margin_grad_mean': -0.489467054605484, 'eval_beta_dpo/beta_margin_grad_std': 0.016749924048781395, 'eval_beta_dpo/gap_mean': 17.69536590576172, 'eval_beta_dpo/gap_std': 22.184284210205078, 'eval_beta_dpo/beta_used_raw': -0.37313562631607056, 'eval_beta_dpo/beta_used': 0.004559545312076807, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.6697728037834167, 'eval_logits/rejected': -0.641778290271759, 'epoch': 0.15}
+ 15%|███████████▍                                                                  | 100/681 [05:01<24:11,  2.50s/it]
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A
+                                                                                                                     [A 15%|███████████▎                                                                | 101/681 [05:04<2:20:40, 14.55s/it]                                                                                                                     {'loss': 1.0062, 'grad_norm': 78.9544448852539, 'learning_rate': 4.968412618365215e-07, 'beta_dpo/gap_mean': 17.66168975830078, 'beta_dpo/gap_std': 22.67660903930664, 'beta_dpo/beta_used_raw': -0.08677682280540466, 'beta_dpo/beta_used': 0.07321029156446457, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6895424127578735, 'logits/rejected': -0.650581955909729, 'beta_dpo/beta': 0.07321029156446457, 'beta_dpo/loss_margin_mean': 16.247787475585938, 'beta_dpo/beta_margin_mean': 1.4722819328308105, 'beta_dpo/beta_margin_std': 3.1001694202423096, 'beta_dpo/beta_margin_grad_mean': -0.3686811923980713, 'beta_dpo/beta_margin_grad_std': 0.25677189230918884, 'epoch': 0.15}
+ 15%|███████████▎                                                                | 101/681 [05:04<2:20:40, 14.55s/it] 15%|███████████▍                                                                | 102/681 [05:06<1:45:20, 10.92s/it]                                                                                                                     {'loss': 1.3751, 'grad_norm': 1.3097914457321167, 'learning_rate': 4.966346511559149e-07, 'beta_dpo/gap_mean': 16.36496925354004, 'beta_dpo/gap_std': 22.436237335205078, 'beta_dpo/beta_used_raw': -0.20228251814842224, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7123202681541443, 'logits/rejected': -0.6617774963378906, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 11.683052062988281, 'beta_dpo/beta_margin_mean': 0.011683052405714989, 'beta_dpo/beta_margin_std': 0.022071124985814095, 'beta_dpo/beta_margin_grad_mean': -0.4970797300338745, 'beta_dpo/beta_margin_grad_std': 0.005516585893929005, 'epoch': 0.15}
+ 15%|███████████▍                                                                | 102/681 [05:06<1:45:20, 10.92s/it] 15%|███████████▍                                                                | 103/681 [05:09<1:20:23,  8.35s/it]                                                                                                                     {'loss': 1.0281, 'grad_norm': 182.22842407226562, 'learning_rate': 4.964215414228785e-07, 'beta_dpo/gap_mean': 17.27025032043457, 'beta_dpo/gap_std': 22.856536865234375, 'beta_dpo/beta_used_raw': 0.11348496377468109, 'beta_dpo/beta_used': 0.12889112532138824, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6717199087142944, 'logits/rejected': -0.6303577423095703, 'beta_dpo/beta': 0.12889112532138824, 'beta_dpo/loss_margin_mean': 22.42643928527832, 'beta_dpo/beta_margin_mean': 2.756754159927368, 'beta_dpo/beta_margin_std': 4.887447357177734, 'beta_dpo/beta_margin_grad_mean': -0.33258166909217834, 'beta_dpo/beta_margin_grad_std': 0.2698776423931122, 'epoch': 0.15}
+ 15%|███████████▍                                                                | 103/681 [05:09<1:20:23,  8.35s/it] 15%|███████████▌                                                                | 104/681 [05:11<1:02:35,  6.51s/it]                                                                                                                     {'loss': 1.0529, 'grad_norm': 88.83678436279297, 'learning_rate': 4.96201938253052e-07, 'beta_dpo/gap_mean': 17.94310760498047, 'beta_dpo/gap_std': 23.2835693359375, 'beta_dpo/beta_used_raw': 0.046856410801410675, 'beta_dpo/beta_used': 0.06325404345989227, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7104257345199585, 'logits/rejected': -0.6671864986419678, 'beta_dpo/beta': 0.06325404345989227, 'beta_dpo/loss_margin_mean': 21.150423049926758, 'beta_dpo/beta_margin_mean': 1.4412060976028442, 'beta_dpo/beta_margin_std': 3.0654594898223877, 'beta_dpo/beta_margin_grad_mean': -0.36961308121681213, 'beta_dpo/beta_margin_grad_std': 0.2353500872850418, 'epoch': 0.15}
+ 15%|███████████▌                                                                | 104/681 [05:11<1:02:35,  6.51s/it] 15%|████████████                                                                  | 105/681 [05:13<51:16,  5.34s/it]                                                                                                                     {'loss': 0.522, 'grad_norm': 242.09918212890625, 'learning_rate': 4.959758474331832e-07, 'beta_dpo/gap_mean': 19.79109764099121, 'beta_dpo/gap_std': 23.633255004882812, 'beta_dpo/beta_used_raw': 0.36780738830566406, 'beta_dpo/beta_used': 0.36780738830566406, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.732721209526062, 'logits/rejected': -0.7001240849494934, 'beta_dpo/beta': 0.36780738830566406, 'beta_dpo/loss_margin_mean': 29.683706283569336, 'beta_dpo/beta_margin_mean': 10.949403762817383, 'beta_dpo/beta_margin_std': 9.001367568969727, 'beta_dpo/beta_margin_grad_mean': -0.08803264796733856, 'beta_dpo/beta_margin_grad_std': 0.23639245331287384, 'epoch': 0.15}
+ 15%|████████████                                                                  | 105/681 [05:13<51:16,  5.34s/it] 16%|████████████▏                                                                 | 106/681 [05:16<42:53,  4.48s/it]                                                                                                                     {'loss': 1.3696, 'grad_norm': 1.546743392944336, 'learning_rate': 4.957432749209755e-07, 'beta_dpo/gap_mean': 20.10454750061035, 'beta_dpo/gap_std': 23.268360137939453, 'beta_dpo/beta_used_raw': -0.09649403393268585, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6345574855804443, 'logits/rejected': -0.5829192399978638, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 18.190433502197266, 'beta_dpo/beta_margin_mean': 0.01819043606519699, 'beta_dpo/beta_margin_std': 0.020566506311297417, 'beta_dpo/beta_margin_grad_mean': -0.4954530894756317, 'beta_dpo/beta_margin_grad_std': 0.005140354391187429, 'epoch': 0.16}
+ 16%|████████████▏                                                                 | 106/681 [05:16<42:53,  4.48s/it] 16%|████████████▎                                                                 | 107/681 [05:19<37:58,  3.97s/it]                                                                                                                     {'loss': 0.559, 'grad_norm': 113.67718505859375, 'learning_rate': 4.955042268449307e-07, 'beta_dpo/gap_mean': 20.150800704956055, 'beta_dpo/gap_std': 23.207382202148438, 'beta_dpo/beta_used_raw': 0.15242286026477814, 'beta_dpo/beta_used': 0.15242286026477814, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7242048978805542, 'logits/rejected': -0.6693615317344666, 'beta_dpo/beta': 0.15242286026477814, 'beta_dpo/loss_margin_mean': 20.48804473876953, 'beta_dpo/beta_margin_mean': 3.2626266479492188, 'beta_dpo/beta_margin_std': 3.9688947200775146, 'beta_dpo/beta_margin_grad_mean': -0.2269459068775177, 'beta_dpo/beta_margin_grad_std': 0.27589160203933716, 'epoch': 0.16}
+ 16%|████████████▎                                                                 | 107/681 [05:19<37:58,  3.97s/it] 16%|████████████▎                                                                 | 108/681 [05:21<33:52,  3.55s/it]                                                                                                                     {'loss': 1.0071, 'grad_norm': 30.485048294067383, 'learning_rate': 4.952587095041881e-07, 'beta_dpo/gap_mean': 20.339149475097656, 'beta_dpo/gap_std': 24.504940032958984, 'beta_dpo/beta_used_raw': 0.017950953915715218, 'beta_dpo/beta_used': 0.035163089632987976, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7240760326385498, 'logits/rejected': -0.6844010949134827, 'beta_dpo/beta': 0.035163089632987976, 'beta_dpo/loss_margin_mean': 22.11771011352539, 'beta_dpo/beta_margin_mean': 0.7840278148651123, 'beta_dpo/beta_margin_std': 1.483026146888733, 'beta_dpo/beta_margin_grad_mean': -0.3810098469257355, 'beta_dpo/beta_margin_grad_std': 0.18505938351154327, 'epoch': 0.16}
+ 16%|████████████▎                                                                 | 108/681 [05:21<33:52,  3.55s/it] 16%|████████████▍                                                                 | 109/681 [05:24<31:20,  3.29s/it]                                                                                                                     {'loss': 0.7082, 'grad_norm': 72.3277359008789, 'learning_rate': 4.95006729368358e-07, 'beta_dpo/gap_mean': 21.11379051208496, 'beta_dpo/gap_std': 24.862241744995117, 'beta_dpo/beta_used_raw': 0.08255766332149506, 'beta_dpo/beta_used': 0.08255766332149506, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6247401833534241, 'logits/rejected': -0.5946367979049683, 'beta_dpo/beta': 0.08255766332149506, 'beta_dpo/loss_margin_mean': 24.515644073486328, 'beta_dpo/beta_margin_mean': 2.0719735622406006, 'beta_dpo/beta_margin_std': 2.4666452407836914, 'beta_dpo/beta_margin_grad_mean': -0.24582688510417938, 'beta_dpo/beta_margin_grad_std': 0.24141037464141846, 'epoch': 0.16}
+ 16%|████████████▍                                                                 | 109/681 [05:24<31:20,  3.29s/it] 16%|████████████▌                                                                 | 110/681 [05:27<29:28,  3.10s/it]                                                                                                                     {'loss': 1.2462, 'grad_norm': 12.362462043762207, 'learning_rate': 4.947482930773511e-07, 'beta_dpo/gap_mean': 21.73975372314453, 'beta_dpo/gap_std': 25.069347381591797, 'beta_dpo/beta_used_raw': -0.11108442395925522, 'beta_dpo/beta_used': 0.007696578744798899, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6756146550178528, 'logits/rejected': -0.6260861158370972, 'beta_dpo/beta': 0.007696578744798899, 'beta_dpo/loss_margin_mean': 22.480884552001953, 'beta_dpo/beta_margin_mean': 0.2259088009595871, 'beta_dpo/beta_margin_std': 0.35111066699028015, 'beta_dpo/beta_margin_grad_mean': -0.446740984916687, 'beta_dpo/beta_margin_grad_std': 0.07942461222410202, 'epoch': 0.16}
+ 16%|████████████▌                                                                 | 110/681 [05:27<29:28,  3.10s/it] 16%|████████████▋                                                                 | 111/681 [05:29<27:48,  2.93s/it]                                                                                                                     {'loss': 1.3676, 'grad_norm': 1.6921226978302002, 'learning_rate': 4.944834074412042e-07, 'beta_dpo/gap_mean': 21.86594009399414, 'beta_dpo/gap_std': 25.79961395263672, 'beta_dpo/beta_used_raw': -0.0781029760837555, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6994168758392334, 'logits/rejected': -0.6692637801170349, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 23.822509765625, 'beta_dpo/beta_margin_mean': 0.023822510614991188, 'beta_dpo/beta_margin_std': 0.028938332572579384, 'beta_dpo/beta_margin_grad_mean': -0.49404606223106384, 'beta_dpo/beta_margin_grad_std': 0.007231460884213448, 'epoch': 0.16}
+ 16%|████████████▋                                                                 | 111/681 [05:29<27:48,  2.93s/it] 16%|████████████▊                                                                 | 112/681 [05:31<25:51,  2.73s/it]                                                                                                                     {'loss': 0.7237, 'grad_norm': 29.376951217651367, 'learning_rate': 4.942120794399002e-07, 'beta_dpo/gap_mean': 21.06276512145996, 'beta_dpo/gap_std': 25.198822021484375, 'beta_dpo/beta_used_raw': -0.08103512227535248, 'beta_dpo/beta_used': 0.15165650844573975, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6914588212966919, 'logits/rejected': -0.6384344100952148, 'beta_dpo/beta': 0.15165650844573975, 'beta_dpo/loss_margin_mean': 15.551918029785156, 'beta_dpo/beta_margin_mean': 2.929415702819824, 'beta_dpo/beta_margin_std': 5.559157848358154, 'beta_dpo/beta_margin_grad_mean': -0.34309816360473633, 'beta_dpo/beta_margin_grad_std': 0.28766128420829773, 'epoch': 0.16}
+ 16%|████████████▊                                                                 | 112/681 [05:31<25:51,  2.73s/it] 17%|████████████▉                                                                 | 113/681 [05:34<25:36,  2.71s/it]                                                                                                                     {'loss': 1.0275, 'grad_norm': 73.8025894165039, 'learning_rate': 4.939343162231841e-07, 'beta_dpo/gap_mean': 20.280515670776367, 'beta_dpo/gap_std': 24.34324836730957, 'beta_dpo/beta_used_raw': 0.0037154704332351685, 'beta_dpo/beta_used': 0.06923054903745651, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6436402797698975, 'logits/rejected': -0.5879355669021606, 'beta_dpo/beta': 0.06923054903745651, 'beta_dpo/loss_margin_mean': 18.54205894470215, 'beta_dpo/beta_margin_mean': 1.2863365411758423, 'beta_dpo/beta_margin_std': 2.375030994415283, 'beta_dpo/beta_margin_grad_mean': -0.37122005224227905, 'beta_dpo/beta_margin_grad_std': 0.23908159136772156, 'epoch': 0.17}
+ 17%|████████████▉                                                                 | 113/681 [05:34<25:36,  2.71s/it] 17%|█████████████                                                                 | 114/681 [05:36<24:51,  2.63s/it]                                                                                                                     {'loss': 1.1018, 'grad_norm': 182.32144165039062, 'learning_rate': 4.936501251103751e-07, 'beta_dpo/gap_mean': 21.269786834716797, 'beta_dpo/gap_std': 25.5091552734375, 'beta_dpo/beta_used_raw': 0.0014918148517608643, 'beta_dpo/beta_used': 0.10792845487594604, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6645747423171997, 'logits/rejected': -0.6166965365409851, 'beta_dpo/beta': 0.10792845487594604, 'beta_dpo/loss_margin_mean': 26.308393478393555, 'beta_dpo/beta_margin_mean': 3.3032939434051514, 'beta_dpo/beta_margin_std': 6.392845630645752, 'beta_dpo/beta_margin_grad_mean': -0.3395880460739136, 'beta_dpo/beta_margin_grad_std': 0.2739325165748596, 'epoch': 0.17}
+ 17%|█████████████                                                                 | 114/681 [05:36<24:51,  2.63s/it] 17%|█████████████▏                                                                | 115/681 [05:39<24:58,  2.65s/it]                                                                                                                     {'loss': 1.3694, 'grad_norm': 1.579263687133789, 'learning_rate': 4.933595135901732e-07, 'beta_dpo/gap_mean': 20.974491119384766, 'beta_dpo/gap_std': 26.741947174072266, 'beta_dpo/beta_used_raw': -0.13187555968761444, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7198022603988647, 'logits/rejected': -0.6816444396972656, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 19.854700088500977, 'beta_dpo/beta_margin_mean': 0.019854702055454254, 'beta_dpo/beta_margin_std': 0.03287569805979729, 'beta_dpo/beta_margin_grad_mean': -0.4950384795665741, 'beta_dpo/beta_margin_grad_std': 0.008213133551180363, 'epoch': 0.17}
+ 17%|█████████████▏                                                                | 115/681 [05:39<24:58,  2.65s/it] 17%|█████████████▎                                                                | 116/681 [05:41<24:09,  2.57s/it]                                                                                                                     {'loss': 0.9244, 'grad_norm': 229.8918914794922, 'learning_rate': 4.930624893204624e-07, 'beta_dpo/gap_mean': 20.802410125732422, 'beta_dpo/gap_std': 26.271785736083984, 'beta_dpo/beta_used_raw': 7.016956806182861e-05, 'beta_dpo/beta_used': 0.14748090505599976, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.703331708908081, 'logits/rejected': -0.6744290590286255, 'beta_dpo/beta': 0.14748090505599976, 'beta_dpo/loss_margin_mean': 20.255638122558594, 'beta_dpo/beta_margin_mean': 3.44006085395813, 'beta_dpo/beta_margin_std': 5.296873569488525, 'beta_dpo/beta_margin_grad_mean': -0.3244438171386719, 'beta_dpo/beta_margin_grad_std': 0.25262880325317383, 'epoch': 0.17}
+ 17%|█████████████▎                                                                | 116/681 [05:42<24:09,  2.57s/it] 17%|█████████████▍                                                                | 117/681 [05:44<23:44,  2.53s/it]                                                                                                                     {'loss': 1.3696, 'grad_norm': 1.411366581916809, 'learning_rate': 4.927590601281083e-07, 'beta_dpo/gap_mean': 20.31169891357422, 'beta_dpo/gap_std': 25.738601684570312, 'beta_dpo/beta_used_raw': -0.11201402544975281, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6768569946289062, 'logits/rejected': -0.6319583654403687, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 16.92489242553711, 'beta_dpo/beta_margin_mean': 0.016924891620874405, 'beta_dpo/beta_margin_std': 0.023586571216583252, 'beta_dpo/beta_margin_grad_mean': -0.49576959013938904, 'beta_dpo/beta_margin_grad_std': 0.0058947219513356686, 'epoch': 0.17}
+ 17%|█████████████▍                                                                | 117/681 [05:44<23:44,  2.53s/it] 17%|█████████████▌                                                                | 118/681 [05:46<23:42,  2.53s/it]                                                                                                                     {'loss': 0.9355, 'grad_norm': 34.99771499633789, 'learning_rate': 4.924492340087524e-07, 'beta_dpo/gap_mean': 19.919933319091797, 'beta_dpo/gap_std': 25.017112731933594, 'beta_dpo/beta_used_raw': -0.008384305983781815, 'beta_dpo/beta_used': 0.05472584441304207, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7068147659301758, 'logits/rejected': -0.6715903282165527, 'beta_dpo/beta': 0.05472584441304207, 'beta_dpo/loss_margin_mean': 18.486082077026367, 'beta_dpo/beta_margin_mean': 1.0326712131500244, 'beta_dpo/beta_margin_std': 1.876607060432434, 'beta_dpo/beta_margin_grad_mean': -0.3660266399383545, 'beta_dpo/beta_margin_grad_std': 0.20633184909820557, 'epoch': 0.17}
+ 17%|█████████████▌                                                                | 118/681 [05:46<23:42,  2.53s/it] 17%|█████████████▋                                                                | 119/681 [05:49<24:09,  2.58s/it]                                                                                                                     {'loss': 1.0162, 'grad_norm': 146.54409790039062, 'learning_rate': 4.92133019126601e-07, 'beta_dpo/gap_mean': 19.92425537109375, 'beta_dpo/gap_std': 24.904251098632812, 'beta_dpo/beta_used_raw': -0.03881131112575531, 'beta_dpo/beta_used': 0.10491637140512466, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7222672700881958, 'logits/rejected': -0.6985388994216919, 'beta_dpo/beta': 0.10491637140512466, 'beta_dpo/loss_margin_mean': 19.200084686279297, 'beta_dpo/beta_margin_mean': 2.3737905025482178, 'beta_dpo/beta_margin_std': 4.37314510345459, 'beta_dpo/beta_margin_grad_mean': -0.33534765243530273, 'beta_dpo/beta_margin_grad_std': 0.2645687460899353, 'epoch': 0.17}
+ 17%|█████████████▋                                                                | 119/681 [05:49<24:09,  2.58s/it] 18%|█████████████▋                                                                | 120/681 [05:52<24:54,  2.66s/it]                                                                                                                     {'loss': 0.6997, 'grad_norm': 204.10935974121094, 'learning_rate': 4.918104238142103e-07, 'beta_dpo/gap_mean': 20.34283447265625, 'beta_dpo/gap_std': 25.407583236694336, 'beta_dpo/beta_used_raw': 0.21818916499614716, 'beta_dpo/beta_used': 0.21818916499614716, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7220108509063721, 'logits/rejected': -0.6780139207839966, 'beta_dpo/beta': 0.21818916499614716, 'beta_dpo/loss_margin_mean': 24.195154190063477, 'beta_dpo/beta_margin_mean': 5.290563106536865, 'beta_dpo/beta_margin_std': 6.116404056549072, 'beta_dpo/beta_margin_grad_mean': -0.1877627968788147, 'beta_dpo/beta_margin_grad_std': 0.3119850158691406, 'epoch': 0.18}
+ 18%|█████████████▋                                                                | 120/681 [05:52<24:54,  2.66s/it] 18%|█████████████▊                                                                | 121/681 [05:55<24:47,  2.66s/it]                                                                                                                     {'loss': 1.1437, 'grad_norm': 23.686054229736328, 'learning_rate': 4.91481456572267e-07, 'beta_dpo/gap_mean': 21.67633819580078, 'beta_dpo/gap_std': 26.208454132080078, 'beta_dpo/beta_used_raw': 0.012065595015883446, 'beta_dpo/beta_used': 0.01847536489367485, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6834492087364197, 'logits/rejected': -0.6698263883590698, 'beta_dpo/beta': 0.01847536489367485, 'beta_dpo/loss_margin_mean': 27.461488723754883, 'beta_dpo/beta_margin_mean': 0.5521989464759827, 'beta_dpo/beta_margin_std': 0.942378044128418, 'beta_dpo/beta_margin_grad_mean': -0.3978184163570404, 'beta_dpo/beta_margin_grad_std': 0.16114307940006256, 'epoch': 0.18}
+ 18%|█████████████▊                                                                | 121/681 [05:55<24:47,  2.66s/it] 18%|█████████████▉                                                                | 122/681 [05:57<23:48,  2.56s/it]                                                                                                                     {'loss': 0.3756, 'grad_norm': 238.48973083496094, 'learning_rate': 4.911461260693638e-07, 'beta_dpo/gap_mean': 23.661128997802734, 'beta_dpo/gap_std': 26.714675903320312, 'beta_dpo/beta_used_raw': 0.45700308680534363, 'beta_dpo/beta_used': 0.45700308680534363, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6555478572845459, 'logits/rejected': -0.6584290266036987, 'beta_dpo/beta': 0.45700308680534363, 'beta_dpo/loss_margin_mean': 34.74848175048828, 'beta_dpo/beta_margin_mean': 15.591158866882324, 'beta_dpo/beta_margin_std': 16.326433181762695, 'beta_dpo/beta_margin_grad_mean': -0.08143386244773865, 'beta_dpo/beta_margin_grad_std': 0.2316262423992157, 'epoch': 0.18}
+ 18%|█████████████▉                                                                | 122/681 [05:57<23:48,  2.56s/it] 18%|██████████████                                                                | 123/681 [06:00<24:14,  2.61s/it]                                                                                                                     {'loss': 1.3672, 'grad_norm': 1.7068573236465454, 'learning_rate': 4.908044411417711e-07, 'beta_dpo/gap_mean': 24.12826919555664, 'beta_dpo/gap_std': 27.712556838989258, 'beta_dpo/beta_used_raw': -0.1897989809513092, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6849197149276733, 'logits/rejected': -0.6539350152015686, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 22.43146324157715, 'beta_dpo/beta_margin_mean': 0.02243146486580372, 'beta_dpo/beta_margin_std': 0.033270444720983505, 'beta_dpo/beta_margin_grad_mean': -0.4943942129611969, 'beta_dpo/beta_margin_grad_std': 0.008313042111694813, 'epoch': 0.18}
+ 18%|██████████████                                                                | 123/681 [06:00<24:14,  2.61s/it] 18%|██████████████▏                                                               | 124/681 [06:02<24:06,  2.60s/it]                                                                                                                     {'loss': 1.0074, 'grad_norm': 38.06232833862305, 'learning_rate': 4.904564107932048e-07, 'beta_dpo/gap_mean': 24.793880462646484, 'beta_dpo/gap_std': 30.202411651611328, 'beta_dpo/beta_used_raw': -0.07082332670688629, 'beta_dpo/beta_used': 0.03426466882228851, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6627172231674194, 'logits/rejected': -0.6565097570419312, 'beta_dpo/beta': 0.03426466882228851, 'beta_dpo/loss_margin_mean': 29.717092514038086, 'beta_dpo/beta_margin_mean': 1.0015679597854614, 'beta_dpo/beta_margin_std': 1.8775554895401, 'beta_dpo/beta_margin_grad_mean': -0.3685888350009918, 'beta_dpo/beta_margin_grad_std': 0.2092631459236145, 'epoch': 0.18}
+ 18%|██████████████▏                                                               | 124/681 [06:02<24:06,  2.60s/it] 18%|██████████████▎                                                               | 125/681 [06:05<23:40,  2.55s/it]                                                                                                                     {'loss': 1.3587, 'grad_norm': 2.35784649848938, 'learning_rate': 4.90102044194588e-07, 'beta_dpo/gap_mean': 25.316532135009766, 'beta_dpo/gap_std': 30.038803100585938, 'beta_dpo/beta_used_raw': -0.12858377397060394, 'beta_dpo/beta_used': 0.0012786721345037222, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6600132584571838, 'logits/rejected': -0.6433917284011841, 'beta_dpo/beta': 0.0012786721345037222, 'beta_dpo/loss_margin_mean': 27.47158432006836, 'beta_dpo/beta_margin_mean': 0.03472711890935898, 'beta_dpo/beta_margin_std': 0.03609345108270645, 'beta_dpo/beta_margin_grad_mean': -0.4913226366043091, 'beta_dpo/beta_margin_grad_std': 0.009015963412821293, 'epoch': 0.18}
+ 18%|██████████████▎                                                               | 125/681 [06:05<23:40,  2.55s/it] 19%|██████████████▍                                                               | 126/681 [06:07<24:01,  2.60s/it]                                                                                                                     {'loss': 0.9888, 'grad_norm': 47.1953125, 'learning_rate': 4.897413506838102e-07, 'beta_dpo/gap_mean': 25.63544464111328, 'beta_dpo/gap_std': 29.89664649963379, 'beta_dpo/beta_used_raw': -0.0951186865568161, 'beta_dpo/beta_used': 0.0375693216919899, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6728538274765015, 'logits/rejected': -0.6457461714744568, 'beta_dpo/beta': 0.0375693216919899, 'beta_dpo/loss_margin_mean': 26.32620620727539, 'beta_dpo/beta_margin_mean': 0.9979441165924072, 'beta_dpo/beta_margin_std': 1.667494297027588, 'beta_dpo/beta_margin_grad_mean': -0.3544065058231354, 'beta_dpo/beta_margin_grad_std': 0.2188321352005005, 'epoch': 0.19}
+ 19%|██████████████▍                                                               | 126/681 [06:07<24:01,  2.60s/it] 19%|██████████████▌                                                               | 127/681 [06:10<24:04,  2.61s/it]                                                                                                                     {'loss': 1.3671, 'grad_norm': 1.646366834640503, 'learning_rate': 4.89374339765481e-07, 'beta_dpo/gap_mean': 24.85071563720703, 'beta_dpo/gap_std': 29.267414093017578, 'beta_dpo/beta_used_raw': -0.22815854847431183, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6736807227134705, 'logits/rejected': -0.6437186002731323, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 20.585670471191406, 'beta_dpo/beta_margin_mean': 0.020585671067237854, 'beta_dpo/beta_margin_std': 0.02418256551027298, 'beta_dpo/beta_margin_grad_mean': -0.49485456943511963, 'beta_dpo/beta_margin_grad_std': 0.006044152192771435, 'epoch': 0.19}
+ 19%|██████████████▌                                                               | 127/681 [06:10<24:04,  2.61s/it] 19%|██████████████▋                                                               | 128/681 [06:13<24:12,  2.63s/it]                                                                                                                     {'loss': 1.3663, 'grad_norm': 1.6088193655014038, 'learning_rate': 4.890010211106795e-07, 'beta_dpo/gap_mean': 24.056352615356445, 'beta_dpo/gap_std': 29.08978271484375, 'beta_dpo/beta_used_raw': -0.13018402457237244, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6654571294784546, 'logits/rejected': -0.62144935131073, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 21.48061752319336, 'beta_dpo/beta_margin_mean': 0.021480618044734, 'beta_dpo/beta_margin_std': 0.029524413868784904, 'beta_dpo/beta_margin_grad_mean': -0.4946313500404358, 'beta_dpo/beta_margin_grad_std': 0.007378284819424152, 'epoch': 0.19}
+ 19%|██████████████▋                                                               | 128/681 [06:13<24:12,  2.63s/it] 19%|██████████████▊                                                               | 129/681 [06:15<23:57,  2.60s/it]                                                                                                                     {'loss': 1.3665, 'grad_norm': 1.709029197692871, 'learning_rate': 4.88621404556699e-07, 'beta_dpo/gap_mean': 23.854827880859375, 'beta_dpo/gap_std': 30.1458740234375, 'beta_dpo/beta_used_raw': -0.12518861889839172, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6773253679275513, 'logits/rejected': -0.6511229276657104, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 22.521244049072266, 'beta_dpo/beta_margin_mean': 0.02252124436199665, 'beta_dpo/beta_margin_std': 0.037395406514406204, 'beta_dpo/beta_margin_grad_mean': -0.4943726360797882, 'beta_dpo/beta_margin_grad_std': 0.009340907447040081, 'epoch': 0.19}
+ 19%|██████████████▊                                                               | 129/681 [06:15<23:57,  2.60s/it] 19%|██████████████▉                                                               | 130/681 [06:18<23:22,  2.55s/it]                                                                                                                     {'loss': 1.8792, 'grad_norm': 376.320556640625, 'learning_rate': 4.882355001067891e-07, 'beta_dpo/gap_mean': 24.651588439941406, 'beta_dpo/gap_std': 31.216594696044922, 'beta_dpo/beta_used_raw': 0.2993201017379761, 'beta_dpo/beta_used': 0.31604424118995667, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6749308705329895, 'logits/rejected': -0.6657023429870605, 'beta_dpo/beta': 0.31604424118995667, 'beta_dpo/loss_margin_mean': 32.33549880981445, 'beta_dpo/beta_margin_mean': 13.17651653289795, 'beta_dpo/beta_margin_std': 20.62891387939453, 'beta_dpo/beta_margin_grad_mean': -0.3025071620941162, 'beta_dpo/beta_margin_grad_std': 0.28252968192100525, 'epoch': 0.19}
+ 19%|██████████████▉                                                               | 130/681 [06:18<23:22,  2.55s/it] 19%|███████████████                                                               | 131/681 [06:20<23:32,  2.57s/it]                                                                                                                     {'loss': 0.2626, 'grad_norm': 32.02171325683594, 'learning_rate': 4.878433179298909e-07, 'beta_dpo/gap_mean': 26.40115737915039, 'beta_dpo/gap_std': 31.766616821289062, 'beta_dpo/beta_used_raw': 0.31704258918762207, 'beta_dpo/beta_used': 0.31704258918762207, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6722965240478516, 'logits/rejected': -0.6686934232711792, 'beta_dpo/beta': 0.31704258918762207, 'beta_dpo/loss_margin_mean': 31.684356689453125, 'beta_dpo/beta_margin_mean': 10.250054359436035, 'beta_dpo/beta_margin_std': 14.311327934265137, 'beta_dpo/beta_margin_grad_mean': -0.13735538721084595, 'beta_dpo/beta_margin_grad_std': 0.2471843659877777, 'epoch': 0.19}
+ 19%|███████████████                                                               | 131/681 [06:20<23:32,  2.57s/it] 19%|███████████████                                                               | 132/681 [06:23<23:34,  2.58s/it]                                                                                                                     {'loss': 1.0233, 'grad_norm': 109.02853393554688, 'learning_rate': 4.874448683603694e-07, 'beta_dpo/gap_mean': 27.047744750976562, 'beta_dpo/gap_std': 32.3395881652832, 'beta_dpo/beta_used_raw': -0.14731627702713013, 'beta_dpo/beta_used': 0.07168679684400558, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7075382471084595, 'logits/rejected': -0.6883822679519653, 'beta_dpo/beta': 0.07168679684400558, 'beta_dpo/loss_margin_mean': 28.040454864501953, 'beta_dpo/beta_margin_mean': 2.218749761581421, 'beta_dpo/beta_margin_std': 3.9757206439971924, 'beta_dpo/beta_margin_grad_mean': -0.3351624310016632, 'beta_dpo/beta_margin_grad_std': 0.2476821094751358, 'epoch': 0.19}
+ 19%|███████████████                                                               | 132/681 [06:23<23:34,  2.58s/it] 20%|███████████████▏                                                              | 133/681 [06:26<24:06,  2.64s/it]                                                                                                                     {'loss': 1.365, 'grad_norm': 1.9039520025253296, 'learning_rate': 4.870401618977415e-07, 'beta_dpo/gap_mean': 26.851011276245117, 'beta_dpo/gap_std': 33.47434997558594, 'beta_dpo/beta_used_raw': -0.21696753799915314, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6817045211791992, 'logits/rejected': -0.6619011163711548, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 25.90283966064453, 'beta_dpo/beta_margin_mean': 0.025902841240167618, 'beta_dpo/beta_margin_std': 0.037025336176157, 'beta_dpo/beta_margin_grad_mean': -0.4935277998447418, 'beta_dpo/beta_margin_grad_std': 0.009248698130249977, 'epoch': 0.2}
+ 20%|███████████████▏                                                              | 133/681 [06:26<24:06,  2.64s/it] 20%|███████████████▎                                                              | 134/681 [06:28<23:14,  2.55s/it]                                                                                                                     {'loss': 0.8588, 'grad_norm': 41.841182708740234, 'learning_rate': 4.866292092063986e-07, 'beta_dpo/gap_mean': 26.90046501159668, 'beta_dpo/gap_std': 33.11681365966797, 'beta_dpo/beta_used_raw': -0.11817823350429535, 'beta_dpo/beta_used': 0.06148982420563698, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.682968020439148, 'logits/rejected': -0.6522467136383057, 'beta_dpo/beta': 0.06148982420563698, 'beta_dpo/loss_margin_mean': 28.993818283081055, 'beta_dpo/beta_margin_mean': 1.999468207359314, 'beta_dpo/beta_margin_std': 3.1728920936584473, 'beta_dpo/beta_margin_grad_mean': -0.30357643961906433, 'beta_dpo/beta_margin_grad_std': 0.22313292324543, 'epoch': 0.2}
+ 20%|███████████████▎                                                              | 134/681 [06:28<23:14,  2.55s/it] 20%|███████████████▍                                                              | 135/681 [06:31<22:59,  2.53s/it]                                                                                                                     {'loss': 0.8377, 'grad_norm': 202.7677459716797, 'learning_rate': 4.862120211153265e-07, 'beta_dpo/gap_mean': 28.413272857666016, 'beta_dpo/gap_std': 33.834190368652344, 'beta_dpo/beta_used_raw': 0.14902925491333008, 'beta_dpo/beta_used': 0.2148977667093277, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6785898208618164, 'logits/rejected': -0.6952340602874756, 'beta_dpo/beta': 0.2148977667093277, 'beta_dpo/loss_margin_mean': 35.534969329833984, 'beta_dpo/beta_margin_mean': 7.662230968475342, 'beta_dpo/beta_margin_std': 12.879323959350586, 'beta_dpo/beta_margin_grad_mean': -0.30633312463760376, 'beta_dpo/beta_margin_grad_std': 0.27675861120224, 'epoch': 0.2}
+ 20%|███████████████▍                                                              | 135/681 [06:31<22:59,  2.53s/it] 20%|███████████████▌                                                              | 136/681 [06:33<23:31,  2.59s/it]                                                                                                                     {'loss': 1.2094, 'grad_norm': 16.698957443237305, 'learning_rate': 4.857886086178193e-07, 'beta_dpo/gap_mean': 28.481983184814453, 'beta_dpo/gap_std': 35.90342330932617, 'beta_dpo/beta_used_raw': -0.34298622608184814, 'beta_dpo/beta_used': 0.008590362034738064, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6989582777023315, 'logits/rejected': -0.6765180826187134, 'beta_dpo/beta': 0.008590362034738064, 'beta_dpo/loss_margin_mean': 24.999900817871094, 'beta_dpo/beta_margin_mean': 0.2566927969455719, 'beta_dpo/beta_margin_std': 0.5989749431610107, 'beta_dpo/beta_margin_grad_mean': -0.4468691945075989, 'beta_dpo/beta_margin_grad_std': 0.11143101006746292, 'epoch': 0.2}
+ 20%|███████████████▌                                                              | 136/681 [06:33<23:31,  2.59s/it] 20%|███████████████▋                                                              | 137/681 [06:36<23:22,  2.58s/it]                                                                                                                     {'loss': 0.8399, 'grad_norm': 72.38736724853516, 'learning_rate': 4.853589828711902e-07, 'beta_dpo/gap_mean': 29.415794372558594, 'beta_dpo/gap_std': 37.33689498901367, 'beta_dpo/beta_used_raw': -0.3468559980392456, 'beta_dpo/beta_used': 0.1424337774515152, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6640630960464478, 'logits/rejected': -0.6742027401924133, 'beta_dpo/beta': 0.1424337774515152, 'beta_dpo/loss_margin_mean': 37.266632080078125, 'beta_dpo/beta_margin_mean': 5.513402938842773, 'beta_dpo/beta_margin_std': 9.72019100189209, 'beta_dpo/beta_margin_grad_mean': -0.29480937123298645, 'beta_dpo/beta_margin_grad_std': 0.2575525939464569, 'epoch': 0.2}
+ 20%|███████████████▋                                                              | 137/681 [06:36<23:22,  2.58s/it] 20%|███████████████▊                                                              | 138/681 [06:38<22:37,  2.50s/it]                                                                                                                     {'loss': 0.7798, 'grad_norm': 56.19173812866211, 'learning_rate': 4.849231551964771e-07, 'beta_dpo/gap_mean': 29.399906158447266, 'beta_dpo/gap_std': 37.75701141357422, 'beta_dpo/beta_used_raw': 0.07956646382808685, 'beta_dpo/beta_used': 0.11884160339832306, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6535968780517578, 'logits/rejected': -0.6304416656494141, 'beta_dpo/beta': 0.11884160339832306, 'beta_dpo/loss_margin_mean': 28.36585235595703, 'beta_dpo/beta_margin_mean': 3.768012046813965, 'beta_dpo/beta_margin_std': 7.199725151062012, 'beta_dpo/beta_margin_grad_mean': -0.3148714303970337, 'beta_dpo/beta_margin_grad_std': 0.2580578923225403, 'epoch': 0.2}
+ 20%|███████████████▊                                                              | 138/681 [06:38<22:37,  2.50s/it] 20%|███████████████▉                                                              | 139/681 [06:40<22:14,  2.46s/it]                                                                                                                     {'loss': 1.5227, 'grad_norm': 566.4978637695312, 'learning_rate': 4.844811370781446e-07, 'beta_dpo/gap_mean': 30.00773811340332, 'beta_dpo/gap_std': 37.6620979309082, 'beta_dpo/beta_used_raw': 0.39647993445396423, 'beta_dpo/beta_used': 0.39647993445396423, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.672115683555603, 'logits/rejected': -0.6479353904724121, 'beta_dpo/beta': 0.39647993445396423, 'beta_dpo/loss_margin_mean': 33.331172943115234, 'beta_dpo/beta_margin_mean': 13.393891334533691, 'beta_dpo/beta_margin_std': 16.2137393951416, 'beta_dpo/beta_margin_grad_mean': -0.17857220768928528, 'beta_dpo/beta_margin_grad_std': 0.34773120284080505, 'epoch': 0.2}
+ 20%|███████████████▉                                                              | 139/681 [06:41<22:14,  2.46s/it] 21%|████████████████                                                              | 140/681 [06:43<21:52,  2.43s/it]                                                                                                                     {'loss': 1.3593, 'grad_norm': 2.395193576812744, 'learning_rate': 4.840329401637809e-07, 'beta_dpo/gap_mean': 30.288619995117188, 'beta_dpo/gap_std': 38.075069427490234, 'beta_dpo/beta_used_raw': -0.07030771672725677, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6980350017547607, 'logits/rejected': -0.6766492128372192, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 30.282001495361328, 'beta_dpo/beta_margin_mean': 0.030282003805041313, 'beta_dpo/beta_margin_std': 0.03948511183261871, 'beta_dpo/beta_margin_grad_mean': -0.4924333691596985, 'beta_dpo/beta_margin_grad_std': 0.009864427149295807, 'epoch': 0.21}
+ 21%|████████████████                                                              | 140/681 [06:43<21:52,  2.43s/it] 21%|████████████████▏                                                             | 141/681 [06:45<22:19,  2.48s/it]                                                                                                                     {'loss': 0.6739, 'grad_norm': 249.5445098876953, 'learning_rate': 4.83578576263792e-07, 'beta_dpo/gap_mean': 30.184303283691406, 'beta_dpo/gap_std': 38.3173828125, 'beta_dpo/beta_used_raw': 0.20956987142562866, 'beta_dpo/beta_used': 0.20956987142562866, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6725201606750488, 'logits/rejected': -0.6453160047531128, 'beta_dpo/beta': 0.20956987142562866, 'beta_dpo/loss_margin_mean': 29.690879821777344, 'beta_dpo/beta_margin_mean': 6.225460052490234, 'beta_dpo/beta_margin_std': 8.140890121459961, 'beta_dpo/beta_margin_grad_mean': -0.19632378220558167, 'beta_dpo/beta_margin_grad_std': 0.3448325991630554, 'epoch': 0.21}
+ 21%|████████████████▏                                                             | 141/681 [06:45<22:19,  2.48s/it] 21%|████████████████▎                                                             | 142/681 [06:48<23:27,  2.61s/it]                                                                                                                     {'loss': 0.9589, 'grad_norm': 155.07594299316406, 'learning_rate': 4.83118057351089e-07, 'beta_dpo/gap_mean': 30.36768341064453, 'beta_dpo/gap_std': 39.55695343017578, 'beta_dpo/beta_used_raw': 0.20784735679626465, 'beta_dpo/beta_used': 0.31159713864326477, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6555507183074951, 'logits/rejected': -0.6462887525558472, 'beta_dpo/beta': 0.31159713864326477, 'beta_dpo/loss_margin_mean': 33.904624938964844, 'beta_dpo/beta_margin_mean': 12.820926666259766, 'beta_dpo/beta_margin_std': 21.074304580688477, 'beta_dpo/beta_margin_grad_mean': -0.3195469379425049, 'beta_dpo/beta_margin_grad_std': 0.2950160801410675, 'epoch': 0.21}
+ 21%|████████████████▎                                                             | 142/681 [06:48<23:27,  2.61s/it] 21%|████████████████▍                                                             | 143/681 [06:51<23:49,  2.66s/it]                                                                                                                     {'loss': 1.3623, 'grad_norm': 2.0018367767333984, 'learning_rate': 4.826513955607734e-07, 'beta_dpo/gap_mean': 29.773212432861328, 'beta_dpo/gap_std': 39.13104248046875, 'beta_dpo/beta_used_raw': -0.2274360954761505, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6578415632247925, 'logits/rejected': -0.6270245313644409, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 21.574241638183594, 'beta_dpo/beta_margin_mean': 0.021574243903160095, 'beta_dpo/beta_margin_std': 0.035751067101955414, 'beta_dpo/beta_margin_grad_mean': -0.49460893869400024, 'beta_dpo/beta_margin_grad_std': 0.008932164870202541, 'epoch': 0.21}
+ 21%|████████████████▍                                                             | 143/681 [06:51<23:49,  2.66s/it] 21%|████████████████▍                                                             | 144/681 [06:54<24:17,  2.71s/it]                                                                                                                     {'loss': 1.0443, 'grad_norm': 75.73566436767578, 'learning_rate': 4.821786031898176e-07, 'beta_dpo/gap_mean': 28.968791961669922, 'beta_dpo/gap_std': 37.89672088623047, 'beta_dpo/beta_used_raw': -0.1444738358259201, 'beta_dpo/beta_used': 0.0523165799677372, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6322454214096069, 'logits/rejected': -0.5843130350112915, 'beta_dpo/beta': 0.0523165799677372, 'beta_dpo/loss_margin_mean': 28.176090240478516, 'beta_dpo/beta_margin_mean': 1.4633898735046387, 'beta_dpo/beta_margin_std': 2.898139238357544, 'beta_dpo/beta_margin_grad_mean': -0.3649788200855255, 'beta_dpo/beta_margin_grad_std': 0.2543392479419708, 'epoch': 0.21}
+ 21%|████████████████▍                                                             | 144/681 [06:54<24:17,  2.71s/it] 21%|████████████████▌                                                             | 145/681 [06:56<23:25,  2.62s/it]                                                                                                                     {'loss': 1.3604, 'grad_norm': 2.1011862754821777, 'learning_rate': 4.816996926967401e-07, 'beta_dpo/gap_mean': 28.99945640563965, 'beta_dpo/gap_std': 36.7828254699707, 'beta_dpo/beta_used_raw': -0.06517390161752701, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6506826877593994, 'logits/rejected': -0.6125441789627075, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 28.61880874633789, 'beta_dpo/beta_margin_mean': 0.028618808835744858, 'beta_dpo/beta_margin_std': 0.03283938020467758, 'beta_dpo/beta_margin_grad_mean': -0.4928479492664337, 'beta_dpo/beta_margin_grad_std': 0.008205600082874298, 'epoch': 0.21}
+ 21%|████████████████▌                                                             | 145/681 [06:56<23:25,  2.62s/it] 21%|████████████████▋                                                             | 146/681 [06:59<23:14,  2.61s/it]                                                                                                                     {'loss': 1.3663, 'grad_norm': 1.9944401979446411, 'learning_rate': 4.812146767012779e-07, 'beta_dpo/gap_mean': 27.972278594970703, 'beta_dpo/gap_std': 36.326202392578125, 'beta_dpo/beta_used_raw': -0.353656530380249, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6603084802627563, 'logits/rejected': -0.608822226524353, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 22.353261947631836, 'beta_dpo/beta_margin_mean': 0.022353263571858406, 'beta_dpo/beta_margin_std': 0.035862602293491364, 'beta_dpo/beta_margin_grad_mean': -0.4944137632846832, 'beta_dpo/beta_margin_grad_std': 0.008961321786046028, 'epoch': 0.21}
+ 21%|████████████████▋                                                             | 146/681 [06:59<23:14,  2.61s/it] 22%|████████████████▊                                                             | 147/681 [07:02<23:16,  2.61s/it]                                                                                                                     {'loss': 1.1016, 'grad_norm': 132.78941345214844, 'learning_rate': 4.807235679840536e-07, 'beta_dpo/gap_mean': 28.153667449951172, 'beta_dpo/gap_std': 37.32135009765625, 'beta_dpo/beta_used_raw': -0.02383120357990265, 'beta_dpo/beta_used': 0.06166262924671173, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6173018217086792, 'logits/rejected': -0.5760653018951416, 'beta_dpo/beta': 0.06166262924671173, 'beta_dpo/loss_margin_mean': 30.588022232055664, 'beta_dpo/beta_margin_mean': 2.0429532527923584, 'beta_dpo/beta_margin_std': 4.145395278930664, 'beta_dpo/beta_margin_grad_mean': -0.35987135767936707, 'beta_dpo/beta_margin_grad_std': 0.25737276673316956, 'epoch': 0.22}
+ 22%|████████████████▊                                                             | 147/681 [07:02<23:16,  2.61s/it] 22%|████████████████▉                                                             | 148/681 [07:04<23:04,  2.60s/it]                                                                                                                     {'loss': 1.3644, 'grad_norm': 2.2173750400543213, 'learning_rate': 4.802263794862384e-07, 'beta_dpo/gap_mean': 27.30005645751953, 'beta_dpo/gap_std': 36.48552703857422, 'beta_dpo/beta_used_raw': -0.20661629736423492, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6911383271217346, 'logits/rejected': -0.6686098575592041, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 25.432477951049805, 'beta_dpo/beta_margin_mean': 0.02543247863650322, 'beta_dpo/beta_margin_std': 0.03496631607413292, 'beta_dpo/beta_margin_grad_mean': -0.49364525079727173, 'beta_dpo/beta_margin_grad_std': 0.008732988499104977, 'epoch': 0.22}
+ 22%|████████████████▉                                                             | 148/681 [07:04<23:04,  2.60s/it] 22%|█████████████████                                                             | 149/681 [07:07<23:13,  2.62s/it]                                                                                                                     {'loss': 0.9517, 'grad_norm': 433.311279296875, 'learning_rate': 4.797231243092118e-07, 'beta_dpo/gap_mean': 29.230058670043945, 'beta_dpo/gap_std': 37.05466079711914, 'beta_dpo/beta_used_raw': 0.21206964552402496, 'beta_dpo/beta_used': 0.2956673502922058, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6822164058685303, 'logits/rejected': -0.6580536365509033, 'beta_dpo/beta': 0.2956673502922058, 'beta_dpo/loss_margin_mean': 35.43006896972656, 'beta_dpo/beta_margin_mean': 12.983054161071777, 'beta_dpo/beta_margin_std': 21.63262176513672, 'beta_dpo/beta_margin_grad_mean': -0.30034562945365906, 'beta_dpo/beta_margin_grad_std': 0.2807537615299225, 'epoch': 0.22}
+ 22%|█████████████████                                                             | 149/681 [07:07<23:13,  2.62s/it] 22%|█████████████████▏                                                            | 150/681 [07:09<23:05,  2.61s/it]                                                                                                                     {'loss': 0.8393, 'grad_norm': 67.81720733642578, 'learning_rate': 4.792138157142157e-07, 'beta_dpo/gap_mean': 30.138582229614258, 'beta_dpo/gap_std': 38.105072021484375, 'beta_dpo/beta_used_raw': -0.12643922865390778, 'beta_dpo/beta_used': 0.06045344099402428, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6348152160644531, 'logits/rejected': -0.6246376037597656, 'beta_dpo/beta': 0.06045344099402428, 'beta_dpo/loss_margin_mean': 33.075477600097656, 'beta_dpo/beta_margin_mean': 2.6005029678344727, 'beta_dpo/beta_margin_std': 4.630469799041748, 'beta_dpo/beta_margin_grad_mean': -0.3100597858428955, 'beta_dpo/beta_margin_grad_std': 0.23861265182495117, 'epoch': 0.22}
+ 22%|█████████████████▏                                                            | 150/681 [07:09<23:05,  2.61s/it] 22%|█████████████████▎                                                            | 151/681 [07:12<22:30,  2.55s/it]                                                                                                                     {'loss': 0.7063, 'grad_norm': 232.2014923095703, 'learning_rate': 4.786984671220053e-07, 'beta_dpo/gap_mean': 30.40851593017578, 'beta_dpo/gap_std': 38.59818649291992, 'beta_dpo/beta_used_raw': 0.23719097673892975, 'beta_dpo/beta_used': 0.23719097673892975, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7024506330490112, 'logits/rejected': -0.6618235111236572, 'beta_dpo/beta': 0.23719097673892975, 'beta_dpo/loss_margin_mean': 34.17258071899414, 'beta_dpo/beta_margin_mean': 8.125089645385742, 'beta_dpo/beta_margin_std': 11.137140274047852, 'beta_dpo/beta_margin_grad_mean': -0.16241075098514557, 'beta_dpo/beta_margin_grad_std': 0.31397631764411926, 'epoch': 0.22}
+ 22%|█████████████████▎                                                            | 151/681 [07:12<22:30,  2.55s/it] 22%|█████████████████▍                                                            | 152/681 [07:15<22:52,  2.60s/it]                                                                                                                     {'loss': 1.2106, 'grad_norm': 16.272369384765625, 'learning_rate': 4.78177092112495e-07, 'beta_dpo/gap_mean': 31.590972900390625, 'beta_dpo/gap_std': 38.75636291503906, 'beta_dpo/beta_used_raw': -0.09531690180301666, 'beta_dpo/beta_used': 0.007499909959733486, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6470739245414734, 'logits/rejected': -0.6299198865890503, 'beta_dpo/beta': 0.007499909959733486, 'beta_dpo/loss_margin_mean': 39.02500534057617, 'beta_dpo/beta_margin_mean': 0.3257027268409729, 'beta_dpo/beta_margin_std': 0.6100393533706665, 'beta_dpo/beta_margin_grad_mean': -0.43083834648132324, 'beta_dpo/beta_margin_grad_std': 0.12350592017173767, 'epoch': 0.22}
+ 22%|█████████████████▍                                                            | 152/681 [07:15<22:52,  2.60s/it] 22%|█████████████████▌                                                            | 153/681 [07:17<22:42,  2.58s/it]                                                                                                                     {'loss': 1.3607, 'grad_norm': 2.2857508659362793, 'learning_rate': 4.776497044244016e-07, 'beta_dpo/gap_mean': 32.21462631225586, 'beta_dpo/gap_std': 40.65864944458008, 'beta_dpo/beta_used_raw': -0.2720775008201599, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6825876235961914, 'logits/rejected': -0.6697901487350464, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 32.40637969970703, 'beta_dpo/beta_margin_mean': 0.03240638226270676, 'beta_dpo/beta_margin_std': 0.04508744925260544, 'beta_dpo/beta_margin_grad_mean': -0.4919048547744751, 'beta_dpo/beta_margin_grad_std': 0.011256770230829716, 'epoch': 0.22}
+ 22%|█████████████████▌                                                            | 153/681 [07:17<22:42,  2.58s/it] 23%|█████████████████▋                                                            | 154/681 [07:20<23:26,  2.67s/it]                                                                                                                     {'loss': 1.5172, 'grad_norm': 210.48843383789062, 'learning_rate': 4.771163179548808e-07, 'beta_dpo/gap_mean': 31.79343605041504, 'beta_dpo/gap_std': 42.261234283447266, 'beta_dpo/beta_used_raw': -0.1990230530500412, 'beta_dpo/beta_used': 0.05751248076558113, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6370819807052612, 'logits/rejected': -0.6220649480819702, 'beta_dpo/beta': 0.05751248076558113, 'beta_dpo/loss_margin_mean': 30.59186553955078, 'beta_dpo/beta_margin_mean': 2.0761663913726807, 'beta_dpo/beta_margin_std': 4.313288688659668, 'beta_dpo/beta_margin_grad_mean': -0.37671908736228943, 'beta_dpo/beta_margin_grad_std': 0.2820754051208496, 'epoch': 0.23}
+ 23%|█████████████████▋                                                            | 154/681 [07:20<23:26,  2.67s/it] 23%|█████████████████▊                                                            | 155/681 [07:23<23:43,  2.71s/it]                                                                                                                     {'loss': 1.0261, 'grad_norm': 98.22732543945312, 'learning_rate': 4.7657694675916247e-07, 'beta_dpo/gap_mean': 31.931396484375, 'beta_dpo/gap_std': 42.397926330566406, 'beta_dpo/beta_used_raw': -0.056411731988191605, 'beta_dpo/beta_used': 0.05650586262345314, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.659138560295105, 'logits/rejected': -0.6297906041145325, 'beta_dpo/beta': 0.05650586262345314, 'beta_dpo/loss_margin_mean': 32.39974594116211, 'beta_dpo/beta_margin_mean': 2.0134613513946533, 'beta_dpo/beta_margin_std': 3.595337152481079, 'beta_dpo/beta_margin_grad_mean': -0.34304705262184143, 'beta_dpo/beta_margin_grad_std': 0.25319162011146545, 'epoch': 0.23}
+ 23%|█████████████████▊                                                            | 155/681 [07:23<23:43,  2.71s/it] 23%|█████████████████▊                                                            | 156/681 [07:25<23:30,  2.69s/it]                                                                                                                     {'loss': 1.3623, 'grad_norm': 2.090728759765625, 'learning_rate': 4.7603160505017893e-07, 'beta_dpo/gap_mean': 30.717424392700195, 'beta_dpo/gap_std': 43.143798828125, 'beta_dpo/beta_used_raw': -0.28176349401474, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6189935803413391, 'logits/rejected': -0.5884729623794556, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 21.64499855041504, 'beta_dpo/beta_margin_mean': 0.02164500020444393, 'beta_dpo/beta_margin_std': 0.04698922485113144, 'beta_dpo/beta_margin_grad_mean': -0.49459147453308105, 'beta_dpo/beta_margin_grad_std': 0.011738932691514492, 'epoch': 0.23}
+ 23%|█████████████████▊                                                            | 156/681 [07:25<23:30,  2.69s/it] 23%|█████████████████▉                                                            | 157/681 [07:28<22:27,  2.57s/it]                                                                                                                     {'loss': 1.3783, 'grad_norm': 566.1207885742188, 'learning_rate': 4.7548030719819154e-07, 'beta_dpo/gap_mean': 31.968534469604492, 'beta_dpo/gap_std': 43.23138427734375, 'beta_dpo/beta_used_raw': 0.5229025483131409, 'beta_dpo/beta_used': 0.5229025483131409, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6501755714416504, 'logits/rejected': -0.6394015550613403, 'beta_dpo/beta': 0.5229025483131409, 'beta_dpo/loss_margin_mean': 41.19452667236328, 'beta_dpo/beta_margin_mean': 23.52101707458496, 'beta_dpo/beta_margin_std': 28.525287628173828, 'beta_dpo/beta_margin_grad_mean': -0.17714013159275055, 'beta_dpo/beta_margin_grad_std': 0.34146979451179504, 'epoch': 0.23}
+ 23%|█████████████████▉                                                            | 157/681 [07:28<22:27,  2.57s/it] 23%|██████████████████                                                            | 158/681 [07:30<22:30,  2.58s/it]                                                                                                                     {'loss': 1.3594, 'grad_norm': 2.377941131591797, 'learning_rate': 4.7492306773041136e-07, 'beta_dpo/gap_mean': 33.84852600097656, 'beta_dpo/gap_std': 46.209800720214844, 'beta_dpo/beta_used_raw': -0.2828848361968994, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6457036733627319, 'logits/rejected': -0.6453630328178406, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 43.2443962097168, 'beta_dpo/beta_margin_mean': 0.04324439913034439, 'beta_dpo/beta_margin_std': 0.057812485843896866, 'beta_dpo/beta_margin_grad_mean': -0.48920392990112305, 'beta_dpo/beta_margin_grad_std': 0.014421283267438412, 'epoch': 0.23}
+ 23%|██████████████████                                                            | 158/681 [07:30<22:30,  2.58s/it] 23%|██████████████████▏                                                           | 159/681 [07:33<22:45,  2.62s/it]                                                                                                                     {'loss': 1.3647, 'grad_norm': 2.286787748336792, 'learning_rate': 4.743599013306165e-07, 'beta_dpo/gap_mean': 33.542808532714844, 'beta_dpo/gap_std': 47.51161193847656, 'beta_dpo/beta_used_raw': -0.592555582523346, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6784383058547974, 'logits/rejected': -0.6375674605369568, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 31.38365936279297, 'beta_dpo/beta_margin_mean': 0.031383663415908813, 'beta_dpo/beta_margin_std': 0.04992513731122017, 'beta_dpo/beta_margin_grad_mean': -0.49216148257255554, 'beta_dpo/beta_margin_grad_std': 0.01246555708348751, 'epoch': 0.23}
+ 23%|██████████████████▏                                                           | 159/681 [07:33<22:45,  2.62s/it] 23%|██████████████████▎                                                           | 160/681 [07:35<22:26,  2.58s/it]                                                                                                                     {'loss': 1.2241, 'grad_norm': 179.4539794921875, 'learning_rate': 4.737908228387656e-07, 'beta_dpo/gap_mean': 34.68842697143555, 'beta_dpo/gap_std': 48.956329345703125, 'beta_dpo/beta_used_raw': -0.04903079569339752, 'beta_dpo/beta_used': 0.16555535793304443, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6441961526870728, 'logits/rejected': -0.6223233342170715, 'beta_dpo/beta': 0.16555535793304443, 'beta_dpo/loss_margin_mean': 37.921714782714844, 'beta_dpo/beta_margin_mean': 5.125879287719727, 'beta_dpo/beta_margin_std': 12.860206604003906, 'beta_dpo/beta_margin_grad_mean': -0.3650355041027069, 'beta_dpo/beta_margin_grad_std': 0.28689926862716675, 'epoch': 0.23}
+ 23%|██████████████████▎                                                           | 160/681 [07:36<22:26,  2.58s/it] 24%|██████████████████▍                                                           | 161/681 [07:38<21:29,  2.48s/it]                                                                                                                     {'loss': 1.365, 'grad_norm': 2.1890041828155518, 'learning_rate': 4.7321584725060594e-07, 'beta_dpo/gap_mean': 34.30507278442383, 'beta_dpo/gap_std': 48.81843948364258, 'beta_dpo/beta_used_raw': -0.6533927917480469, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6661697626113892, 'logits/rejected': -0.646446704864502, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 33.1942024230957, 'beta_dpo/beta_margin_mean': 0.03319420665502548, 'beta_dpo/beta_margin_std': 0.04527975618839264, 'beta_dpo/beta_margin_grad_mean': -0.49170783162117004, 'beta_dpo/beta_margin_grad_std': 0.011308044195175171, 'epoch': 0.24}
+ 24%|██████████████████▍                                                           | 161/681 [07:38<21:29,  2.48s/it] 24%|██████████████████▌                                                           | 162/681 [07:41<22:16,  2.58s/it]                                                                                                                     {'loss': 0.9902, 'grad_norm': 66.83883666992188, 'learning_rate': 4.7263498971727905e-07, 'beta_dpo/gap_mean': 34.92676544189453, 'beta_dpo/gap_std': 49.209938049316406, 'beta_dpo/beta_used_raw': 0.001413147896528244, 'beta_dpo/beta_used': 0.0633186399936676, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6479376554489136, 'logits/rejected': -0.6184839010238647, 'beta_dpo/beta': 0.0633186399936676, 'beta_dpo/loss_margin_mean': 34.6696891784668, 'beta_dpo/beta_margin_mean': 3.0562398433685303, 'beta_dpo/beta_margin_std': 6.056267261505127, 'beta_dpo/beta_margin_grad_mean': -0.33688822388648987, 'beta_dpo/beta_margin_grad_std': 0.2615722715854645, 'epoch': 0.24}
+ 24%|██████████████████▌                                                           | 162/681 [07:41<22:16,  2.58s/it] 24%|██████████████████▋                                                           | 163/681 [07:43<22:10,  2.57s/it]                                                                                                                     {'loss': 1.3589, 'grad_norm': 2.279186487197876, 'learning_rate': 4.720482655449212e-07, 'beta_dpo/gap_mean': 34.13161849975586, 'beta_dpo/gap_std': 47.94363021850586, 'beta_dpo/beta_used_raw': -0.27464038133621216, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6360805630683899, 'logits/rejected': -0.6068499684333801, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 33.819725036621094, 'beta_dpo/beta_margin_mean': 0.03381972759962082, 'beta_dpo/beta_margin_std': 0.04253895580768585, 'beta_dpo/beta_margin_grad_mean': -0.4915504455566406, 'beta_dpo/beta_margin_grad_std': 0.010625366121530533, 'epoch': 0.24}
+ 24%|██████████████████▋                                                           | 163/681 [07:43<22:10,  2.57s/it] 24%|██████████████████▊                                                           | 164/681 [07:46<21:58,  2.55s/it]                                                                                                                     {'loss': 2.7102, 'grad_norm': 561.4354858398438, 'learning_rate': 4.714556901942599e-07, 'beta_dpo/gap_mean': 35.37065124511719, 'beta_dpo/gap_std': 47.215484619140625, 'beta_dpo/beta_used_raw': 0.19692449271678925, 'beta_dpo/beta_used': 0.33781903982162476, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.653258740901947, 'logits/rejected': -0.6248881816864014, 'beta_dpo/beta': 0.33781903982162476, 'beta_dpo/loss_margin_mean': 39.373016357421875, 'beta_dpo/beta_margin_mean': 16.98153305053711, 'beta_dpo/beta_margin_std': 27.556440353393555, 'beta_dpo/beta_margin_grad_mean': -0.3097226321697235, 'beta_dpo/beta_margin_grad_std': 0.29108506441116333, 'epoch': 0.24}
+ 24%|██████████████████▊                                                           | 164/681 [07:46<21:58,  2.55s/it] 24%|██████████████████▉                                                           | 165/681 [07:48<21:47,  2.53s/it]                                                                                                                     {'loss': 1.3624, 'grad_norm': 2.3229660987854004, 'learning_rate': 4.708572792802069e-07, 'beta_dpo/gap_mean': 33.61799621582031, 'beta_dpo/gap_std': 46.200439453125, 'beta_dpo/beta_used_raw': -0.4569028615951538, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6612030267715454, 'logits/rejected': -0.6200650930404663, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 24.500225067138672, 'beta_dpo/beta_margin_mean': 0.024500226601958275, 'beta_dpo/beta_margin_std': 0.04279119148850441, 'beta_dpo/beta_margin_grad_mean': -0.493878573179245, 'beta_dpo/beta_margin_grad_std': 0.01068994589149952, 'epoch': 0.24}
+ 24%|██████████████████▉                                                           | 165/681 [07:48<21:47,  2.53s/it] 24%|███████████████████                                                           | 166/681 [07:51<21:49,  2.54s/it]                                                                                                                     {'loss': 1.356, 'grad_norm': 2.4269919395446777, 'learning_rate': 4.702530485714461e-07, 'beta_dpo/gap_mean': 35.345130920410156, 'beta_dpo/gap_std': 49.15497589111328, 'beta_dpo/beta_used_raw': -0.17358143627643585, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6051408648490906, 'logits/rejected': -0.609076738357544, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 48.09439468383789, 'beta_dpo/beta_margin_mean': 0.04809439927339554, 'beta_dpo/beta_margin_std': 0.06407385319471359, 'beta_dpo/beta_margin_grad_mean': -0.48799970746040344, 'beta_dpo/beta_margin_grad_std': 0.015960004180669785, 'epoch': 0.24}
+ 24%|███████████████████                                                           | 166/681 [07:51<21:49,  2.54s/it] 25%|███████████████████▏                                                          | 167/681 [07:53<22:02,  2.57s/it]                                                                                                                     {'loss': 1.1373, 'grad_norm': 453.6042175292969, 'learning_rate': 4.6964301399001877e-07, 'beta_dpo/gap_mean': 37.78612518310547, 'beta_dpo/gap_std': 49.52611541748047, 'beta_dpo/beta_used_raw': 0.4378092288970947, 'beta_dpo/beta_used': 0.4378092288970947, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5798200368881226, 'logits/rejected': -0.5775001049041748, 'beta_dpo/beta': 0.4378092288970947, 'beta_dpo/loss_margin_mean': 48.357120513916016, 'beta_dpo/beta_margin_mean': 22.484102249145508, 'beta_dpo/beta_margin_std': 31.359235763549805, 'beta_dpo/beta_margin_grad_mean': -0.16084226965904236, 'beta_dpo/beta_margin_grad_std': 0.285220742225647, 'epoch': 0.25}
+ 25%|███████████████████▏                                                          | 167/681 [07:53<22:02,  2.57s/it] 25%|███████████████████▏                                                          | 168/681 [07:56<22:01,  2.58s/it]                                                                                                                     {'loss': 1.3542, 'grad_norm': 2.242811679840088, 'learning_rate': 4.690271916109034e-07, 'beta_dpo/gap_mean': 38.02488327026367, 'beta_dpo/gap_std': 49.34698486328125, 'beta_dpo/beta_used_raw': -0.22355516254901886, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.632524847984314, 'logits/rejected': -0.611569344997406, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 36.625492095947266, 'beta_dpo/beta_margin_mean': 0.036625493317842484, 'beta_dpo/beta_margin_std': 0.04478682205080986, 'beta_dpo/beta_margin_grad_mean': -0.4908505380153656, 'beta_dpo/beta_margin_grad_std': 0.011183447204530239, 'epoch': 0.25}
+ 25%|███████████████████▏                                                          | 168/681 [07:56<22:01,  2.58s/it] 25%|███████████████████▎                                                          | 169/681 [07:59<22:29,  2.63s/it]                                                                                                                     {'loss': 1.2102, 'grad_norm': 235.57923889160156, 'learning_rate': 4.6840559766159235e-07, 'beta_dpo/gap_mean': 37.77613830566406, 'beta_dpo/gap_std': 50.35961151123047, 'beta_dpo/beta_used_raw': -0.21766288578510284, 'beta_dpo/beta_used': 0.2027139812707901, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6554511189460754, 'logits/rejected': -0.632649838924408, 'beta_dpo/beta': 0.2027139812707901, 'beta_dpo/loss_margin_mean': 33.702911376953125, 'beta_dpo/beta_margin_mean': 9.191436767578125, 'beta_dpo/beta_margin_std': 18.672359466552734, 'beta_dpo/beta_margin_grad_mean': -0.3231821358203888, 'beta_dpo/beta_margin_grad_std': 0.286211758852005, 'epoch': 0.25}
+ 25%|███████████████████▎                                                          | 169/681 [07:59<22:29,  2.63s/it] 25%|███████████████████▍                                                          | 170/681 [08:01<22:31,  2.64s/it]                                                                                                                     {'loss': 0.8339, 'grad_norm': 200.22003173828125, 'learning_rate': 4.6777824852166437e-07, 'beta_dpo/gap_mean': 38.005332946777344, 'beta_dpo/gap_std': 50.405731201171875, 'beta_dpo/beta_used_raw': 0.07621648907661438, 'beta_dpo/beta_used': 0.28471559286117554, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6105868816375732, 'logits/rejected': -0.5924707651138306, 'beta_dpo/beta': 0.28471559286117554, 'beta_dpo/loss_margin_mean': 41.08964538574219, 'beta_dpo/beta_margin_mean': 14.588911056518555, 'beta_dpo/beta_margin_std': 24.41724967956543, 'beta_dpo/beta_margin_grad_mean': -0.29542797803878784, 'beta_dpo/beta_margin_grad_std': 0.2833177447319031, 'epoch': 0.25}
+ 25%|███████████████████▍                                                          | 170/681 [08:01<22:31,  2.64s/it] 25%|███████████████████▌                                                          | 171/681 [08:04<21:40,  2.55s/it]                                                                                                                     {'loss': 1.3592, 'grad_norm': 2.3106272220611572, 'learning_rate': 4.6714516072235273e-07, 'beta_dpo/gap_mean': 36.77374267578125, 'beta_dpo/gap_std': 51.403194427490234, 'beta_dpo/beta_used_raw': -0.4475504755973816, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6592748761177063, 'logits/rejected': -0.6177250146865845, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 32.103904724121094, 'beta_dpo/beta_margin_mean': 0.03210390359163284, 'beta_dpo/beta_margin_std': 0.059691086411476135, 'beta_dpo/beta_margin_grad_mean': -0.49198728799819946, 'beta_dpo/beta_margin_grad_std': 0.01487717404961586, 'epoch': 0.25}
+ 25%|███████████████████▌                                                          | 171/681 [08:04<21:40,  2.55s/it] 25%|███████████████████▋                                                          | 172/681 [08:06<21:28,  2.53s/it]                                                                                                                     {'loss': 1.3565, 'grad_norm': 2.4713857173919678, 'learning_rate': 4.6650635094610966e-07, 'beta_dpo/gap_mean': 36.16783905029297, 'beta_dpo/gap_std': 52.5489501953125, 'beta_dpo/beta_used_raw': -0.24236111342906952, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6973352432250977, 'logits/rejected': -0.6602545976638794, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 32.76325988769531, 'beta_dpo/beta_margin_mean': 0.03276326134800911, 'beta_dpo/beta_margin_std': 0.05145728588104248, 'beta_dpo/beta_margin_grad_mean': -0.49181634187698364, 'beta_dpo/beta_margin_grad_std': 0.012845886871218681, 'epoch': 0.25}
+ 25%|███████████████████▋                                                          | 172/681 [08:06<21:28,  2.53s/it] 25%|███████████████████▊                                                          | 173/681 [08:09<21:14,  2.51s/it]                                                                                                                     {'loss': 1.3608, 'grad_norm': 2.825610637664795, 'learning_rate': 4.6586183602616687e-07, 'beta_dpo/gap_mean': 35.43373107910156, 'beta_dpo/gap_std': 51.29859161376953, 'beta_dpo/beta_used_raw': -0.4711419939994812, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.658379316329956, 'logits/rejected': -0.6150857210159302, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 34.594966888427734, 'beta_dpo/beta_margin_mean': 0.03459496796131134, 'beta_dpo/beta_margin_std': 0.04563411697745323, 'beta_dpo/beta_margin_grad_mean': -0.4913583993911743, 'beta_dpo/beta_margin_grad_std': 0.011392601765692234, 'epoch': 0.25}
+ 25%|███████████████████▊                                                          | 173/681 [08:09<21:14,  2.51s/it] 26%|███████████████████▉                                                          | 174/681 [08:11<21:14,  2.51s/it]                                                                                                                     {'loss': 0.906, 'grad_norm': 239.2338409423828, 'learning_rate': 4.652116329460919e-07, 'beta_dpo/gap_mean': 35.927711486816406, 'beta_dpo/gap_std': 51.60816192626953, 'beta_dpo/beta_used_raw': 0.15830256044864655, 'beta_dpo/beta_used': 0.21091538667678833, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5859450101852417, 'logits/rejected': -0.6018394231796265, 'beta_dpo/beta': 0.21091538667678833, 'beta_dpo/loss_margin_mean': 40.59208679199219, 'beta_dpo/beta_margin_mean': 10.612117767333984, 'beta_dpo/beta_margin_std': 22.01104736328125, 'beta_dpo/beta_margin_grad_mean': -0.3304974436759949, 'beta_dpo/beta_margin_grad_std': 0.27658578753471375, 'epoch': 0.26}
+ 26%|███████████████████▉                                                          | 174/681 [08:11<21:14,  2.51s/it] 26%|████████████████████                                                          | 175/681 [08:14<21:26,  2.54s/it]                                                                                                                     {'loss': 1.7614, 'grad_norm': 1072.8525390625, 'learning_rate': 4.645557588393406e-07, 'beta_dpo/gap_mean': 39.685943603515625, 'beta_dpo/gap_std': 53.021728515625, 'beta_dpo/beta_used_raw': 0.4976291060447693, 'beta_dpo/beta_used': 0.4976291060447693, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5577561855316162, 'logits/rejected': -0.5457127690315247, 'beta_dpo/beta': 0.4976291060447693, 'beta_dpo/loss_margin_mean': 56.412723541259766, 'beta_dpo/beta_margin_mean': 28.725933074951172, 'beta_dpo/beta_margin_std': 33.13698196411133, 'beta_dpo/beta_margin_grad_mean': -0.14816464483737946, 'beta_dpo/beta_margin_grad_std': 0.34046775102615356, 'epoch': 0.26}
+ 26%|████████████████████                                                          | 175/681 [08:14<21:26,  2.54s/it] 26%|████████████████████▏                                                         | 176/681 [08:16<20:48,  2.47s/it]                                                                                                                     {'loss': 1.1292, 'grad_norm': 136.2383270263672, 'learning_rate': 4.638942309888058e-07, 'beta_dpo/gap_mean': 41.4671630859375, 'beta_dpo/gap_std': 53.848289489746094, 'beta_dpo/beta_used_raw': -0.031695641577243805, 'beta_dpo/beta_used': 0.05489476025104523, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5958969593048096, 'logits/rejected': -0.6080245971679688, 'beta_dpo/beta': 0.05489476025104523, 'beta_dpo/loss_margin_mean': 49.21371078491211, 'beta_dpo/beta_margin_mean': 2.9585845470428467, 'beta_dpo/beta_margin_std': 6.016172885894775, 'beta_dpo/beta_margin_grad_mean': -0.35436689853668213, 'beta_dpo/beta_margin_grad_std': 0.25154080986976624, 'epoch': 0.26}
+ 26%|████████████████████▏                                                         | 176/681 [08:16<20:48,  2.47s/it] 26%|████████████████████▎                                                         | 177/681 [08:19<21:03,  2.51s/it]                                                                                                                     {'loss': 1.3498, 'grad_norm': 3.158673048019409, 'learning_rate': 4.6322706682636137e-07, 'beta_dpo/gap_mean': 42.564491271972656, 'beta_dpo/gap_std': 55.388065338134766, 'beta_dpo/beta_used_raw': -0.20864097774028778, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.612617015838623, 'logits/rejected': -0.5953266024589539, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 45.510658264160156, 'beta_dpo/beta_margin_mean': 0.045510660856962204, 'beta_dpo/beta_margin_std': 0.06027425080537796, 'beta_dpo/beta_margin_grad_mean': -0.48863834142684937, 'beta_dpo/beta_margin_grad_std': 0.015036150813102722, 'epoch': 0.26}
+ 26%|████████████████████▎                                                         | 177/681 [08:19<21:03,  2.51s/it] 26%|████████████████████▍                                                         | 178/681 [08:21<21:15,  2.54s/it]                                                                                                                     {'loss': 1.3433, 'grad_norm': 433.4047546386719, 'learning_rate': 4.6255428393240354e-07, 'beta_dpo/gap_mean': 45.61469650268555, 'beta_dpo/gap_std': 58.27642059326172, 'beta_dpo/beta_used_raw': 0.18339481949806213, 'beta_dpo/beta_used': 0.18339481949806213, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5409312844276428, 'logits/rejected': -0.5512675642967224, 'beta_dpo/beta': 0.18339481949806213, 'beta_dpo/loss_margin_mean': 61.0152587890625, 'beta_dpo/beta_margin_mean': 11.09678840637207, 'beta_dpo/beta_margin_std': 12.919548988342285, 'beta_dpo/beta_margin_grad_mean': -0.1955973207950592, 'beta_dpo/beta_margin_grad_std': 0.3506017029285431, 'epoch': 0.26}
+ 26%|████████████████████▍                                                         | 178/681 [08:21<21:15,  2.54s/it] 26%|████████████████████▌                                                         | 179/681 [08:24<22:35,  2.70s/it]                                                                                                                     {'loss': 0.977, 'grad_norm': 119.420166015625, 'learning_rate': 4.6187590003538724e-07, 'beta_dpo/gap_mean': 46.626121520996094, 'beta_dpo/gap_std': 60.98898696899414, 'beta_dpo/beta_used_raw': 0.04584415256977081, 'beta_dpo/beta_used': 0.04584415256977081, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.555252730846405, 'logits/rejected': -0.5443023443222046, 'beta_dpo/beta': 0.04584415256977081, 'beta_dpo/loss_margin_mean': 46.46109390258789, 'beta_dpo/beta_margin_mean': 1.8824143409729004, 'beta_dpo/beta_margin_std': 4.4029927253723145, 'beta_dpo/beta_margin_grad_mean': -0.33513152599334717, 'beta_dpo/beta_margin_grad_std': 0.3240673542022705, 'epoch': 0.26}
+ 26%|████████████████████▌                                                         | 179/681 [08:24<22:35,  2.70s/it] 26%|████████████████████▌                                                         | 180/681 [08:27<21:45,  2.61s/it]                                                                                                                     {'loss': 2.241, 'grad_norm': 654.2474365234375, 'learning_rate': 4.611919330113591e-07, 'beta_dpo/gap_mean': 47.3960075378418, 'beta_dpo/gap_std': 61.42702102661133, 'beta_dpo/beta_used_raw': 0.2832660675048828, 'beta_dpo/beta_used': 0.34115684032440186, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5455374717712402, 'logits/rejected': -0.5354658961296082, 'beta_dpo/beta': 0.34115684032440186, 'beta_dpo/loss_margin_mean': 54.383392333984375, 'beta_dpo/beta_margin_mean': 18.263864517211914, 'beta_dpo/beta_margin_std': 32.01734924316406, 'beta_dpo/beta_margin_grad_mean': -0.3222728371620178, 'beta_dpo/beta_margin_grad_std': 0.29305145144462585, 'epoch': 0.26}
+ 26%|████████████████████▌                                                         | 180/681 [08:27<21:45,  2.61s/it] 27%|████████████████████▋                                                         | 181/681 [08:29<21:44,  2.61s/it]                                                                                                                     {'loss': 1.3547, 'grad_norm': 2.6833486557006836, 'learning_rate': 4.605024008834863e-07, 'beta_dpo/gap_mean': 45.22578430175781, 'beta_dpo/gap_std': 59.60420608520508, 'beta_dpo/beta_used_raw': -0.6792909502983093, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6246634721755981, 'logits/rejected': -0.5926576852798462, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 31.555599212646484, 'beta_dpo/beta_margin_mean': 0.031555600464344025, 'beta_dpo/beta_margin_std': 0.051769278943538666, 'beta_dpo/beta_margin_grad_mean': -0.49211806058883667, 'beta_dpo/beta_margin_grad_std': 0.01292695663869381, 'epoch': 0.27}
+ 27%|████████████████████▋                                                         | 181/681 [08:29<21:44,  2.61s/it] 27%|████████████████████▊                                                         | 182/681 [08:32<21:23,  2.57s/it]                                                                                                                     {'loss': 1.3445, 'grad_norm': 3.020500659942627, 'learning_rate': 4.598073218215817e-07, 'beta_dpo/gap_mean': 46.82099533081055, 'beta_dpo/gap_std': 60.325225830078125, 'beta_dpo/beta_used_raw': -0.13890297710895538, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.568708062171936, 'logits/rejected': -0.5688773989677429, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 58.42866134643555, 'beta_dpo/beta_margin_mean': 0.05842866376042366, 'beta_dpo/beta_margin_std': 0.06418631225824356, 'beta_dpo/beta_margin_grad_mean': -0.48541346192359924, 'beta_dpo/beta_margin_grad_std': 0.016013246029615402, 'epoch': 0.27}
+ 27%|████████████████████▊                                                         | 182/681 [08:32<21:23,  2.57s/it] 27%|████████████████████▉                                                         | 183/681 [08:34<20:44,  2.50s/it]                                                                                                                     {'loss': 1.1118, 'grad_norm': 198.4879608154297, 'learning_rate': 4.5910671414162484e-07, 'beta_dpo/gap_mean': 46.11639404296875, 'beta_dpo/gap_std': 58.62394714355469, 'beta_dpo/beta_used_raw': -0.7067348957061768, 'beta_dpo/beta_used': 0.21429939568042755, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5793416500091553, 'logits/rejected': -0.5485885739326477, 'beta_dpo/beta': 0.21429939568042755, 'beta_dpo/loss_margin_mean': 33.00257873535156, 'beta_dpo/beta_margin_mean': 11.448225975036621, 'beta_dpo/beta_margin_std': 18.331274032592773, 'beta_dpo/beta_margin_grad_mean': -0.31174200773239136, 'beta_dpo/beta_margin_grad_std': 0.29498615860939026, 'epoch': 0.27}
+ 27%|████████████████████▉                                                         | 183/681 [08:34<20:44,  2.50s/it] 27%|█████████████████████                                                         | 184/681 [08:37<21:11,  2.56s/it]                                                                                                                     {'loss': 1.3576, 'grad_norm': 2.891065835952759, 'learning_rate': 4.5840059630527985e-07, 'beta_dpo/gap_mean': 42.51811981201172, 'beta_dpo/gap_std': 57.046356201171875, 'beta_dpo/beta_used_raw': -0.6931981444358826, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6110912561416626, 'logits/rejected': -0.5948389768600464, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 34.653656005859375, 'beta_dpo/beta_margin_mean': 0.03465365990996361, 'beta_dpo/beta_margin_std': 0.05163479968905449, 'beta_dpo/beta_margin_grad_mean': -0.4913460612297058, 'beta_dpo/beta_margin_grad_std': 0.012888733297586441, 'epoch': 0.27}
+ 27%|█████████████████████                                                         | 184/681 [08:37<21:11,  2.56s/it] 27%|█████████████████████▏                                                        | 185/681 [08:39<20:53,  2.53s/it]                                                                                                                     {'loss': 1.3663, 'grad_norm': 2.7128992080688477, 'learning_rate': 4.5768898691940836e-07, 'beta_dpo/gap_mean': 40.281700134277344, 'beta_dpo/gap_std': 56.37439727783203, 'beta_dpo/beta_used_raw': -1.0860377550125122, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6103675961494446, 'logits/rejected': -0.566834032535553, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 26.009916305541992, 'beta_dpo/beta_margin_mean': 0.02600991725921631, 'beta_dpo/beta_margin_std': 0.052919141948223114, 'beta_dpo/beta_margin_grad_mean': -0.49350568652153015, 'beta_dpo/beta_margin_grad_std': 0.013207558542490005, 'epoch': 0.27}
+ 27%|█████████████████████▏                                                        | 185/681 [08:39<20:53,  2.53s/it] 27%|█████████████████████▎                                                        | 186/681 [08:42<20:43,  2.51s/it]                                                                                                                     {'loss': 1.3496, 'grad_norm': 2.8734123706817627, 'learning_rate': 4.5697190473557947e-07, 'beta_dpo/gap_mean': 40.561866760253906, 'beta_dpo/gap_std': 56.94186019897461, 'beta_dpo/beta_used_raw': -0.08622078597545624, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5887362360954285, 'logits/rejected': -0.5443171262741089, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 47.59168243408203, 'beta_dpo/beta_margin_mean': 0.0475916862487793, 'beta_dpo/beta_margin_std': 0.05890846624970436, 'beta_dpo/beta_margin_grad_mean': -0.4881168007850647, 'beta_dpo/beta_margin_grad_std': 0.014697042293846607, 'epoch': 0.27}
+ 27%|█████████████████████▎                                                        | 186/681 [08:42<20:43,  2.51s/it] 27%|█████████████████████▍                                                        | 187/681 [08:44<20:11,  2.45s/it]                                                                                                                     {'loss': 0.8623, 'grad_norm': 143.63812255859375, 'learning_rate': 4.5624936864957555e-07, 'beta_dpo/gap_mean': 40.478797912597656, 'beta_dpo/gap_std': 56.40562438964844, 'beta_dpo/beta_used_raw': -0.1899646818637848, 'beta_dpo/beta_used': 0.09833470731973648, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5601129531860352, 'logits/rejected': -0.5561456680297852, 'beta_dpo/beta': 0.09833470731973648, 'beta_dpo/loss_margin_mean': 40.979331970214844, 'beta_dpo/beta_margin_mean': 5.131124019622803, 'beta_dpo/beta_margin_std': 8.384321212768555, 'beta_dpo/beta_margin_grad_mean': -0.29737338423728943, 'beta_dpo/beta_margin_grad_std': 0.27039891481399536, 'epoch': 0.27}
+ 27%|█████████████████████▍                                                        | 187/681 [08:44<20:11,  2.45s/it] 28%|█████████████████████▌                                                        | 188/681 [08:47<20:26,  2.49s/it]                                                                                                                     {'loss': 1.1264, 'grad_norm': 319.3719787597656, 'learning_rate': 4.5552139770089454e-07, 'beta_dpo/gap_mean': 42.536376953125, 'beta_dpo/gap_std': 56.52394104003906, 'beta_dpo/beta_used_raw': -0.06993640959262848, 'beta_dpo/beta_used': 0.15021683275699615, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5592831373214722, 'logits/rejected': -0.5565686225891113, 'beta_dpo/beta': 0.15021683275699615, 'beta_dpo/loss_margin_mean': 51.156455993652344, 'beta_dpo/beta_margin_mean': 7.610217571258545, 'beta_dpo/beta_margin_std': 14.164756774902344, 'beta_dpo/beta_margin_grad_mean': -0.3293021023273468, 'beta_dpo/beta_margin_grad_std': 0.28328651189804077, 'epoch': 0.28}
+ 28%|█████████████████████▌                                                        | 188/681 [08:47<20:26,  2.49s/it] 28%|█████████████████████▋                                                        | 189/681 [08:49<20:08,  2.46s/it]                                                                                                                     {'loss': 1.3503, 'grad_norm': 2.7365245819091797, 'learning_rate': 4.5478801107224794e-07, 'beta_dpo/gap_mean': 42.98434066772461, 'beta_dpo/gap_std': 57.9720573425293, 'beta_dpo/beta_used_raw': -0.27419549226760864, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5560922026634216, 'logits/rejected': -0.5184494853019714, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 43.51968002319336, 'beta_dpo/beta_margin_mean': 0.04351968318223953, 'beta_dpo/beta_margin_std': 0.06336233019828796, 'beta_dpo/beta_margin_grad_mean': -0.4891382157802582, 'beta_dpo/beta_margin_grad_std': 0.01579362154006958, 'epoch': 0.28}
+ 28%|█████████████████████▋                                                        | 189/681 [08:49<20:08,  2.46s/it] 28%|█████████████████████▊                                                        | 190/681 [08:51<20:00,  2.44s/it]                                                                                                                     {'loss': 1.349, 'grad_norm': 3.3970863819122314, 'learning_rate': 4.5404922808905543e-07, 'beta_dpo/gap_mean': 43.333824157714844, 'beta_dpo/gap_std': 59.198699951171875, 'beta_dpo/beta_used_raw': -0.20993714034557343, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6286275386810303, 'logits/rejected': -0.6088818907737732, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 50.25510787963867, 'beta_dpo/beta_margin_mean': 0.05025511234998703, 'beta_dpo/beta_margin_std': 0.0673254132270813, 'beta_dpo/beta_margin_grad_mean': -0.48745664954185486, 'beta_dpo/beta_margin_grad_std': 0.016793405637145042, 'epoch': 0.28}
+ 28%|█████████████████████▊                                                        | 190/681 [08:51<20:00,  2.44s/it] 28%|█████████████████████▉                                                        | 191/681 [08:54<21:16,  2.61s/it]                                                                                                                     {'loss': 1.0202, 'grad_norm': 471.61907958984375, 'learning_rate': 4.5330506821893565e-07, 'beta_dpo/gap_mean': 48.85545349121094, 'beta_dpo/gap_std': 62.08613586425781, 'beta_dpo/beta_used_raw': 0.46209681034088135, 'beta_dpo/beta_used': 0.46209681034088135, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5496765375137329, 'logits/rejected': -0.5357059240341187, 'beta_dpo/beta': 0.46209681034088135, 'beta_dpo/loss_margin_mean': 71.1089096069336, 'beta_dpo/beta_margin_mean': 36.4068603515625, 'beta_dpo/beta_margin_std': 57.78350067138672, 'beta_dpo/beta_margin_grad_mean': -0.24650421738624573, 'beta_dpo/beta_margin_grad_std': 0.2589731812477112, 'epoch': 0.28}
+ 28%|█████████████████████▉                                                        | 191/681 [08:54<21:16,  2.61s/it] 28%|█████████████████████▉                                                        | 192/681 [08:57<21:14,  2.61s/it]                                                                                                                     {'loss': 1.3484, 'grad_norm': 2.940540075302124, 'learning_rate': 4.5255555107119336e-07, 'beta_dpo/gap_mean': 49.61614227294922, 'beta_dpo/gap_std': 65.27165222167969, 'beta_dpo/beta_used_raw': -0.5453534126281738, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5459074974060059, 'logits/rejected': -0.5400164127349854, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 52.18231964111328, 'beta_dpo/beta_margin_mean': 0.05218232050538063, 'beta_dpo/beta_margin_std': 0.07510577142238617, 'beta_dpo/beta_margin_grad_mean': -0.48698392510414124, 'beta_dpo/beta_margin_grad_std': 0.018710140138864517, 'epoch': 0.28}
+ 28%|█████████████████████▉                                                        | 192/681 [08:57<21:14,  2.61s/it] 28%|██████████████████████                                                        | 193/681 [08:59<20:42,  2.55s/it]                                                                                                                     {'loss': 1.3531, 'grad_norm': 3.5088882446289062, 'learning_rate': 4.5180069639630236e-07, 'beta_dpo/gap_mean': 46.75275421142578, 'beta_dpo/gap_std': 65.9295425415039, 'beta_dpo/beta_used_raw': -0.6699286103248596, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5572738647460938, 'logits/rejected': -0.5282651782035828, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 29.983781814575195, 'beta_dpo/beta_margin_mean': 0.02998378500342369, 'beta_dpo/beta_margin_std': 0.06887201964855194, 'beta_dpo/beta_margin_grad_mean': -0.4925091862678528, 'beta_dpo/beta_margin_grad_std': 0.017181508243083954, 'epoch': 0.28}
+ 28%|██████████████████████                                                        | 193/681 [08:59<20:42,  2.55s/it] 28%|██████████████████████▏                                                       | 194/681 [09:02<19:56,  2.46s/it]                                                                                                                     {'loss': 1.67, 'grad_norm': 662.7078857421875, 'learning_rate': 4.510405240853854e-07, 'beta_dpo/gap_mean': 46.84581756591797, 'beta_dpo/gap_std': 64.2998046875, 'beta_dpo/beta_used_raw': 0.19052860140800476, 'beta_dpo/beta_used': 0.19052860140800476, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46685880422592163, 'logits/rejected': -0.44785797595977783, 'beta_dpo/beta': 0.19052860140800476, 'beta_dpo/loss_margin_mean': 48.318939208984375, 'beta_dpo/beta_margin_mean': 8.937496185302734, 'beta_dpo/beta_margin_std': 12.730754852294922, 'beta_dpo/beta_margin_grad_mean': -0.20192070305347443, 'beta_dpo/beta_margin_grad_std': 0.34633687138557434, 'epoch': 0.28}
+ 28%|██████████████████████▏                                                       | 194/681 [09:02<19:56,  2.46s/it] 29%|██████████████████████▎                                                       | 195/681 [09:04<20:17,  2.51s/it]                                                                                                                     {'loss': 2.5194, 'grad_norm': 1409.7032470703125, 'learning_rate': 4.5027505416968985e-07, 'beta_dpo/gap_mean': 47.83788299560547, 'beta_dpo/gap_std': 64.01758575439453, 'beta_dpo/beta_used_raw': 0.34017544984817505, 'beta_dpo/beta_used': 0.34017544984817505, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4705166518688202, 'logits/rejected': -0.48458150029182434, 'beta_dpo/beta': 0.34017544984817505, 'beta_dpo/loss_margin_mean': 53.63036346435547, 'beta_dpo/beta_margin_mean': 17.846120834350586, 'beta_dpo/beta_margin_std': 31.463382720947266, 'beta_dpo/beta_margin_grad_mean': -0.24558886885643005, 'beta_dpo/beta_margin_grad_std': 0.3135336637496948, 'epoch': 0.29}
+ 29%|██████████████████████▎                                                       | 195/681 [09:04<20:17,  2.51s/it] 29%|██████████████████████▍                                                       | 196/681 [09:07<20:24,  2.52s/it]                                                                                                                     {'loss': 2.7513, 'grad_norm': 580.5075073242188, 'learning_rate': 4.495043068200599e-07, 'beta_dpo/gap_mean': 49.88597869873047, 'beta_dpo/gap_std': 66.26655578613281, 'beta_dpo/beta_used_raw': -0.07183443009853363, 'beta_dpo/beta_used': 0.13741353154182434, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49783796072006226, 'logits/rejected': -0.4742533564567566, 'beta_dpo/beta': 0.13741353154182434, 'beta_dpo/loss_margin_mean': 57.657196044921875, 'beta_dpo/beta_margin_mean': 9.195865631103516, 'beta_dpo/beta_margin_std': 19.96077537536621, 'beta_dpo/beta_margin_grad_mean': -0.3610975742340088, 'beta_dpo/beta_margin_grad_std': 0.3129690885543823, 'epoch': 0.29}
+ 29%|██████████████████████▍                                                       | 196/681 [09:07<20:24,  2.52s/it] 29%|██████████████████████▌                                                       | 197/681 [09:09<20:26,  2.53s/it]                                                                                                                     {'loss': 1.1075, 'grad_norm': 23.286901473999023, 'learning_rate': 4.4872830234640493e-07, 'beta_dpo/gap_mean': 48.81125259399414, 'beta_dpo/gap_std': 64.20172119140625, 'beta_dpo/beta_used_raw': -0.20918835699558258, 'beta_dpo/beta_used': 0.009012533351778984, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48581668734550476, 'logits/rejected': -0.47287267446517944, 'beta_dpo/beta': 0.009012533351778984, 'beta_dpo/loss_margin_mean': 44.6383056640625, 'beta_dpo/beta_margin_mean': 0.44567611813545227, 'beta_dpo/beta_margin_std': 0.761162519454956, 'beta_dpo/beta_margin_grad_mean': -0.4102240204811096, 'beta_dpo/beta_margin_grad_std': 0.14067673683166504, 'epoch': 0.29}
+ 29%|██████████████████████▌                                                       | 197/681 [09:09<20:26,  2.53s/it] 29%|██████████████████████▋                                                       | 198/681 [09:12<20:34,  2.55s/it]                                                                                                                     {'loss': 1.3515, 'grad_norm': 3.0157718658447266, 'learning_rate': 4.479470611971645e-07, 'beta_dpo/gap_mean': 49.21632385253906, 'beta_dpo/gap_std': 63.374412536621094, 'beta_dpo/beta_used_raw': -0.7153933048248291, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5509780645370483, 'logits/rejected': -0.5530319213867188, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 52.77407455444336, 'beta_dpo/beta_margin_mean': 0.05277407914400101, 'beta_dpo/beta_margin_std': 0.06834717839956284, 'beta_dpo/beta_margin_grad_mean': -0.4868345856666565, 'beta_dpo/beta_margin_grad_std': 0.0170100387185812, 'epoch': 0.29}
+ 29%|██████████████████████▋                                                       | 198/681 [09:12<20:34,  2.55s/it] 29%|██████████████████████▊                                                       | 199/681 [09:15<20:55,  2.61s/it]                                                                                                                     {'loss': 1.3469, 'grad_norm': 3.9049272537231445, 'learning_rate': 4.471606039587695e-07, 'beta_dpo/gap_mean': 50.510684967041016, 'beta_dpo/gap_std': 65.09575653076172, 'beta_dpo/beta_used_raw': -0.5050678253173828, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5343225002288818, 'logits/rejected': -0.5195610523223877, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 51.886741638183594, 'beta_dpo/beta_margin_mean': 0.05188674107193947, 'beta_dpo/beta_margin_std': 0.06968604773283005, 'beta_dpo/beta_margin_grad_mean': -0.48704952001571655, 'beta_dpo/beta_margin_grad_std': 0.01737978495657444, 'epoch': 0.29}
+ 29%|██████████████████████▊                                                       | 199/681 [09:15<20:55,  2.61s/it] 29%|██████████████████████▉                                                       | 200/681 [09:17<20:49,  2.60s/it]                                                                                                                     {'loss': 0.8706, 'grad_norm': 191.8094024658203, 'learning_rate': 4.4636895135509966e-07, 'beta_dpo/gap_mean': 50.77419662475586, 'beta_dpo/gap_std': 67.68488311767578, 'beta_dpo/beta_used_raw': -0.24377571046352386, 'beta_dpo/beta_used': 0.09858327358961105, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5364083647727966, 'logits/rejected': -0.5175313949584961, 'beta_dpo/beta': 0.09858327358961105, 'beta_dpo/loss_margin_mean': 54.00712966918945, 'beta_dpo/beta_margin_mean': 5.793294429779053, 'beta_dpo/beta_margin_std': 12.536651611328125, 'beta_dpo/beta_margin_grad_mean': -0.3039037585258484, 'beta_dpo/beta_margin_grad_std': 0.26042643189430237, 'epoch': 0.29}
+ 29%|██████████████████████▉                                                       | 200/681 [09:17<20:49,  2.60s/it][INFO|trainer.py:4307] 2026-04-17 23:32:49,827 >> 
+***** Running Evaluation *****
+[INFO|trainer.py:4309] 2026-04-17 23:32:49,827 >>   Num examples = 2339
+[INFO|trainer.py:4312] 2026-04-17 23:32:49,827 >>   Batch size = 8
+
+  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A
+  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.65it/s][A
+  4%|███▎                                                                             | 3/73 [00:01<00:27,  2.57it/s][A
+  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.25it/s][A
+  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.10it/s][A
+  8%|██████▋                                                                          | 6/73 [00:02<00:33,  1.99it/s][A
+ 10%|███████▊                                                                         | 7/73 [00:03<00:32,  2.06it/s][A
+ 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.92it/s][A
+ 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.87it/s][A
+ 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.84it/s][A
+ 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A
+ 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.80it/s][A
+ 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.84it/s][A
+ 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.80it/s][A
+ 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.81it/s][A
+ 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.74it/s][A
+ 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.74it/s][A
+ 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.73it/s][A
+ 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.70it/s][A
+ 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.69it/s][A
+ 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.69it/s][A
+ 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.68it/s][A
+ 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:28,  1.73it/s][A
+ 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.74it/s][A
+ 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:27,  1.72it/s][A
+ 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.73it/s][A
+ 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s][A
+ 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.88it/s][A
+ 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:23,  1.91it/s][A
+ 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.92it/s][A
+ 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.85it/s][A
+ 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s][A
+ 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:20,  1.91it/s][A
+ 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.88it/s][A
+ 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.80it/s][A
+ 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.81it/s][A
+ 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s][A
+ 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.88it/s][A
+ 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:18,  1.79it/s][A
+ 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.82it/s][A
+ 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.88it/s][A
+ 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:16,  1.83it/s][A
+ 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s][A
+ 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.85it/s][A
+ 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.77it/s][A
+ 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.85it/s][A
+ 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s][A
+ 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:25<00:13,  1.80it/s][A
+ 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.79it/s][A
+ 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.81it/s][A
+ 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.79it/s][A
+ 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.73it/s][A
+ 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.71it/s][A
+ 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.82it/s][A
+ 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.81it/s][A
+ 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.85it/s][A
+ 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.77it/s][A
+ 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.85it/s][A
+ 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.84it/s][A
+ 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s][A
+ 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A
+ 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.77it/s][A
+ 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s][A
+ 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.96it/s][A
+ 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.93it/s][A
+ 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.85it/s][A
+ 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.89it/s][A
+ 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.83it/s][A
+ 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s][A
+ 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A
+ 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.81it/s][A
+ 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.80it/s][A
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A                                                                                                                     
+                                                                                                                     [A{'eval_loss': 0.6904171705245972, 'eval_runtime': 40.1818, 'eval_samples_per_second': 58.21, 'eval_steps_per_second': 1.842, 'eval_beta_dpo/beta': 0.004597905091941357, 'eval_beta_dpo/loss_margin_mean': 27.745779037475586, 'eval_beta_dpo/beta_margin_mean': 0.21994154155254364, 'eval_beta_dpo/beta_margin_std': 0.3260399401187897, 'eval_beta_dpo/beta_margin_grad_mean': -0.49029847979545593, 'eval_beta_dpo/beta_margin_grad_std': 0.022800996899604797, 'eval_beta_dpo/gap_mean': 50.691349029541016, 'eval_beta_dpo/gap_std': 68.24334716796875, 'eval_beta_dpo/beta_used_raw': -1.2767338752746582, 'eval_beta_dpo/beta_used': 0.004597905091941357, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.6063677668571472, 'eval_logits/rejected': -0.5873017311096191, 'epoch': 0.29}
+ 29%|██████████████████████▉                                                       | 200/681 [09:58<20:49,  2.60s/it]
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A
+                                                                                                                     [A[INFO|trainer.py:3984] 2026-04-17 23:33:44,893 >> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200
+[INFO|configuration_utils.py:419] 2026-04-17 23:33:44,942 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200/config.json
+[INFO|configuration_utils.py:911] 2026-04-17 23:33:45,016 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200/generation_config.json
+[INFO|modeling_utils.py:3580] 2026-04-17 23:34:38,392 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200/model.safetensors.index.json.
+[INFO|tokenization_utils_base.py:2510] 2026-04-17 23:34:38,413 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200/tokenizer_config.json
+[INFO|tokenization_utils_base.py:2519] 2026-04-17 23:34:38,427 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200/special_tokens_map.json
+ 30%|█████████████████████▊                                                    | 201/681 [14:55<13:46:06, 103.26s/it]                                                                                                                     {'loss': 1.3421, 'grad_norm': 3.234513282775879, 'learning_rate': 4.455721242469372e-07, 'beta_dpo/gap_mean': 51.0998420715332, 'beta_dpo/gap_std': 69.32807922363281, 'beta_dpo/beta_used_raw': -0.24471929669380188, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5788037776947021, 'logits/rejected': -0.5658458471298218, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 54.232852935791016, 'beta_dpo/beta_margin_mean': 0.05423285812139511, 'beta_dpo/beta_margin_std': 0.07199931889772415, 'beta_dpo/beta_margin_grad_mean': -0.48646533489227295, 'beta_dpo/beta_margin_grad_std': 0.017951475456357002, 'epoch': 0.3}
+ 30%|█████████████████████▊                                                    | 201/681 [14:55<13:46:06, 103.26s/it] 30%|██████████████████████▌                                                     | 202/681 [14:58<9:43:39, 73.11s/it]                                                                                                                     {'loss': 1.3486, 'grad_norm': 3.0596237182617188, 'learning_rate': 4.4477014363141755e-07, 'beta_dpo/gap_mean': 49.74256896972656, 'beta_dpo/gap_std': 69.538330078125, 'beta_dpo/beta_used_raw': -0.5578510165214539, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5542974472045898, 'logits/rejected': -0.557321310043335, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 40.36243438720703, 'beta_dpo/beta_margin_mean': 0.040362436324357986, 'beta_dpo/beta_margin_std': 0.07123276591300964, 'beta_dpo/beta_margin_grad_mean': -0.4899270534515381, 'beta_dpo/beta_margin_grad_std': 0.017768291756510735, 'epoch': 0.3}
+ 30%|██████████████████████▌                                                     | 202/681 [14:58<9:43:39, 73.11s/it] 30%|██████████████████████▋                                                     | 203/681 [15:01<6:54:41, 52.05s/it]                                                                                                                     {'loss': 1.347, 'grad_norm': 3.645709753036499, 'learning_rate': 4.439630306414758e-07, 'beta_dpo/gap_mean': 48.89398193359375, 'beta_dpo/gap_std': 68.63645935058594, 'beta_dpo/beta_used_raw': -0.41438037157058716, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.571040153503418, 'logits/rejected': -0.5497109293937683, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 45.81226348876953, 'beta_dpo/beta_margin_mean': 0.04581226408481598, 'beta_dpo/beta_margin_std': 0.06257802248001099, 'beta_dpo/beta_margin_grad_mean': -0.48856452107429504, 'beta_dpo/beta_margin_grad_std': 0.015608040615916252, 'epoch': 0.3}
+ 30%|██████████████████████▋                                                     | 203/681 [15:01<6:54:41, 52.05s/it] 30%|██████████████████████▊                                                     | 204/681 [15:04<4:56:33, 37.30s/it]                                                                                                                     {'loss': 1.3582, 'grad_norm': 2.720808982849121, 'learning_rate': 4.431508065452897e-07, 'beta_dpo/gap_mean': 47.7497673034668, 'beta_dpo/gap_std': 70.519287109375, 'beta_dpo/beta_used_raw': -1.0310747623443604, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5842176675796509, 'logits/rejected': -0.5408717393875122, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 42.08584213256836, 'beta_dpo/beta_margin_mean': 0.04208584129810333, 'beta_dpo/beta_margin_std': 0.07838640362024307, 'beta_dpo/beta_margin_grad_mean': -0.489501029253006, 'beta_dpo/beta_margin_grad_std': 0.01954388990998268, 'epoch': 0.3}
+ 30%|██████████████████████▊                                                     | 204/681 [15:04<4:56:33, 37.30s/it] 30%|██████████████████████▉                                                     | 205/681 [15:07<3:33:13, 26.88s/it]                                                                                                                     {'loss': 0.9147, 'grad_norm': 358.5487365722656, 'learning_rate': 4.4233349274571974e-07, 'beta_dpo/gap_mean': 50.11834716796875, 'beta_dpo/gap_std': 70.84585571289062, 'beta_dpo/beta_used_raw': 0.12516099214553833, 'beta_dpo/beta_used': 0.2624741196632385, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.54551100730896, 'logits/rejected': -0.5079349875450134, 'beta_dpo/beta': 0.2624741196632385, 'beta_dpo/loss_margin_mean': 59.972965240478516, 'beta_dpo/beta_margin_mean': 21.14405059814453, 'beta_dpo/beta_margin_std': 34.92091369628906, 'beta_dpo/beta_margin_grad_mean': -0.29318341612815857, 'beta_dpo/beta_margin_grad_std': 0.2785731852054596, 'epoch': 0.3}
+ 30%|██████████████████████▉                                                     | 205/681 [15:07<3:33:13, 26.88s/it] 30%|██████████████████████▉                                                     | 206/681 [15:09<2:34:17, 19.49s/it]                                                                                                                     {'loss': 5.7592, 'grad_norm': 1746.28271484375, 'learning_rate': 4.415111107797445e-07, 'beta_dpo/gap_mean': 52.5726318359375, 'beta_dpo/gap_std': 71.26499938964844, 'beta_dpo/beta_used_raw': 0.8118077516555786, 'beta_dpo/beta_used': 0.8118077516555786, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5080777406692505, 'logits/rejected': -0.5112833976745605, 'beta_dpo/beta': 0.8118077516555786, 'beta_dpo/loss_margin_mean': 68.52181243896484, 'beta_dpo/beta_margin_mean': 56.539398193359375, 'beta_dpo/beta_margin_std': 60.37042236328125, 'beta_dpo/beta_margin_grad_mean': -0.1911478042602539, 'beta_dpo/beta_margin_grad_std': 0.3803271949291229, 'epoch': 0.3}
+ 30%|██████████████████████▉                                                     | 206/681 [15:09<2:34:17, 19.49s/it] 30%|███████████████████████                                                     | 207/681 [15:11<1:53:45, 14.40s/it]                                                                                                                     {'loss': 1.3372, 'grad_norm': 3.9254820346832275, 'learning_rate': 4.4068368231789365e-07, 'beta_dpo/gap_mean': 55.76563262939453, 'beta_dpo/gap_std': 74.22966766357422, 'beta_dpo/beta_used_raw': -0.22176781296730042, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5645418167114258, 'logits/rejected': -0.5385115742683411, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 70.96053314208984, 'beta_dpo/beta_margin_mean': 0.07096053659915924, 'beta_dpo/beta_margin_std': 0.08763889223337173, 'beta_dpo/beta_margin_grad_mean': -0.4823157787322998, 'beta_dpo/beta_margin_grad_std': 0.02179008349776268, 'epoch': 0.3}
+ 30%|███████████████████████                                                     | 207/681 [15:11<1:53:45, 14.40s/it] 31%|███████████████████████▏                                                    | 208/681 [15:14<1:25:42, 10.87s/it]                                                                                                                     {'loss': 1.3351, 'grad_norm': 3.8811442852020264, 'learning_rate': 4.398512291636768e-07, 'beta_dpo/gap_mean': 56.717201232910156, 'beta_dpo/gap_std': 76.8087158203125, 'beta_dpo/beta_used_raw': -0.131654754281044, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5704125761985779, 'logits/rejected': -0.5577903985977173, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 55.905086517333984, 'beta_dpo/beta_margin_mean': 0.055905092507600784, 'beta_dpo/beta_margin_std': 0.08626676350831985, 'beta_dpo/beta_margin_grad_mean': -0.48605671525001526, 'beta_dpo/beta_margin_grad_std': 0.021491041406989098, 'epoch': 0.31}
+ 31%|███████████████████████▏                                                    | 208/681 [15:14<1:25:42, 10.87s/it] 31%|███████████████████████▎                                                    | 209/681 [15:16<1:05:18,  8.30s/it]                                                                                                                     {'loss': 1.3415, 'grad_norm': 3.4770359992980957, 'learning_rate': 4.3901377325300857e-07, 'beta_dpo/gap_mean': 55.72069549560547, 'beta_dpo/gap_std': 78.26738739013672, 'beta_dpo/beta_used_raw': -0.45698946714401245, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5012378692626953, 'logits/rejected': -0.4895186424255371, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 52.53633117675781, 'beta_dpo/beta_margin_mean': 0.05253633111715317, 'beta_dpo/beta_margin_std': 0.07954316586256027, 'beta_dpo/beta_margin_grad_mean': -0.48689284920692444, 'beta_dpo/beta_margin_grad_std': 0.019833343103528023, 'epoch': 0.31}
+ 31%|███████████████████████▎                                                    | 209/681 [15:16<1:05:18,  8.30s/it] 31%|████████████████████████                                                      | 210/681 [15:19<51:16,  6.53s/it]                                                                                                                     {'loss': 1.2834, 'grad_norm': 341.5815124511719, 'learning_rate': 4.381713366536311e-07, 'beta_dpo/gap_mean': 55.32640075683594, 'beta_dpo/gap_std': 78.07096862792969, 'beta_dpo/beta_used_raw': -0.5257502794265747, 'beta_dpo/beta_used': 0.15351513028144836, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4934021234512329, 'logits/rejected': -0.48370587825775146, 'beta_dpo/beta': 0.15351513028144836, 'beta_dpo/loss_margin_mean': 55.78252029418945, 'beta_dpo/beta_margin_mean': 9.529181480407715, 'beta_dpo/beta_margin_std': 20.73506736755371, 'beta_dpo/beta_margin_grad_mean': -0.3444797396659851, 'beta_dpo/beta_margin_grad_std': 0.28890836238861084, 'epoch': 0.31}
+ 31%|████████████████████████                                                      | 210/681 [15:19<51:16,  6.53s/it] 31%|████████████████████████▏                                                     | 211/681 [15:21<41:16,  5.27s/it]                                                                                                                     {'loss': 1.3584, 'grad_norm': 3.5843217372894287, 'learning_rate': 4.373239415645323e-07, 'beta_dpo/gap_mean': 54.482818603515625, 'beta_dpo/gap_std': 79.86414337158203, 'beta_dpo/beta_used_raw': -1.437325358390808, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4944462776184082, 'logits/rejected': -0.4566226005554199, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 47.95879364013672, 'beta_dpo/beta_margin_mean': 0.047958794981241226, 'beta_dpo/beta_margin_std': 0.09425321221351624, 'beta_dpo/beta_margin_grad_mean': -0.4880537688732147, 'beta_dpo/beta_margin_grad_std': 0.0234391950070858, 'epoch': 0.31}
+ 31%|████████████████████████▏                                                     | 211/681 [15:21<41:16,  5.27s/it] 31%|████████████████████████▎                                                     | 212/681 [15:24<34:43,  4.44s/it]                                                                                                                     {'loss': 29.8368, 'grad_norm': 7063.01416015625, 'learning_rate': 4.3647161031536086e-07, 'beta_dpo/gap_mean': 59.36201477050781, 'beta_dpo/gap_std': 85.50032043457031, 'beta_dpo/beta_used_raw': 1.0547301769256592, 'beta_dpo/beta_used': 1.3223354816436768, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4703846573829651, 'logits/rejected': -0.4657232165336609, 'beta_dpo/beta': 1.3223354816436768, 'beta_dpo/loss_margin_mean': 81.92825317382812, 'beta_dpo/beta_margin_mean': 141.0015869140625, 'beta_dpo/beta_margin_std': 267.85894775390625, 'beta_dpo/beta_margin_grad_mean': -0.35223668813705444, 'beta_dpo/beta_margin_grad_std': 0.32164767384529114, 'epoch': 0.31}
+ 31%|████████████████████████▎                                                     | 212/681 [15:24<34:43,  4.44s/it] 31%|████████████████████████▍                                                     | 213/681 [15:26<30:19,  3.89s/it]                                                                                                                     {'loss': 1.335, 'grad_norm': 4.132566452026367, 'learning_rate': 4.3561436536583774e-07, 'beta_dpo/gap_mean': 61.29865646362305, 'beta_dpo/gap_std': 87.67449951171875, 'beta_dpo/beta_used_raw': -0.37106069922447205, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47617167234420776, 'logits/rejected': -0.44875389337539673, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 71.65673828125, 'beta_dpo/beta_margin_mean': 0.07165674865245819, 'beta_dpo/beta_margin_std': 0.10214556753635406, 'beta_dpo/beta_margin_grad_mean': -0.4821443259716034, 'beta_dpo/beta_margin_grad_std': 0.025429587811231613, 'epoch': 0.31}
+ 31%|████████████████████████▍                                                     | 213/681 [15:26<30:19,  3.89s/it] 31%|████████████████████████▌                                                     | 214/681 [15:28<26:33,  3.41s/it]                                                                                                                     {'loss': 1.3312, 'grad_norm': 5.018362998962402, 'learning_rate': 4.3475222930516473e-07, 'beta_dpo/gap_mean': 62.14265823364258, 'beta_dpo/gap_std': 89.926513671875, 'beta_dpo/beta_used_raw': -0.2031300812959671, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4100716710090637, 'logits/rejected': -0.41462287306785583, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 66.73929595947266, 'beta_dpo/beta_margin_mean': 0.06673929840326309, 'beta_dpo/beta_margin_std': 0.09353061765432358, 'beta_dpo/beta_margin_grad_mean': -0.4833696484565735, 'beta_dpo/beta_margin_grad_std': 0.023280689492821693, 'epoch': 0.31}
+ 31%|████████████████████████▌                                                     | 214/681 [15:28<26:33,  3.41s/it] 32%|████████████████████████▋                                                     | 215/681 [15:31<25:17,  3.26s/it]                                                                                                                     {'loss': 5.4992, 'grad_norm': 1893.756103515625, 'learning_rate': 4.3388522485142885e-07, 'beta_dpo/gap_mean': 64.10518646240234, 'beta_dpo/gap_std': 91.72321319580078, 'beta_dpo/beta_used_raw': -0.06115126609802246, 'beta_dpo/beta_used': 0.3104745149612427, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4227758049964905, 'logits/rejected': -0.41368818283081055, 'beta_dpo/beta': 0.3104745149612427, 'beta_dpo/loss_margin_mean': 70.83655548095703, 'beta_dpo/beta_margin_mean': 24.29639434814453, 'beta_dpo/beta_margin_std': 55.270938873291016, 'beta_dpo/beta_margin_grad_mean': -0.35084572434425354, 'beta_dpo/beta_margin_grad_std': 0.3201132118701935, 'epoch': 0.32}
+ 32%|████████████████████████▋                                                     | 215/681 [15:31<25:17,  3.26s/it] 32%|████████████████████████▋                                                     | 216/681 [15:34<24:05,  3.11s/it]                                                                                                                     {'loss': 1.6065, 'grad_norm': 478.4328918457031, 'learning_rate': 4.330133748510036e-07, 'beta_dpo/gap_mean': 63.70437240600586, 'beta_dpo/gap_std': 92.65457153320312, 'beta_dpo/beta_used_raw': -0.4864157736301422, 'beta_dpo/beta_used': 0.1452518105506897, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4186558425426483, 'logits/rejected': -0.40211576223373413, 'beta_dpo/beta': 0.1452518105506897, 'beta_dpo/loss_margin_mean': 66.72907257080078, 'beta_dpo/beta_margin_mean': 12.094311714172363, 'beta_dpo/beta_margin_std': 23.100305557250977, 'beta_dpo/beta_margin_grad_mean': -0.3200395703315735, 'beta_dpo/beta_margin_grad_std': 0.28639811277389526, 'epoch': 0.32}
+ 32%|████████████████████████▋                                                     | 216/681 [15:34<24:05,  3.11s/it] 32%|████████████████████████▊                                                     | 217/681 [15:37<22:49,  2.95s/it]                                                                                                                     {'loss': 1.4452, 'grad_norm': 547.8667602539062, 'learning_rate': 4.3213670227794757e-07, 'beta_dpo/gap_mean': 67.39096069335938, 'beta_dpo/gap_std': 93.9806137084961, 'beta_dpo/beta_used_raw': -0.15126293897628784, 'beta_dpo/beta_used': 0.052402470260858536, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4100034236907959, 'logits/rejected': -0.407045841217041, 'beta_dpo/beta': 0.052402470260858536, 'beta_dpo/loss_margin_mean': 80.78280639648438, 'beta_dpo/beta_margin_mean': 3.8621439933776855, 'beta_dpo/beta_margin_std': 9.069067001342773, 'beta_dpo/beta_margin_grad_mean': -0.38916242122650146, 'beta_dpo/beta_margin_grad_std': 0.3128577768802643, 'epoch': 0.32}
+ 32%|████████████████████████▊                                                     | 217/681 [15:37<22:49,  2.95s/it] 32%|████████████████████████▉                                                     | 218/681 [15:39<22:10,  2.87s/it]                                                                                                                     {'loss': 1.3429, 'grad_norm': 5.246548652648926, 'learning_rate': 4.3125523023339815e-07, 'beta_dpo/gap_mean': 66.28788757324219, 'beta_dpo/gap_std': 94.35865783691406, 'beta_dpo/beta_used_raw': -1.1618341207504272, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.431363046169281, 'logits/rejected': -0.4271088242530823, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.7301025390625, 'beta_dpo/beta_margin_mean': 0.05773010477423668, 'beta_dpo/beta_margin_std': 0.09657855331897736, 'beta_dpo/beta_margin_grad_mean': -0.4856181740760803, 'beta_dpo/beta_margin_grad_std': 0.024022625759243965, 'epoch': 0.32}
+ 32%|████████████████████████▉                                                     | 218/681 [15:39<22:10,  2.87s/it] 32%|█████████████████████████                                                     | 219/681 [15:42<21:37,  2.81s/it]                                                                                                                     {'loss': 1.3488, 'grad_norm': 4.286383152008057, 'learning_rate': 4.303689819449636e-07, 'beta_dpo/gap_mean': 62.747528076171875, 'beta_dpo/gap_std': 96.75794982910156, 'beta_dpo/beta_used_raw': -1.3351142406463623, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4274938106536865, 'logits/rejected': -0.41343453526496887, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 51.15894317626953, 'beta_dpo/beta_margin_mean': 0.05115894228219986, 'beta_dpo/beta_margin_std': 0.10570129752159119, 'beta_dpo/beta_margin_grad_mean': -0.4872594475746155, 'beta_dpo/beta_margin_grad_std': 0.02623271755874157, 'epoch': 0.32}
+ 32%|█████████████████████████                                                     | 219/681 [15:42<21:37,  2.81s/it] 32%|█████████████████████████▏                                                    | 220/681 [15:45<21:06,  2.75s/it]                                                                                                                     {'loss': 0.914, 'grad_norm': 1213.65625, 'learning_rate': 4.2947798076611047e-07, 'beta_dpo/gap_mean': 60.67655944824219, 'beta_dpo/gap_std': 93.46902465820312, 'beta_dpo/beta_used_raw': 0.05747605115175247, 'beta_dpo/beta_used': 0.17918218672275543, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45730453729629517, 'logits/rejected': -0.43929389119148254, 'beta_dpo/beta': 0.17918218672275543, 'beta_dpo/loss_margin_mean': 43.123931884765625, 'beta_dpo/beta_margin_mean': 9.130165100097656, 'beta_dpo/beta_margin_std': 20.58268928527832, 'beta_dpo/beta_margin_grad_mean': -0.34378835558891296, 'beta_dpo/beta_margin_grad_std': 0.3021136224269867, 'epoch': 0.32}
+ 32%|█████████████████████████▏                                                    | 220/681 [15:45<21:06,  2.75s/it] 32%|█████████████████████████▎                                                    | 221/681 [15:47<20:29,  2.67s/it]                                                                                                                     {'loss': 8.7201, 'grad_norm': 3353.1982421875, 'learning_rate': 4.285822501755485e-07, 'beta_dpo/gap_mean': 63.86392593383789, 'beta_dpo/gap_std': 92.72855377197266, 'beta_dpo/beta_used_raw': 0.8143908977508545, 'beta_dpo/beta_used': 1.0828216075897217, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41670554876327515, 'logits/rejected': -0.42472323775291443, 'beta_dpo/beta': 1.0828216075897217, 'beta_dpo/loss_margin_mean': 93.2608871459961, 'beta_dpo/beta_margin_mean': 110.4359359741211, 'beta_dpo/beta_margin_std': 165.42660522460938, 'beta_dpo/beta_margin_grad_mean': -0.285607248544693, 'beta_dpo/beta_margin_grad_std': 0.28007781505584717, 'epoch': 0.32}
+ 32%|█████████████████████████▎                                                    | 221/681 [15:47<20:29,  2.67s/it] 33%|█████████████████████████▍                                                    | 222/681 [15:50<20:15,  2.65s/it]                                                                                                                     {'loss': 3.3505, 'grad_norm': 1461.958251953125, 'learning_rate': 4.276818137766118e-07, 'beta_dpo/gap_mean': 65.32881164550781, 'beta_dpo/gap_std': 91.67716979980469, 'beta_dpo/beta_used_raw': 0.24051879346370697, 'beta_dpo/beta_used': 0.24051879346370697, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4541017413139343, 'logits/rejected': -0.45362943410873413, 'beta_dpo/beta': 0.24051879346370697, 'beta_dpo/loss_margin_mean': 64.1358642578125, 'beta_dpo/beta_margin_mean': 14.743354797363281, 'beta_dpo/beta_margin_std': 23.80963897705078, 'beta_dpo/beta_margin_grad_mean': -0.19494900107383728, 'beta_dpo/beta_margin_grad_std': 0.3727710545063019, 'epoch': 0.33}
+ 33%|█████████████████████████▍                                                    | 222/681 [15:50<20:15,  2.65s/it] 33%|█████████████████████████▌                                                    | 223/681 [15:52<19:10,  2.51s/it]                                                                                                                     {'loss': 1.3355, 'grad_norm': 5.079369068145752, 'learning_rate': 4.2677669529663686e-07, 'beta_dpo/gap_mean': 64.32170104980469, 'beta_dpo/gap_std': 92.70675659179688, 'beta_dpo/beta_used_raw': -0.6068298816680908, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4292357563972473, 'logits/rejected': -0.41810518503189087, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 55.133277893066406, 'beta_dpo/beta_margin_mean': 0.05513327941298485, 'beta_dpo/beta_margin_std': 0.09587711095809937, 'beta_dpo/beta_margin_grad_mean': -0.48626866936683655, 'beta_dpo/beta_margin_grad_std': 0.02382073365151882, 'epoch': 0.33}
+ 33%|█████████████████████████▌                                                    | 223/681 [15:52<19:10,  2.51s/it] 33%|█████████████████████████▋                                                    | 224/681 [15:54<18:15,  2.40s/it]                                                                                                                     {'loss': 1.3414, 'grad_norm': 5.289470672607422, 'learning_rate': 4.2586691858633747e-07, 'beta_dpo/gap_mean': 64.98542785644531, 'beta_dpo/gap_std': 92.75971221923828, 'beta_dpo/beta_used_raw': -1.0090042352676392, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40946879982948303, 'logits/rejected': -0.3898620009422302, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 66.39501190185547, 'beta_dpo/beta_margin_mean': 0.06639501452445984, 'beta_dpo/beta_margin_std': 0.09770266711711884, 'beta_dpo/beta_margin_grad_mean': -0.4834619462490082, 'beta_dpo/beta_margin_grad_std': 0.024282945320010185, 'epoch': 0.33}
+ 33%|█████████████████████████▋                                                    | 224/681 [15:54<18:15,  2.40s/it] 33%|█████████████████████████▊                                                    | 225/681 [15:56<17:56,  2.36s/it]                                                                                                                     {'loss': 2.7657, 'grad_norm': 5388.49951171875, 'learning_rate': 4.249525076191759e-07, 'beta_dpo/gap_mean': 66.35330200195312, 'beta_dpo/gap_std': 93.56597137451172, 'beta_dpo/beta_used_raw': 0.5190803408622742, 'beta_dpo/beta_used': 0.5190803408622742, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42718806862831116, 'logits/rejected': -0.4125264286994934, 'beta_dpo/beta': 0.5190803408622742, 'beta_dpo/loss_margin_mean': 78.7562484741211, 'beta_dpo/beta_margin_mean': 43.59006881713867, 'beta_dpo/beta_margin_std': 67.32926940917969, 'beta_dpo/beta_margin_grad_mean': -0.22263871133327484, 'beta_dpo/beta_margin_grad_std': 0.4009822607040405, 'epoch': 0.33}
+ 33%|█████████████████████████▊                                                    | 225/681 [15:56<17:56,  2.36s/it] 33%|█████████████████████████▉                                                    | 226/681 [15:59<18:51,  2.49s/it]                                                                                                                     {'loss': 1.1641, 'grad_norm': 17.83782958984375, 'learning_rate': 4.2403348649073167e-07, 'beta_dpo/gap_mean': 65.67891693115234, 'beta_dpo/gap_std': 93.4427490234375, 'beta_dpo/beta_used_raw': -0.38874343037605286, 'beta_dpo/beta_used': 0.004440045915544033, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48651188611984253, 'logits/rejected': -0.4508872628211975, 'beta_dpo/beta': 0.004440045915544033, 'beta_dpo/loss_margin_mean': 54.554115295410156, 'beta_dpo/beta_margin_mean': 0.30315059423446655, 'beta_dpo/beta_margin_std': 0.5602424740791321, 'beta_dpo/beta_margin_grad_mean': -0.433518648147583, 'beta_dpo/beta_margin_grad_std': 0.11666657030582428, 'epoch': 0.33}
+ 33%|█████████████████████████▉                                                    | 226/681 [15:59<18:51,  2.49s/it] 33%|██████████████████████████                                                    | 227/681 [16:02<18:46,  2.48s/it]                                                                                                                     {'loss': 1.3266, 'grad_norm': 4.970055103302002, 'learning_rate': 4.2310987941806615e-07, 'beta_dpo/gap_mean': 66.89671325683594, 'beta_dpo/gap_std': 93.85809326171875, 'beta_dpo/beta_used_raw': -0.21814611554145813, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46300429105758667, 'logits/rejected': -0.4537394046783447, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 80.1581802368164, 'beta_dpo/beta_margin_mean': 0.08015818148851395, 'beta_dpo/beta_margin_std': 0.09570427238941193, 'beta_dpo/beta_margin_grad_mean': -0.4800347089767456, 'beta_dpo/beta_margin_grad_std': 0.023754583671689034, 'epoch': 0.33}
+ 33%|██████████████████████████                                                    | 227/681 [16:02<18:46,  2.48s/it] 33%|██████████████████████████                                                    | 228/681 [16:04<19:45,  2.62s/it]                                                                                                                     {'loss': 2.1248, 'grad_norm': 576.836669921875, 'learning_rate': 4.2218171073908463e-07, 'beta_dpo/gap_mean': 65.2583999633789, 'beta_dpo/gap_std': 93.36762237548828, 'beta_dpo/beta_used_raw': -0.04854981601238251, 'beta_dpo/beta_used': 0.23101337254047394, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46720415353775024, 'logits/rejected': -0.4512375593185425, 'beta_dpo/beta': 0.23101337254047394, 'beta_dpo/loss_margin_mean': 55.80860137939453, 'beta_dpo/beta_margin_mean': 11.812125205993652, 'beta_dpo/beta_margin_std': 30.85622215270996, 'beta_dpo/beta_margin_grad_mean': -0.36090514063835144, 'beta_dpo/beta_margin_grad_std': 0.31774094700813293, 'epoch': 0.33}
+ 33%|██████████████████████████                                                    | 228/681 [16:05<19:45,  2.62s/it] 34%|██████████████████████████▏                                                   | 229/681 [16:07<19:23,  2.57s/it]                                                                                                                     {'loss': 1.3298, 'grad_norm': 5.151296615600586, 'learning_rate': 4.212490049118951e-07, 'beta_dpo/gap_mean': 63.560447692871094, 'beta_dpo/gap_std': 93.40653991699219, 'beta_dpo/beta_used_raw': -0.1934027224779129, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.52690190076828, 'logits/rejected': -0.4995231628417969, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 55.15596389770508, 'beta_dpo/beta_margin_mean': 0.05515596643090248, 'beta_dpo/beta_margin_std': 0.09170445799827576, 'beta_dpo/beta_margin_grad_mean': -0.486246794462204, 'beta_dpo/beta_margin_grad_std': 0.022847512736916542, 'epoch': 0.34}
+ 34%|██████████████████████████▏                                                   | 229/681 [16:07<19:23,  2.57s/it] 34%|██████████████████████████▎                                                   | 230/681 [16:09<18:56,  2.52s/it]                                                                                                                     {'loss': 6.1252, 'grad_norm': 2202.667724609375, 'learning_rate': 4.203117865141635e-07, 'beta_dpo/gap_mean': 66.75623321533203, 'beta_dpo/gap_std': 92.87422180175781, 'beta_dpo/beta_used_raw': 0.7624739408493042, 'beta_dpo/beta_used': 0.7624739408493042, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4267687201499939, 'logits/rejected': -0.43476104736328125, 'beta_dpo/beta': 0.7624739408493042, 'beta_dpo/loss_margin_mean': 86.35228729248047, 'beta_dpo/beta_margin_mean': 65.0893325805664, 'beta_dpo/beta_margin_std': 68.40202331542969, 'beta_dpo/beta_margin_grad_mean': -0.14170564711093903, 'beta_dpo/beta_margin_grad_std': 0.3462100327014923, 'epoch': 0.34}
+ 34%|██████████████████████████▎                                                   | 230/681 [16:09<18:56,  2.52s/it] 34%|██████████████████████████▍                                                   | 231/681 [16:12<19:06,  2.55s/it]                                                                                                                     {'loss': 1.3451, 'grad_norm': 3.6118087768554688, 'learning_rate': 4.1937008024246625e-07, 'beta_dpo/gap_mean': 65.62940979003906, 'beta_dpo/gap_std': 90.5175552368164, 'beta_dpo/beta_used_raw': -1.2731541395187378, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48225754499435425, 'logits/rejected': -0.4550408124923706, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 55.06380844116211, 'beta_dpo/beta_margin_mean': 0.05506381019949913, 'beta_dpo/beta_margin_std': 0.0815558135509491, 'beta_dpo/beta_margin_grad_mean': -0.4862736463546753, 'beta_dpo/beta_margin_grad_std': 0.020299429073929787, 'epoch': 0.34}
+ 34%|██████████████████████████▍                                                   | 231/681 [16:12<19:06,  2.55s/it] 34%|██████████████████████████▌                                                   | 232/681 [16:15<19:42,  2.63s/it]                                                                                                                     {'loss': 1.3498, 'grad_norm': 3.735759973526001, 'learning_rate': 4.1842391091163933e-07, 'beta_dpo/gap_mean': 62.820167541503906, 'beta_dpo/gap_std': 90.34293365478516, 'beta_dpo/beta_used_raw': -1.4023609161376953, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.459547221660614, 'logits/rejected': -0.43855172395706177, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 45.41696548461914, 'beta_dpo/beta_margin_mean': 0.04541696980595589, 'beta_dpo/beta_margin_std': 0.08694743365049362, 'beta_dpo/beta_margin_grad_mean': -0.4886838495731354, 'beta_dpo/beta_margin_grad_std': 0.02164299599826336, 'epoch': 0.34}
+ 34%|██████████████████████████▌                                                   | 232/681 [16:15<19:42,  2.63s/it] 34%|██████████████████████████▋                                                   | 233/681 [16:18<19:58,  2.68s/it]                                                                                                                     {'loss': 13.3621, 'grad_norm': 2282.5595703125, 'learning_rate': 4.174733034541245e-07, 'beta_dpo/gap_mean': 63.577369689941406, 'beta_dpo/gap_std': 93.35490417480469, 'beta_dpo/beta_used_raw': 0.6553887128829956, 'beta_dpo/beta_used': 0.6553887128829956, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4606332778930664, 'logits/rejected': -0.46368852257728577, 'beta_dpo/beta': 0.6553887128829956, 'beta_dpo/loss_margin_mean': 80.09815216064453, 'beta_dpo/beta_margin_mean': 55.271568298339844, 'beta_dpo/beta_margin_std': 99.48710632324219, 'beta_dpo/beta_margin_grad_mean': -0.2702082693576813, 'beta_dpo/beta_margin_grad_std': 0.43462416529655457, 'epoch': 0.34}
+ 34%|██████████████████████████▋                                                   | 233/681 [16:18<19:58,  2.68s/it] 34%|██████████████████████████▊                                                   | 234/681 [16:20<19:56,  2.68s/it]                                                                                                                     {'loss': 8.0627, 'grad_norm': 2767.52880859375, 'learning_rate': 4.165182829193126e-07, 'beta_dpo/gap_mean': 68.05307006835938, 'beta_dpo/gap_std': 95.49946594238281, 'beta_dpo/beta_used_raw': 0.4511352777481079, 'beta_dpo/beta_used': 0.7232382297515869, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43197929859161377, 'logits/rejected': -0.4625827670097351, 'beta_dpo/beta': 0.7232382297515869, 'beta_dpo/loss_margin_mean': 78.76392364501953, 'beta_dpo/beta_margin_mean': 74.6033935546875, 'beta_dpo/beta_margin_std': 122.55489349365234, 'beta_dpo/beta_margin_grad_mean': -0.2983703017234802, 'beta_dpo/beta_margin_grad_std': 0.284095823764801, 'epoch': 0.34}
+ 34%|██████████████████████████▊                                                   | 234/681 [16:20<19:56,  2.68s/it] 35%|██████████████████████████▉                                                   | 235/681 [16:23<19:21,  2.60s/it]                                                                                                                     {'loss': 1.3526, 'grad_norm': 6.3571929931640625, 'learning_rate': 4.1555887447288255e-07, 'beta_dpo/gap_mean': 64.27421569824219, 'beta_dpo/gap_std': 95.8262939453125, 'beta_dpo/beta_used_raw': -1.6707329750061035, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4989432692527771, 'logits/rejected': -0.4859057068824768, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 48.786006927490234, 'beta_dpo/beta_margin_mean': 0.04878600686788559, 'beta_dpo/beta_margin_std': 0.09710308909416199, 'beta_dpo/beta_margin_grad_mean': -0.4878506064414978, 'beta_dpo/beta_margin_grad_std': 0.024142302572727203, 'epoch': 0.35}
+ 35%|██████████████████████████▉                                                   | 235/681 [16:23<19:21,  2.60s/it] 35%|███████████████████████████                                                   | 236/681 [16:25<19:37,  2.65s/it]                                                                                                                     {'loss': 0.7942, 'grad_norm': 211.59228515625, 'learning_rate': 4.1459510339613946e-07, 'beta_dpo/gap_mean': 65.10395050048828, 'beta_dpo/gap_std': 94.22532653808594, 'beta_dpo/beta_used_raw': -0.10223083198070526, 'beta_dpo/beta_used': 0.12677739560604095, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46568238735198975, 'logits/rejected': -0.4750595688819885, 'beta_dpo/beta': 0.12677739560604095, 'beta_dpo/loss_margin_mean': 74.87934875488281, 'beta_dpo/beta_margin_mean': 10.552834510803223, 'beta_dpo/beta_margin_std': 17.651796340942383, 'beta_dpo/beta_margin_grad_mean': -0.2837068736553192, 'beta_dpo/beta_margin_grad_std': 0.26055774092674255, 'epoch': 0.35}
+ 35%|███████████████████████████                                                   | 236/681 [16:25<19:37,  2.65s/it] 35%|███████████████████████████▏                                                  | 237/681 [16:28<19:46,  2.67s/it]                                                                                                                     {'loss': 4.2522, 'grad_norm': 1457.3970947265625, 'learning_rate': 4.136269950853473e-07, 'beta_dpo/gap_mean': 66.33110046386719, 'beta_dpo/gap_std': 94.28207397460938, 'beta_dpo/beta_used_raw': 0.05189155042171478, 'beta_dpo/beta_used': 0.23019856214523315, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4683570861816406, 'logits/rejected': -0.4693116545677185, 'beta_dpo/beta': 0.23019856214523315, 'beta_dpo/loss_margin_mean': 68.86071014404297, 'beta_dpo/beta_margin_mean': 16.547616958618164, 'beta_dpo/beta_margin_std': 33.88982391357422, 'beta_dpo/beta_margin_grad_mean': -0.3403577208518982, 'beta_dpo/beta_margin_grad_std': 0.2993144690990448, 'epoch': 0.35}
+ 35%|███████████████████████████▏                                                  | 237/681 [16:28<19:46,  2.67s/it] 35%|███████████████████████████▎                                                  | 238/681 [16:31<20:04,  2.72s/it]                                                                                                                     {'loss': 1.3348, 'grad_norm': 4.830297946929932, 'learning_rate': 4.126545750510605e-07, 'beta_dpo/gap_mean': 66.35641479492188, 'beta_dpo/gap_std': 93.38137817382812, 'beta_dpo/beta_used_raw': -0.6816811561584473, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4283304214477539, 'logits/rejected': -0.4415178894996643, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 60.12242889404297, 'beta_dpo/beta_margin_mean': 0.06012243032455444, 'beta_dpo/beta_margin_std': 0.08544077724218369, 'beta_dpo/beta_margin_grad_mean': -0.48502317070961, 'beta_dpo/beta_margin_grad_std': 0.021210981532931328, 'epoch': 0.35}
+ 35%|███████████████████████████▎                                                  | 238/681 [16:31<20:04,  2.72s/it] 35%|███████████████████████████▎                                                  | 239/681 [16:33<19:27,  2.64s/it]                                                                                                                     {'loss': 5.1543, 'grad_norm': 3145.790283203125, 'learning_rate': 4.116778689174514e-07, 'beta_dpo/gap_mean': 66.31056213378906, 'beta_dpo/gap_std': 91.886962890625, 'beta_dpo/beta_used_raw': 0.1778862476348877, 'beta_dpo/beta_used': 1.085011601448059, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46962711215019226, 'logits/rejected': -0.45392659306526184, 'beta_dpo/beta': 1.085011601448059, 'beta_dpo/loss_margin_mean': 67.11627197265625, 'beta_dpo/beta_margin_mean': 92.08358001708984, 'beta_dpo/beta_margin_std': 171.84555053710938, 'beta_dpo/beta_margin_grad_mean': -0.3376123607158661, 'beta_dpo/beta_margin_grad_std': 0.3144451677799225, 'epoch': 0.35}
+ 35%|███████████████████████████▎                                                  | 239/681 [16:33<19:27,  2.64s/it] 35%|███████████████████████████▍                                                  | 240/681 [16:36<19:23,  2.64s/it]                                                                                                                     {'loss': 1.003, 'grad_norm': 40.69264602661133, 'learning_rate': 4.106969024216348e-07, 'beta_dpo/gap_mean': 64.25852966308594, 'beta_dpo/gap_std': 89.93122863769531, 'beta_dpo/beta_used_raw': -0.3118809163570404, 'beta_dpo/beta_used': 0.01710430718958378, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4985065460205078, 'logits/rejected': -0.48068171739578247, 'beta_dpo/beta': 0.01710430718958378, 'beta_dpo/loss_margin_mean': 53.26530075073242, 'beta_dpo/beta_margin_mean': 1.1268202066421509, 'beta_dpo/beta_margin_std': 2.160505771636963, 'beta_dpo/beta_margin_grad_mean': -0.35482582449913025, 'beta_dpo/beta_margin_grad_std': 0.23242245614528656, 'epoch': 0.35}
+ 35%|███████████████████████████▍                                                  | 240/681 [16:36<19:23,  2.64s/it] 35%|███████████████████████████▌                                                  | 241/681 [16:39<18:56,  2.58s/it]                                                                                                                     {'loss': 0.7624, 'grad_norm': 423.2123107910156, 'learning_rate': 4.097117014129903e-07, 'beta_dpo/gap_mean': 65.07862854003906, 'beta_dpo/gap_std': 90.019287109375, 'beta_dpo/beta_used_raw': -0.44774329662323, 'beta_dpo/beta_used': 0.15345998108386993, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.509527862071991, 'logits/rejected': -0.4832276701927185, 'beta_dpo/beta': 0.15345998108386993, 'beta_dpo/loss_margin_mean': 80.56120300292969, 'beta_dpo/beta_margin_mean': 10.851144790649414, 'beta_dpo/beta_margin_std': 16.8941593170166, 'beta_dpo/beta_margin_grad_mean': -0.2729555368423462, 'beta_dpo/beta_margin_grad_std': 0.2604886293411255, 'epoch': 0.35}
+ 35%|███████████████████████████▌                                                  | 241/681 [16:39<18:56,  2.58s/it] 36%|███████████████████████████▋                                                  | 242/681 [16:41<18:35,  2.54s/it]                                                                                                                     {'loss': 1.3321, 'grad_norm': 4.439099311828613, 'learning_rate': 4.087222918524807e-07, 'beta_dpo/gap_mean': 64.53580474853516, 'beta_dpo/gap_std': 93.37384033203125, 'beta_dpo/beta_used_raw': -0.40156319737434387, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45422351360321045, 'logits/rejected': -0.42984485626220703, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.7884407043457, 'beta_dpo/beta_margin_mean': 0.05778844282031059, 'beta_dpo/beta_margin_std': 0.094021275639534, 'beta_dpo/beta_margin_grad_mean': -0.4855991005897522, 'beta_dpo/beta_margin_grad_std': 0.023397963494062424, 'epoch': 0.36}
+ 36%|███████████████████████████▋                                                  | 242/681 [16:41<18:35,  2.54s/it] 36%|███████████████████████████▊                                                  | 243/681 [16:44<18:34,  2.54s/it]                                                                                                                     {'loss': 4.1283, 'grad_norm': 1469.662841796875, 'learning_rate': 4.07728699811968e-07, 'beta_dpo/gap_mean': 65.9927978515625, 'beta_dpo/gap_std': 92.37184143066406, 'beta_dpo/beta_used_raw': -0.12471228837966919, 'beta_dpo/beta_used': 0.30491340160369873, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44465339183807373, 'logits/rejected': -0.4099007844924927, 'beta_dpo/beta': 0.30491340160369873, 'beta_dpo/loss_margin_mean': 72.20804595947266, 'beta_dpo/beta_margin_mean': 22.148780822753906, 'beta_dpo/beta_margin_std': 43.37929153442383, 'beta_dpo/beta_margin_grad_mean': -0.3281807005405426, 'beta_dpo/beta_margin_grad_std': 0.29721781611442566, 'epoch': 0.36}
+ 36%|███████████████████████████▊                                                  | 243/681 [16:44<18:34,  2.54s/it] 36%|███████████████████████████▉                                                  | 244/681 [16:46<18:34,  2.55s/it]                                                                                                                     {'loss': 1.3698, 'grad_norm': 321.0909118652344, 'learning_rate': 4.067309514735267e-07, 'beta_dpo/gap_mean': 67.40866088867188, 'beta_dpo/gap_std': 90.40948486328125, 'beta_dpo/beta_used_raw': -0.010177649557590485, 'beta_dpo/beta_used': 0.12539884448051453, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49787259101867676, 'logits/rejected': -0.4910111427307129, 'beta_dpo/beta': 0.12539884448051453, 'beta_dpo/loss_margin_mean': 73.00894165039062, 'beta_dpo/beta_margin_mean': 8.772866249084473, 'beta_dpo/beta_margin_std': 14.808113098144531, 'beta_dpo/beta_margin_grad_mean': -0.33266112208366394, 'beta_dpo/beta_margin_grad_std': 0.2994270622730255, 'epoch': 0.36}
+ 36%|███████████████████████████▉                                                  | 244/681 [16:46<18:34,  2.55s/it] 36%|████████████████████████████                                                  | 245/681 [16:49<19:03,  2.62s/it]                                                                                                                     {'loss': 1.3501, 'grad_norm': 3.6279404163360596, 'learning_rate': 4.057290731287531e-07, 'beta_dpo/gap_mean': 67.58259582519531, 'beta_dpo/gap_std': 91.15482330322266, 'beta_dpo/beta_used_raw': -1.7166011333465576, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5001641511917114, 'logits/rejected': -0.4671769142150879, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.68232727050781, 'beta_dpo/beta_margin_mean': 0.057682327926158905, 'beta_dpo/beta_margin_std': 0.10235247761011124, 'beta_dpo/beta_margin_grad_mean': -0.48563241958618164, 'beta_dpo/beta_margin_grad_std': 0.025404594838619232, 'epoch': 0.36}
+ 36%|████████████████████████████                                                  | 245/681 [16:49<19:03,  2.62s/it] 36%|████████████████████████████▏                                                 | 246/681 [16:51<18:54,  2.61s/it]                                                                                                                     {'loss': 1.3351, 'grad_norm': 4.705582618713379, 'learning_rate': 4.047230911780736e-07, 'beta_dpo/gap_mean': 64.41853332519531, 'beta_dpo/gap_std': 90.19287872314453, 'beta_dpo/beta_used_raw': -0.5867970585823059, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5271105766296387, 'logits/rejected': -0.49014580249786377, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 58.41972351074219, 'beta_dpo/beta_margin_mean': 0.05841972678899765, 'beta_dpo/beta_margin_std': 0.08776440471410751, 'beta_dpo/beta_margin_grad_mean': -0.48544150590896606, 'beta_dpo/beta_margin_grad_std': 0.021831955760717392, 'epoch': 0.36}
+ 36%|████████████████████████████▏                                                 | 246/681 [16:52<18:54,  2.61s/it] 36%|████████████████████████████▎                                                 | 247/681 [16:54<18:35,  2.57s/it]                                                                                                                     {'loss': 2.3625, 'grad_norm': 471.9046325683594, 'learning_rate': 4.0371303213004814e-07, 'beta_dpo/gap_mean': 68.1501235961914, 'beta_dpo/gap_std': 92.23121643066406, 'beta_dpo/beta_used_raw': 0.06344389915466309, 'beta_dpo/beta_used': 0.1847115010023117, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44840526580810547, 'logits/rejected': -0.45401185750961304, 'beta_dpo/beta': 0.1847115010023117, 'beta_dpo/loss_margin_mean': 90.32220458984375, 'beta_dpo/beta_margin_mean': 15.352115631103516, 'beta_dpo/beta_margin_std': 25.77711296081543, 'beta_dpo/beta_margin_grad_mean': -0.2965923547744751, 'beta_dpo/beta_margin_grad_std': 0.28494712710380554, 'epoch': 0.36}
+ 36%|████████████████████████████▎                                                 | 247/681 [16:54<18:35,  2.57s/it] 36%|████████████████████████████▍                                                 | 248/681 [16:56<18:27,  2.56s/it]                                                                                                                     {'loss': 1.3302, 'grad_norm': 4.8645339012146, 'learning_rate': 4.0269892260067197e-07, 'beta_dpo/gap_mean': 68.87054443359375, 'beta_dpo/gap_std': 89.18070220947266, 'beta_dpo/beta_used_raw': -0.5669313669204712, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45725005865097046, 'logits/rejected': -0.47495073080062866, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 66.2895278930664, 'beta_dpo/beta_margin_mean': 0.06628952920436859, 'beta_dpo/beta_margin_std': 0.07302607595920563, 'beta_dpo/beta_margin_grad_mean': -0.48346683382987976, 'beta_dpo/beta_margin_grad_std': 0.018162554129958153, 'epoch': 0.36}
+ 36%|████████████████████████████▍                                                 | 248/681 [16:57<18:27,  2.56s/it] 37%|████████████████████████████▌                                                 | 249/681 [16:59<18:04,  2.51s/it]                                                                                                                     {'loss': 1.3437, 'grad_norm': 6.0476884841918945, 'learning_rate': 4.0168078931267426e-07, 'beta_dpo/gap_mean': 64.90923309326172, 'beta_dpo/gap_std': 87.11177825927734, 'beta_dpo/beta_used_raw': -1.1384837627410889, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47966477274894714, 'logits/rejected': -0.45807725191116333, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 41.93442916870117, 'beta_dpo/beta_margin_mean': 0.041934434324502945, 'beta_dpo/beta_margin_std': 0.07966778427362442, 'beta_dpo/beta_margin_grad_mean': -0.48953747749328613, 'beta_dpo/beta_margin_grad_std': 0.019871097058057785, 'epoch': 0.37}
+ 37%|████████████████████████████▌                                                 | 249/681 [16:59<18:04,  2.51s/it] 37%|████████████████████████████▋                                                 | 250/681 [17:02<18:39,  2.60s/it]                                                                                                                     {'loss': 0.7885, 'grad_norm': 598.4202270507812, 'learning_rate': 4.006586590948141e-07, 'beta_dpo/gap_mean': 62.63585662841797, 'beta_dpo/gap_std': 83.05741119384766, 'beta_dpo/beta_used_raw': 0.17717288434505463, 'beta_dpo/beta_used': 0.3004174530506134, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.458739697933197, 'logits/rejected': -0.40397346019744873, 'beta_dpo/beta': 0.3004174530506134, 'beta_dpo/loss_margin_mean': 62.211456298828125, 'beta_dpo/beta_margin_mean': 21.81104278564453, 'beta_dpo/beta_margin_std': 32.62987518310547, 'beta_dpo/beta_margin_grad_mean': -0.277651309967041, 'beta_dpo/beta_margin_grad_std': 0.2621324062347412, 'epoch': 0.37}
+ 37%|████████████████████████████▋                                                 | 250/681 [17:02<18:39,  2.60s/it] 37%|████████████████████████████▋                                                 | 251/681 [17:04<18:12,  2.54s/it]                                                                                                                     {'loss': 1.1642, 'grad_norm': 993.1358032226562, 'learning_rate': 3.9963255888117325e-07, 'beta_dpo/gap_mean': 62.36948013305664, 'beta_dpo/gap_std': 82.18414306640625, 'beta_dpo/beta_used_raw': -0.07390487194061279, 'beta_dpo/beta_used': 0.25873419642448425, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45881718397140503, 'logits/rejected': -0.43461471796035767, 'beta_dpo/beta': 0.25873419642448425, 'beta_dpo/loss_margin_mean': 55.00004959106445, 'beta_dpo/beta_margin_mean': 16.468461990356445, 'beta_dpo/beta_margin_std': 38.37507629394531, 'beta_dpo/beta_margin_grad_mean': -0.35796087980270386, 'beta_dpo/beta_margin_grad_std': 0.3145868182182312, 'epoch': 0.37}
+ 37%|████████████████████████████▋                                                 | 251/681 [17:04<18:12,  2.54s/it] 37%|████████████████████████████▊                                                 | 252/681 [17:07<18:28,  2.58s/it]                                                                                                                     {'loss': 1.6671, 'grad_norm': 1931.18115234375, 'learning_rate': 3.9860251571044666e-07, 'beta_dpo/gap_mean': 61.836875915527344, 'beta_dpo/gap_std': 78.91354370117188, 'beta_dpo/beta_used_raw': 0.2833039164543152, 'beta_dpo/beta_used': 0.43845975399017334, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5125927925109863, 'logits/rejected': -0.47563207149505615, 'beta_dpo/beta': 0.43845975399017334, 'beta_dpo/loss_margin_mean': 61.227333068847656, 'beta_dpo/beta_margin_mean': 30.300657272338867, 'beta_dpo/beta_margin_std': 50.934173583984375, 'beta_dpo/beta_margin_grad_mean': -0.27507588267326355, 'beta_dpo/beta_margin_grad_std': 0.2723042070865631, 'epoch': 0.37}
+ 37%|████████████████████████████▊                                                 | 252/681 [17:07<18:28,  2.58s/it] 37%|████████████████████████████▉                                                 | 253/681 [17:09<18:32,  2.60s/it]                                                                                                                     {'loss': 1.364, 'grad_norm': 569.2015991210938, 'learning_rate': 3.9756855672522986e-07, 'beta_dpo/gap_mean': 60.489776611328125, 'beta_dpo/gap_std': 77.81178283691406, 'beta_dpo/beta_used_raw': -0.5888211727142334, 'beta_dpo/beta_used': 0.13669037818908691, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49557358026504517, 'logits/rejected': -0.4879855513572693, 'beta_dpo/beta': 0.13669037818908691, 'beta_dpo/loss_margin_mean': 61.38548278808594, 'beta_dpo/beta_margin_mean': 11.10105037689209, 'beta_dpo/beta_margin_std': 19.28214454650879, 'beta_dpo/beta_margin_grad_mean': -0.31530076265335083, 'beta_dpo/beta_margin_grad_std': 0.2846486270427704, 'epoch': 0.37}
+ 37%|████████████████████████████▉                                                 | 253/681 [17:09<18:32,  2.60s/it] 37%|█████████████████████████████                                                 | 254/681 [17:12<18:48,  2.64s/it]                                                                                                                     {'loss': 1.3323, 'grad_norm': 4.005491733551025, 'learning_rate': 3.965307091713037e-07, 'beta_dpo/gap_mean': 61.257843017578125, 'beta_dpo/gap_std': 80.37059020996094, 'beta_dpo/beta_used_raw': -0.21809083223342896, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47500473260879517, 'logits/rejected': -0.46256011724472046, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.76969528198242, 'beta_dpo/beta_margin_mean': 0.05776969715952873, 'beta_dpo/beta_margin_std': 0.08991079777479172, 'beta_dpo/beta_margin_grad_mean': -0.4855990707874298, 'beta_dpo/beta_margin_grad_std': 0.02238706313073635, 'epoch': 0.37}
+ 37%|█████████████████████████████                                                 | 254/681 [17:12<18:48,  2.64s/it] 37%|█████████████████████████████▏                                                | 255/681 [17:15<18:23,  2.59s/it]                                                                                                                     {'loss': 2.8414, 'grad_norm': 1103.354248046875, 'learning_rate': 3.954890003969163e-07, 'beta_dpo/gap_mean': 61.839927673339844, 'beta_dpo/gap_std': 83.36296844482422, 'beta_dpo/beta_used_raw': -0.4761512279510498, 'beta_dpo/beta_used': 0.21867026388645172, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4370883107185364, 'logits/rejected': -0.4320235848426819, 'beta_dpo/beta': 0.21867026388645172, 'beta_dpo/loss_margin_mean': 60.37783432006836, 'beta_dpo/beta_margin_mean': 18.47532844543457, 'beta_dpo/beta_margin_std': 37.53182601928711, 'beta_dpo/beta_margin_grad_mean': -0.3410184681415558, 'beta_dpo/beta_margin_grad_std': 0.3134188652038574, 'epoch': 0.37}
+ 37%|█████████████████████████████▏                                                | 255/681 [17:15<18:23,  2.59s/it] 38%|█████████████████████████████▎                                                | 256/681 [17:17<18:15,  2.58s/it]                                                                                                                     {'loss': 1.3417, 'grad_norm': 5.088190078735352, 'learning_rate': 3.944434578520628e-07, 'beta_dpo/gap_mean': 60.238243103027344, 'beta_dpo/gap_std': 83.42945861816406, 'beta_dpo/beta_used_raw': -0.7590247988700867, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43487805128097534, 'logits/rejected': -0.4386810064315796, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.98687744140625, 'beta_dpo/beta_margin_mean': 0.05798688158392906, 'beta_dpo/beta_margin_std': 0.08430825173854828, 'beta_dpo/beta_margin_grad_mean': -0.48553693294525146, 'beta_dpo/beta_margin_grad_std': 0.021008189767599106, 'epoch': 0.38}
+ 38%|█████████████████████████████▎                                                | 256/681 [17:17<18:15,  2.58s/it] 38%|█████████████████████████████▍                                                | 257/681 [17:20<18:23,  2.60s/it]                                                                                                                     {'loss': 1.3407, 'grad_norm': 4.403605937957764, 'learning_rate': 3.933941090877615e-07, 'beta_dpo/gap_mean': 63.066001892089844, 'beta_dpo/gap_std': 86.74974060058594, 'beta_dpo/beta_used_raw': -0.8660670518875122, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4413556456565857, 'logits/rejected': -0.42769724130630493, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 74.549072265625, 'beta_dpo/beta_margin_mean': 0.07454907149076462, 'beta_dpo/beta_margin_std': 0.09976498037576675, 'beta_dpo/beta_margin_grad_mean': -0.48144304752349854, 'beta_dpo/beta_margin_grad_std': 0.024765780195593834, 'epoch': 0.38}
+ 38%|█████████████████████████████▍                                                | 257/681 [17:20<18:23,  2.60s/it] 38%|█████████████████████████████▌                                                | 258/681 [17:22<17:34,  2.49s/it]                                                                                                                     {'loss': 6.21, 'grad_norm': 3212.95654296875, 'learning_rate': 3.923409817553284e-07, 'beta_dpo/gap_mean': 62.323787689208984, 'beta_dpo/gap_std': 87.7547607421875, 'beta_dpo/beta_used_raw': 0.8561594486236572, 'beta_dpo/beta_used': 0.8561594486236572, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39796602725982666, 'logits/rejected': -0.39811059832572937, 'beta_dpo/beta': 0.8561594486236572, 'beta_dpo/loss_margin_mean': 63.648921966552734, 'beta_dpo/beta_margin_mean': 54.67416000366211, 'beta_dpo/beta_margin_std': 84.30635070800781, 'beta_dpo/beta_margin_grad_mean': -0.24124778807163239, 'beta_dpo/beta_margin_grad_std': 0.42249229550361633, 'epoch': 0.38}
+ 38%|█████████████████████████████▌                                                | 258/681 [17:22<17:34,  2.49s/it] 38%|█████████████████████████████▋                                                | 259/681 [17:25<17:36,  2.50s/it]                                                                                                                     {'loss': 1.3481, 'grad_norm': 5.502564430236816, 'learning_rate': 3.9128410360564793e-07, 'beta_dpo/gap_mean': 62.94316864013672, 'beta_dpo/gap_std': 88.68659973144531, 'beta_dpo/beta_used_raw': -1.3002283573150635, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45921239256858826, 'logits/rejected': -0.4577338993549347, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 59.64350891113281, 'beta_dpo/beta_margin_mean': 0.05964351072907448, 'beta_dpo/beta_margin_std': 0.08494514971971512, 'beta_dpo/beta_margin_grad_mean': -0.48512884974479675, 'beta_dpo/beta_margin_grad_std': 0.02116353064775467, 'epoch': 0.38}
+ 38%|█████████████████████████████▋                                                | 259/681 [17:25<17:36,  2.50s/it] 38%|█████████████████████████████▊                                                | 260/681 [17:27<18:00,  2.57s/it]                                                                                                                     {'loss': 1.3345, 'grad_norm': 6.234367847442627, 'learning_rate': 3.9022350248844246e-07, 'beta_dpo/gap_mean': 62.76177215576172, 'beta_dpo/gap_std': 87.07768249511719, 'beta_dpo/beta_used_raw': -0.4817598760128021, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42374077439308167, 'logits/rejected': -0.44464540481567383, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 69.42640686035156, 'beta_dpo/beta_margin_mean': 0.06942640990018845, 'beta_dpo/beta_margin_std': 0.08899199217557907, 'beta_dpo/beta_margin_grad_mean': -0.48271456360816956, 'beta_dpo/beta_margin_grad_std': 0.022007808089256287, 'epoch': 0.38}
+ 38%|█████████████████████████████▊                                                | 260/681 [17:27<18:00,  2.57s/it] 38%|█████████████████████████████▉                                                | 261/681 [17:30<17:13,  2.46s/it]                                                                                                                     {'loss': 1.3409, 'grad_norm': 4.799732208251953, 'learning_rate': 3.891592063515376e-07, 'beta_dpo/gap_mean': 64.44114685058594, 'beta_dpo/gap_std': 89.06988525390625, 'beta_dpo/beta_used_raw': -0.943615198135376, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3694385290145874, 'logits/rejected': -0.3720252513885498, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 67.0704574584961, 'beta_dpo/beta_margin_mean': 0.06707046180963516, 'beta_dpo/beta_margin_std': 0.09085685759782791, 'beta_dpo/beta_margin_grad_mean': -0.48329126834869385, 'beta_dpo/beta_margin_grad_std': 0.022538091987371445, 'epoch': 0.38}
+ 38%|█████████████████████████████▉                                                | 261/681 [17:30<17:13,  2.46s/it] 38%|██████████████████████████████                                                | 262/681 [17:32<17:10,  2.46s/it]                                                                                                                     {'loss': 1.3326, 'grad_norm': 4.288631916046143, 'learning_rate': 3.880912432401264e-07, 'beta_dpo/gap_mean': 63.341896057128906, 'beta_dpo/gap_std': 86.87582397460938, 'beta_dpo/beta_used_raw': -0.3785286545753479, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3830975890159607, 'logits/rejected': -0.3654525876045227, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 59.38102722167969, 'beta_dpo/beta_margin_mean': 0.05938103049993515, 'beta_dpo/beta_margin_std': 0.07453680038452148, 'beta_dpo/beta_margin_grad_mean': -0.4851832985877991, 'beta_dpo/beta_margin_grad_std': 0.018579039722681046, 'epoch': 0.38}
+ 38%|██████████████████████████████                                                | 262/681 [17:32<17:10,  2.46s/it] 39%|██████████████████████████████                                                | 263/681 [17:35<17:43,  2.54s/it]                                                                                                                     {'loss': 3.3255, 'grad_norm': 1847.1041259765625, 'learning_rate': 3.870196412960302e-07, 'beta_dpo/gap_mean': 66.71192932128906, 'beta_dpo/gap_std': 88.3709487915039, 'beta_dpo/beta_used_raw': 0.651368260383606, 'beta_dpo/beta_used': 0.7164207696914673, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43336668610572815, 'logits/rejected': -0.40536999702453613, 'beta_dpo/beta': 0.7164207696914673, 'beta_dpo/loss_margin_mean': 81.06204986572266, 'beta_dpo/beta_margin_mean': 71.56385803222656, 'beta_dpo/beta_margin_std': 131.27561950683594, 'beta_dpo/beta_margin_grad_mean': -0.31974849104881287, 'beta_dpo/beta_margin_grad_std': 0.30375197529792786, 'epoch': 0.39}
+ 39%|██████████████████████████████                                                | 263/681 [17:35<17:43,  2.54s/it] 39%|██████████████████████████████▏                                               | 264/681 [17:37<18:03,  2.60s/it]                                                                                                                     {'loss': 3.0123, 'grad_norm': 1272.9935302734375, 'learning_rate': 3.8594442875695665e-07, 'beta_dpo/gap_mean': 66.88683319091797, 'beta_dpo/gap_std': 88.364501953125, 'beta_dpo/beta_used_raw': -0.5231786966323853, 'beta_dpo/beta_used': 0.32210445404052734, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47683650255203247, 'logits/rejected': -0.4689565896987915, 'beta_dpo/beta': 0.32210445404052734, 'beta_dpo/loss_margin_mean': 62.8607292175293, 'beta_dpo/beta_margin_mean': 26.927030563354492, 'beta_dpo/beta_margin_std': 47.48490524291992, 'beta_dpo/beta_margin_grad_mean': -0.3196498155593872, 'beta_dpo/beta_margin_grad_std': 0.2992617189884186, 'epoch': 0.39}
+ 39%|██████████████████████████████▏                                               | 264/681 [17:37<18:03,  2.60s/it] 39%|██████████████████████████████▎                                               | 265/681 [17:40<17:34,  2.54s/it]                                                                                                                     {'loss': 1.3367, 'grad_norm': 5.106090545654297, 'learning_rate': 3.848656339557562e-07, 'beta_dpo/gap_mean': 65.43952941894531, 'beta_dpo/gap_std': 89.35261535644531, 'beta_dpo/beta_used_raw': -0.7309384942054749, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44355565309524536, 'logits/rejected': -0.42892855405807495, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 65.74657440185547, 'beta_dpo/beta_margin_mean': 0.06574657559394836, 'beta_dpo/beta_margin_std': 0.097164586186409, 'beta_dpo/beta_margin_grad_mean': -0.4836253225803375, 'beta_dpo/beta_margin_grad_std': 0.024147428572177887, 'epoch': 0.39}
+ 39%|██████████████████████████████▎                                               | 265/681 [17:40<17:34,  2.54s/it] 39%|██████████████████████████████▍                                               | 266/681 [17:42<17:28,  2.53s/it]                                                                                                                     {'loss': 1.3305, 'grad_norm': 3.584993362426758, 'learning_rate': 3.8378328531967507e-07, 'beta_dpo/gap_mean': 64.68086242675781, 'beta_dpo/gap_std': 90.58798217773438, 'beta_dpo/beta_used_raw': -0.3030107021331787, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5003777146339417, 'logits/rejected': -0.4550362229347229, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.66104507446289, 'beta_dpo/beta_margin_mean': 0.05766104906797409, 'beta_dpo/beta_margin_std': 0.08847023546695709, 'beta_dpo/beta_margin_grad_mean': -0.48562902212142944, 'beta_dpo/beta_margin_grad_std': 0.02202366106212139, 'epoch': 0.39}
+ 39%|██████████████████████████████▍                                               | 266/681 [17:42<17:28,  2.53s/it] 39%|██████████████████████████████▌                                               | 267/681 [17:45<17:29,  2.54s/it]                                                                                                                     {'loss': 1.3368, 'grad_norm': 5.026149272918701, 'learning_rate': 3.8269741136960646e-07, 'beta_dpo/gap_mean': 64.24443817138672, 'beta_dpo/gap_std': 89.84454345703125, 'beta_dpo/beta_used_raw': -0.679577112197876, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46633046865463257, 'logits/rejected': -0.4374736547470093, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 64.59161376953125, 'beta_dpo/beta_margin_mean': 0.06459161639213562, 'beta_dpo/beta_margin_std': 0.08754534274339676, 'beta_dpo/beta_margin_grad_mean': -0.4839051365852356, 'beta_dpo/beta_margin_grad_std': 0.021753991022706032, 'epoch': 0.39}
+ 39%|██████████████████████████████▌                                               | 267/681 [17:45<17:29,  2.54s/it] 39%|██████████████████████████████▋                                               | 268/681 [17:47<17:25,  2.53s/it]                                                                                                                     {'loss': 5.9535, 'grad_norm': 2970.7353515625, 'learning_rate': 3.8160804071933894e-07, 'beta_dpo/gap_mean': 64.24163055419922, 'beta_dpo/gap_std': 89.63772583007812, 'beta_dpo/beta_used_raw': 0.28859809041023254, 'beta_dpo/beta_used': 0.4272679090499878, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4358275532722473, 'logits/rejected': -0.44389188289642334, 'beta_dpo/beta': 0.4272679090499878, 'beta_dpo/loss_margin_mean': 64.2711410522461, 'beta_dpo/beta_margin_mean': 26.88530731201172, 'beta_dpo/beta_margin_std': 64.07011413574219, 'beta_dpo/beta_margin_grad_mean': -0.3774115741252899, 'beta_dpo/beta_margin_grad_std': 0.3255773186683655, 'epoch': 0.39}
+ 39%|██████████████████████████████▋                                               | 268/681 [17:47<17:25,  2.53s/it] 40%|██████████████████████████████▊                                               | 269/681 [17:50<17:12,  2.51s/it]                                                                                                                     {'loss': 17.9159, 'grad_norm': 6386.1025390625, 'learning_rate': 3.8051520207480204e-07, 'beta_dpo/gap_mean': 67.56047821044922, 'beta_dpo/gap_std': 95.0364990234375, 'beta_dpo/beta_used_raw': 0.7696582078933716, 'beta_dpo/beta_used': 0.7696582078933716, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4257703721523285, 'logits/rejected': -0.40664464235305786, 'beta_dpo/beta': 0.7696582078933716, 'beta_dpo/loss_margin_mean': 89.27982330322266, 'beta_dpo/beta_margin_mean': 70.0230484008789, 'beta_dpo/beta_margin_std': 98.9859390258789, 'beta_dpo/beta_margin_grad_mean': -0.31902071833610535, 'beta_dpo/beta_margin_grad_std': 0.45872315764427185, 'epoch': 0.4}
+ 40%|██████████████████████████████▊                                               | 269/681 [17:50<17:12,  2.51s/it] 40%|██████████████████████████████▉                                               | 270/681 [17:53<17:32,  2.56s/it]                                                                                                                     {'loss': 2.5132, 'grad_norm': 782.6886596679688, 'learning_rate': 3.794189242333106e-07, 'beta_dpo/gap_mean': 68.88189697265625, 'beta_dpo/gap_std': 98.04679870605469, 'beta_dpo/beta_used_raw': 0.31599855422973633, 'beta_dpo/beta_used': 0.31599855422973633, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5228564739227295, 'logits/rejected': -0.5192960500717163, 'beta_dpo/beta': 0.31599855422973633, 'beta_dpo/loss_margin_mean': 69.03794860839844, 'beta_dpo/beta_margin_mean': 21.739652633666992, 'beta_dpo/beta_margin_std': 33.68879318237305, 'beta_dpo/beta_margin_grad_mean': -0.1990150511264801, 'beta_dpo/beta_margin_grad_std': 0.38719597458839417, 'epoch': 0.4}
+ 40%|██████████████████████████████▉                                               | 270/681 [17:53<17:32,  2.56s/it] 40%|███████████████████████████████                                               | 271/681 [17:55<17:06,  2.50s/it]                                                                                                                     {'loss': 1.3298, 'grad_norm': 5.687714576721191, 'learning_rate': 3.7831923608280514e-07, 'beta_dpo/gap_mean': 70.80068969726562, 'beta_dpo/gap_std': 99.597412109375, 'beta_dpo/beta_used_raw': -0.6152107119560242, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45079296827316284, 'logits/rejected': -0.4350966811180115, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 78.76793670654297, 'beta_dpo/beta_margin_mean': 0.07876794040203094, 'beta_dpo/beta_margin_std': 0.10474507510662079, 'beta_dpo/beta_margin_grad_mean': -0.48039206862449646, 'beta_dpo/beta_margin_grad_std': 0.026033930480480194, 'epoch': 0.4}
+ 40%|███████████████████████████████                                               | 271/681 [17:55<17:06,  2.50s/it] 40%|███████████████████████████████▏                                              | 272/681 [17:58<17:27,  2.56s/it]                                                                                                                     {'loss': 2.403, 'grad_norm': 3469.978759765625, 'learning_rate': 3.772161666010912e-07, 'beta_dpo/gap_mean': 74.29582214355469, 'beta_dpo/gap_std': 98.69171905517578, 'beta_dpo/beta_used_raw': 0.21146634221076965, 'beta_dpo/beta_used': 0.2916773557662964, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4280936121940613, 'logits/rejected': -0.4439089596271515, 'beta_dpo/beta': 0.2916773557662964, 'beta_dpo/loss_margin_mean': 96.75138854980469, 'beta_dpo/beta_margin_mean': 26.473766326904297, 'beta_dpo/beta_margin_std': 43.10868835449219, 'beta_dpo/beta_margin_grad_mean': -0.34444308280944824, 'beta_dpo/beta_margin_grad_std': 0.3155882954597473, 'epoch': 0.4}
+ 40%|███████████████████████████████▏                                              | 272/681 [17:58<17:27,  2.56s/it] 40%|███████████████████████████████▎                                              | 273/681 [18:00<17:05,  2.51s/it]                                                                                                                     {'loss': 3.9441, 'grad_norm': 1977.9761962890625, 'learning_rate': 3.761097448550755e-07, 'beta_dpo/gap_mean': 76.61572265625, 'beta_dpo/gap_std': 100.23278045654297, 'beta_dpo/beta_used_raw': -0.13546743988990784, 'beta_dpo/beta_used': 0.4497944712638855, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4547615647315979, 'logits/rejected': -0.4396814703941345, 'beta_dpo/beta': 0.4497944712638855, 'beta_dpo/loss_margin_mean': 77.89697265625, 'beta_dpo/beta_margin_mean': 40.1925048828125, 'beta_dpo/beta_margin_std': 79.06779479980469, 'beta_dpo/beta_margin_grad_mean': -0.30444207787513733, 'beta_dpo/beta_margin_grad_std': 0.294939249753952, 'epoch': 0.4}
+ 40%|███████████████████████████████▎                                              | 273/681 [18:00<17:05,  2.51s/it] 40%|███████████████████████████████▍                                              | 274/681 [18:03<17:07,  2.52s/it]                                                                                                                     {'loss': 1.3435, 'grad_norm': 4.778660774230957, 'learning_rate': 3.75e-07, 'beta_dpo/gap_mean': 73.87464141845703, 'beta_dpo/gap_std': 97.98983001708984, 'beta_dpo/beta_used_raw': -1.6583735942840576, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4540286064147949, 'logits/rejected': -0.43437108397483826, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 64.36125183105469, 'beta_dpo/beta_margin_mean': 0.06436125934123993, 'beta_dpo/beta_margin_std': 0.08749227970838547, 'beta_dpo/beta_margin_grad_mean': -0.48395276069641113, 'beta_dpo/beta_margin_grad_std': 0.021796153858304024, 'epoch': 0.4}
+ 40%|███████████████████████████████▍                                              | 274/681 [18:03<17:07,  2.52s/it] 40%|███████████████████████████████▍                                              | 275/681 [18:05<17:50,  2.64s/it]                                                                                                                     {'loss': 1.4477, 'grad_norm': 1107.3209228515625, 'learning_rate': 3.738869612786737e-07, 'beta_dpo/gap_mean': 73.8324203491211, 'beta_dpo/gap_std': 97.02469635009766, 'beta_dpo/beta_used_raw': -0.2188054919242859, 'beta_dpo/beta_used': 0.3658776581287384, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48561912775039673, 'logits/rejected': -0.4850524365901947, 'beta_dpo/beta': 0.3658776581287384, 'beta_dpo/loss_margin_mean': 74.46902465820312, 'beta_dpo/beta_margin_mean': 28.91089630126953, 'beta_dpo/beta_margin_std': 53.39341354370117, 'beta_dpo/beta_margin_grad_mean': -0.30500340461730957, 'beta_dpo/beta_margin_grad_std': 0.2937050759792328, 'epoch': 0.4}
+ 40%|███████████████████████████████▍                                              | 275/681 [18:06<17:50,  2.64s/it] 41%|███████████████████████████████▌                                              | 276/681 [18:08<17:52,  2.65s/it]                                                                                                                     {'loss': 1.328, 'grad_norm': 4.309329986572266, 'learning_rate': 3.7277065802070204e-07, 'beta_dpo/gap_mean': 73.41490173339844, 'beta_dpo/gap_std': 99.17544555664062, 'beta_dpo/beta_used_raw': -0.6487220525741577, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4739760756492615, 'logits/rejected': -0.4428936541080475, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 68.88844299316406, 'beta_dpo/beta_margin_mean': 0.06888844817876816, 'beta_dpo/beta_margin_std': 0.10926186293363571, 'beta_dpo/beta_margin_grad_mean': -0.48285502195358276, 'beta_dpo/beta_margin_grad_std': 0.027132032439112663, 'epoch': 0.41}
+ 41%|███████████████████████████████▌                                              | 276/681 [18:08<17:52,  2.65s/it] 41%|███████████████████████████████▋                                              | 277/681 [18:10<16:57,  2.52s/it]                                                                                                                     {'loss': 3.3232, 'grad_norm': 959.0798950195312, 'learning_rate': 3.71651119641714e-07, 'beta_dpo/gap_mean': 71.44065856933594, 'beta_dpo/gap_std': 96.77009582519531, 'beta_dpo/beta_used_raw': -0.2556490898132324, 'beta_dpo/beta_used': 0.2809670865535736, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4775172770023346, 'logits/rejected': -0.4674876928329468, 'beta_dpo/beta': 0.2809670865535736, 'beta_dpo/loss_margin_mean': 65.0876693725586, 'beta_dpo/beta_margin_mean': 21.383647918701172, 'beta_dpo/beta_margin_std': 38.81602478027344, 'beta_dpo/beta_margin_grad_mean': -0.3351666331291199, 'beta_dpo/beta_margin_grad_std': 0.3102318048477173, 'epoch': 0.41}
+ 41%|███████████████████████████████▋                                              | 277/681 [18:10<16:57,  2.52s/it] 41%|███████████████████████████████▊                                              | 278/681 [18:13<16:54,  2.52s/it]                                                                                                                     {'loss': 1.8696, 'grad_norm': 546.0422973632812, 'learning_rate': 3.705283756425872e-07, 'beta_dpo/gap_mean': 73.7154541015625, 'beta_dpo/gap_std': 97.09827423095703, 'beta_dpo/beta_used_raw': -0.4377209544181824, 'beta_dpo/beta_used': 0.09777142852544785, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5163074731826782, 'logits/rejected': -0.5155045390129089, 'beta_dpo/beta': 0.09777142852544785, 'beta_dpo/loss_margin_mean': 81.99968719482422, 'beta_dpo/beta_margin_mean': 9.16122055053711, 'beta_dpo/beta_margin_std': 16.98973274230957, 'beta_dpo/beta_margin_grad_mean': -0.3435121774673462, 'beta_dpo/beta_margin_grad_std': 0.3006548285484314, 'epoch': 0.41}
+ 41%|███████████████████████████████▊                                              | 278/681 [18:13<16:54,  2.52s/it] 41%|███████████████████████████████▉                                              | 279/681 [18:15<16:52,  2.52s/it]                                                                                                                     {'loss': 2.2112, 'grad_norm': 677.2081909179688, 'learning_rate': 3.6940245560867e-07, 'beta_dpo/gap_mean': 75.48173522949219, 'beta_dpo/gap_std': 98.2899169921875, 'beta_dpo/beta_used_raw': -0.6678704023361206, 'beta_dpo/beta_used': 0.1939535290002823, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4336978495121002, 'logits/rejected': -0.42833346128463745, 'beta_dpo/beta': 0.1939535290002823, 'beta_dpo/loss_margin_mean': 83.40555572509766, 'beta_dpo/beta_margin_mean': 18.408206939697266, 'beta_dpo/beta_margin_std': 33.89780807495117, 'beta_dpo/beta_margin_grad_mean': -0.31403571367263794, 'beta_dpo/beta_margin_grad_std': 0.2941286265850067, 'epoch': 0.41}
+ 41%|███████████████████████████████▉                                              | 279/681 [18:15<16:52,  2.52s/it] 41%|████████████████████████████████                                              | 280/681 [18:18<17:03,  2.55s/it]                                                                                                                     {'loss': 0.6316, 'grad_norm': 373.3504943847656, 'learning_rate': 3.6827338920900253e-07, 'beta_dpo/gap_mean': 75.63088989257812, 'beta_dpo/gap_std': 95.76606750488281, 'beta_dpo/beta_used_raw': 0.5752575993537903, 'beta_dpo/beta_used': 0.5752575993537903, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4546999931335449, 'logits/rejected': -0.45433032512664795, 'beta_dpo/beta': 0.5752575993537903, 'beta_dpo/loss_margin_mean': 77.03679656982422, 'beta_dpo/beta_margin_mean': 43.74085235595703, 'beta_dpo/beta_margin_std': 54.59124755859375, 'beta_dpo/beta_margin_grad_mean': -0.13274730741977692, 'beta_dpo/beta_margin_grad_std': 0.31232884526252747, 'epoch': 0.41}
+ 41%|████████████████████████████████                                              | 280/681 [18:18<17:03,  2.55s/it] 41%|████████████████████████████████▏                                             | 281/681 [18:21<17:05,  2.56s/it]                                                                                                                     {'loss': 1.3182, 'grad_norm': 8.058195114135742, 'learning_rate': 3.6714120619553435e-07, 'beta_dpo/gap_mean': 73.92355346679688, 'beta_dpo/gap_std': 93.38307189941406, 'beta_dpo/beta_used_raw': -0.12925973534584045, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49369382858276367, 'logits/rejected': -0.46913886070251465, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 66.84371185302734, 'beta_dpo/beta_margin_mean': 0.06684371829032898, 'beta_dpo/beta_margin_std': 0.0805417075753212, 'beta_dpo/beta_margin_grad_mean': -0.483308345079422, 'beta_dpo/beta_margin_grad_std': 0.020045718178153038, 'epoch': 0.41}
+ 41%|████████████████████████████████▏                                             | 281/681 [18:21<17:05,  2.56s/it] 41%|████████████████████████████████▎                                             | 282/681 [18:23<16:56,  2.55s/it]                                                                                                                     {'loss': 1.346, 'grad_norm': 3.629554033279419, 'learning_rate': 3.660059364023408e-07, 'beta_dpo/gap_mean': 70.5438003540039, 'beta_dpo/gap_std': 89.866455078125, 'beta_dpo/beta_used_raw': -1.6386913061141968, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5274136066436768, 'logits/rejected': -0.5010647773742676, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 53.189762115478516, 'beta_dpo/beta_margin_mean': 0.05318976566195488, 'beta_dpo/beta_margin_std': 0.07743314653635025, 'beta_dpo/beta_margin_grad_mean': -0.48673728108406067, 'beta_dpo/beta_margin_grad_std': 0.019268635660409927, 'epoch': 0.41}
+ 41%|████████████████████████████████▎                                             | 282/681 [18:23<16:56,  2.55s/it] 42%|████████████████████████████████▍                                             | 283/681 [18:26<16:50,  2.54s/it]                                                                                                                     {'loss': 1.5468, 'grad_norm': 462.5566711425781, 'learning_rate': 3.6486760974483685e-07, 'beta_dpo/gap_mean': 71.56987762451172, 'beta_dpo/gap_std': 89.52423095703125, 'beta_dpo/beta_used_raw': 0.838965654373169, 'beta_dpo/beta_used': 0.838965654373169, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49745476245880127, 'logits/rejected': -0.48693162202835083, 'beta_dpo/beta': 0.838965654373169, 'beta_dpo/loss_margin_mean': 84.6165771484375, 'beta_dpo/beta_margin_mean': 74.75791931152344, 'beta_dpo/beta_margin_std': 82.98445892333984, 'beta_dpo/beta_margin_grad_mean': -0.12155988812446594, 'beta_dpo/beta_margin_grad_std': 0.31926241517066956, 'epoch': 0.42}
+ 42%|████████████████████████████████▍                                             | 283/681 [18:26<16:50,  2.54s/it] 42%|████████████████████████████████▌                                             | 284/681 [18:28<17:18,  2.62s/it]                                                                                                                     {'loss': 1.3195, 'grad_norm': 6.851167678833008, 'learning_rate': 3.6372625621898863e-07, 'beta_dpo/gap_mean': 74.1982650756836, 'beta_dpo/gap_std': 90.27053833007812, 'beta_dpo/beta_used_raw': -0.19312117993831635, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5042980313301086, 'logits/rejected': -0.4991450905799866, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 81.42410278320312, 'beta_dpo/beta_margin_mean': 0.08142410963773727, 'beta_dpo/beta_margin_std': 0.0932619571685791, 'beta_dpo/beta_margin_grad_mean': -0.47972315549850464, 'beta_dpo/beta_margin_grad_std': 0.02312047965824604, 'epoch': 0.42}
+ 42%|████████████████████████████████▌                                             | 284/681 [18:28<17:18,  2.62s/it] 42%|████████████████████████████████▋                                             | 285/681 [18:31<17:07,  2.60s/it]                                                                                                                     {'loss': 1.3215, 'grad_norm': 7.985069274902344, 'learning_rate': 3.625819059005228e-07, 'beta_dpo/gap_mean': 73.66974639892578, 'beta_dpo/gap_std': 90.04093933105469, 'beta_dpo/beta_used_raw': -0.30619388818740845, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4940687417984009, 'logits/rejected': -0.48543840646743774, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 72.39013671875, 'beta_dpo/beta_margin_mean': 0.07239013910293579, 'beta_dpo/beta_margin_std': 0.08699988573789597, 'beta_dpo/beta_margin_grad_mean': -0.48195090889930725, 'beta_dpo/beta_margin_grad_std': 0.0216471329331398, 'epoch': 0.42}
+ 42%|████████████████████████████████▋                                             | 285/681 [18:31<17:07,  2.60s/it] 42%|████████████████████████████████▊                                             | 286/681 [18:34<17:15,  2.62s/it]                                                                                                                     {'loss': 1.2468, 'grad_norm': 274.8042907714844, 'learning_rate': 3.614345889441346e-07, 'beta_dpo/gap_mean': 74.31663513183594, 'beta_dpo/gap_std': 90.61752319335938, 'beta_dpo/beta_used_raw': -0.39668411016464233, 'beta_dpo/beta_used': 0.07317624241113663, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4832392930984497, 'logits/rejected': -0.46001118421554565, 'beta_dpo/beta': 0.07317624241113663, 'beta_dpo/loss_margin_mean': 73.65949249267578, 'beta_dpo/beta_margin_mean': 5.437658786773682, 'beta_dpo/beta_margin_std': 11.020866394042969, 'beta_dpo/beta_margin_grad_mean': -0.3578983247280121, 'beta_dpo/beta_margin_grad_std': 0.3003653585910797, 'epoch': 0.42}
+ 42%|████████████████████████████████▊                                             | 286/681 [18:34<17:15,  2.62s/it] 42%|████████████████████████████████▊                                             | 287/681 [18:36<16:29,  2.51s/it]                                                                                                                     {'loss': 1.3334, 'grad_norm': 4.072757720947266, 'learning_rate': 3.6028433558269275e-07, 'beta_dpo/gap_mean': 72.43344116210938, 'beta_dpo/gap_std': 90.36245727539062, 'beta_dpo/beta_used_raw': -0.9690273404121399, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46784478425979614, 'logits/rejected': -0.44443923234939575, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 61.16653823852539, 'beta_dpo/beta_margin_mean': 0.061166539788246155, 'beta_dpo/beta_margin_std': 0.08909157663583755, 'beta_dpo/beta_margin_grad_mean': -0.48475971817970276, 'beta_dpo/beta_margin_grad_std': 0.022152835503220558, 'epoch': 0.42}
+ 42%|████████████████████████████████▊                                             | 287/681 [18:36<16:29,  2.51s/it] 42%|████████████████████████████████▉                                             | 288/681 [18:39<17:19,  2.64s/it]                                                                                                                     {'loss': 1.2203, 'grad_norm': 2659.9658203125, 'learning_rate': 3.5913117612644327e-07, 'beta_dpo/gap_mean': 74.12348937988281, 'beta_dpo/gap_std': 91.28290557861328, 'beta_dpo/beta_used_raw': 0.6619566082954407, 'beta_dpo/beta_used': 0.7897164821624756, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44504302740097046, 'logits/rejected': -0.4315459430217743, 'beta_dpo/beta': 0.7897164821624756, 'beta_dpo/loss_margin_mean': 79.14554595947266, 'beta_dpo/beta_margin_mean': 85.403076171875, 'beta_dpo/beta_margin_std': 137.9335479736328, 'beta_dpo/beta_margin_grad_mean': -0.3040521442890167, 'beta_dpo/beta_margin_grad_std': 0.2914998233318329, 'epoch': 0.42}
+ 42%|████████████████████████████████▉                                             | 288/681 [18:39<17:19,  2.64s/it] 42%|█████████████████████████████████                                             | 289/681 [18:41<16:55,  2.59s/it]                                                                                                                     {'loss': 2.5223, 'grad_norm': 1766.22216796875, 'learning_rate': 3.5797514096221024e-07, 'beta_dpo/gap_mean': 74.27970886230469, 'beta_dpo/gap_std': 92.71040344238281, 'beta_dpo/beta_used_raw': -0.10066229104995728, 'beta_dpo/beta_used': 0.629094123840332, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35877037048339844, 'logits/rejected': -0.3598015010356903, 'beta_dpo/beta': 0.629094123840332, 'beta_dpo/loss_margin_mean': 88.7456283569336, 'beta_dpo/beta_margin_mean': 68.1593246459961, 'beta_dpo/beta_margin_std': 111.16494750976562, 'beta_dpo/beta_margin_grad_mean': -0.3004843592643738, 'beta_dpo/beta_margin_grad_std': 0.28447577357292175, 'epoch': 0.42}
+ 42%|█████████████████████████████████                                             | 289/681 [18:41<16:55,  2.59s/it] 43%|█████████████████████████████████▏                                            | 290/681 [18:44<16:27,  2.53s/it]                                                                                                                     {'loss': 3.118, 'grad_norm': 1004.2230224609375, 'learning_rate': 3.568162605525952e-07, 'beta_dpo/gap_mean': 80.18174743652344, 'beta_dpo/gap_std': 98.11917877197266, 'beta_dpo/beta_used_raw': -0.1657930314540863, 'beta_dpo/beta_used': 0.4477105140686035, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3618127703666687, 'logits/rejected': -0.38121217489242554, 'beta_dpo/beta': 0.4477105140686035, 'beta_dpo/loss_margin_mean': 104.16016387939453, 'beta_dpo/beta_margin_mean': 46.98125076293945, 'beta_dpo/beta_margin_std': 88.1680908203125, 'beta_dpo/beta_margin_grad_mean': -0.3150025010108948, 'beta_dpo/beta_margin_grad_std': 0.30229073762893677, 'epoch': 0.43}
+ 43%|█████████████████████████████████▏                                            | 290/681 [18:44<16:27,  2.53s/it] 43%|█████████████████████████████████▎                                            | 291/681 [18:46<16:33,  2.55s/it]                                                                                                                     {'loss': 2.0799, 'grad_norm': 952.44775390625, 'learning_rate': 3.5565456543517485e-07, 'beta_dpo/gap_mean': 79.38957214355469, 'beta_dpo/gap_std': 99.54486083984375, 'beta_dpo/beta_used_raw': 0.3404870629310608, 'beta_dpo/beta_used': 0.3404870629310608, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42019423842430115, 'logits/rejected': -0.40653547644615173, 'beta_dpo/beta': 0.3404870629310608, 'beta_dpo/loss_margin_mean': 72.23591613769531, 'beta_dpo/beta_margin_mean': 25.296192169189453, 'beta_dpo/beta_margin_std': 31.709936141967773, 'beta_dpo/beta_margin_grad_mean': -0.2316586971282959, 'beta_dpo/beta_margin_grad_std': 0.40322452783584595, 'epoch': 0.43}
+ 43%|█████████████████████████████████▎                                            | 291/681 [18:46<16:33,  2.55s/it] 43%|█████████████████████████████████▍                                            | 292/681 [18:49<16:11,  2.50s/it]                                                                                                                     {'loss': 1.6587, 'grad_norm': 439.33978271484375, 'learning_rate': 3.5449008622169583e-07, 'beta_dpo/gap_mean': 79.20477294921875, 'beta_dpo/gap_std': 100.69721984863281, 'beta_dpo/beta_used_raw': -0.7626643776893616, 'beta_dpo/beta_used': 0.12015949934720993, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3626874089241028, 'logits/rejected': -0.3548169732093811, 'beta_dpo/beta': 0.12015949934720993, 'beta_dpo/loss_margin_mean': 78.73019409179688, 'beta_dpo/beta_margin_mean': 10.655224800109863, 'beta_dpo/beta_margin_std': 21.715547561645508, 'beta_dpo/beta_margin_grad_mean': -0.33290329575538635, 'beta_dpo/beta_margin_grad_std': 0.30069440603256226, 'epoch': 0.43}
+ 43%|█████████████████████████████████▍                                            | 292/681 [18:49<16:11,  2.50s/it] 43%|█████████████████████████████████▌                                            | 293/681 [18:51<16:28,  2.55s/it]                                                                                                                     {'loss': 1.3249, 'grad_norm': 4.400468349456787, 'learning_rate': 3.5332285359726846e-07, 'beta_dpo/gap_mean': 77.53086853027344, 'beta_dpo/gap_std': 101.82347106933594, 'beta_dpo/beta_used_raw': -0.7132205963134766, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41298121213912964, 'logits/rejected': -0.40352344512939453, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 67.81421661376953, 'beta_dpo/beta_margin_mean': 0.06781422346830368, 'beta_dpo/beta_margin_std': 0.10339030623435974, 'beta_dpo/beta_margin_grad_mean': -0.4831177890300751, 'beta_dpo/beta_margin_grad_std': 0.025702647864818573, 'epoch': 0.43}
+ 43%|█████████████████████████████████▌                                            | 293/681 [18:51<16:28,  2.55s/it] 43%|█████████████████████████████████▋                                            | 294/681 [18:54<16:11,  2.51s/it]                                                                                                                     {'loss': 1.3324, 'grad_norm': 4.342075347900391, 'learning_rate': 3.5215289831955786e-07, 'beta_dpo/gap_mean': 78.0030517578125, 'beta_dpo/gap_std': 102.60092163085938, 'beta_dpo/beta_used_raw': -1.2027143239974976, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.380662739276886, 'logits/rejected': -0.3861265182495117, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 76.23664855957031, 'beta_dpo/beta_margin_mean': 0.07623665034770966, 'beta_dpo/beta_margin_std': 0.10481663793325424, 'beta_dpo/beta_margin_grad_mean': -0.48102009296417236, 'beta_dpo/beta_margin_grad_std': 0.026048097759485245, 'epoch': 0.43}
+ 43%|█████████████████████████████████▋                                            | 294/681 [18:54<16:11,  2.51s/it] 43%|█████████████████████████████████▊                                            | 295/681 [18:56<16:01,  2.49s/it]                                                                                                                     {'loss': 8.3528, 'grad_norm': 1862.5281982421875, 'learning_rate': 3.509802512179737e-07, 'beta_dpo/gap_mean': 76.71334075927734, 'beta_dpo/gap_std': 102.96287536621094, 'beta_dpo/beta_used_raw': 0.05702996253967285, 'beta_dpo/beta_used': 0.2947583496570587, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37672334909439087, 'logits/rejected': -0.3786112368106842, 'beta_dpo/beta': 0.2947583496570587, 'beta_dpo/loss_margin_mean': 78.26499938964844, 'beta_dpo/beta_margin_mean': 19.130741119384766, 'beta_dpo/beta_margin_std': 50.656394958496094, 'beta_dpo/beta_margin_grad_mean': -0.40385448932647705, 'beta_dpo/beta_margin_grad_std': 0.32800954580307007, 'epoch': 0.43}
+ 43%|█████████████████████████████████▊                                            | 295/681 [18:56<16:01,  2.49s/it] 43%|█████████████████████████████████▉                                            | 296/681 [18:59<15:54,  2.48s/it]                                                                                                                     {'loss': 1.3325, 'grad_norm': 4.538437366485596, 'learning_rate': 3.498049431928577e-07, 'beta_dpo/gap_mean': 75.4265365600586, 'beta_dpo/gap_std': 102.43699645996094, 'beta_dpo/beta_used_raw': -1.0527881383895874, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41676008701324463, 'logits/rejected': -0.3972277343273163, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 58.992069244384766, 'beta_dpo/beta_margin_mean': 0.05899207293987274, 'beta_dpo/beta_margin_std': 0.10110720992088318, 'beta_dpo/beta_margin_grad_mean': -0.48530909419059753, 'beta_dpo/beta_margin_grad_std': 0.02513442374765873, 'epoch': 0.43}
+ 43%|█████████████████████████████████▉                                            | 296/681 [18:59<15:54,  2.48s/it] 44%|██████████████████████████████████                                            | 297/681 [19:01<16:03,  2.51s/it]                                                                                                                     {'loss': 1.3264, 'grad_norm': 5.51907205581665, 'learning_rate': 3.486270052146694e-07, 'beta_dpo/gap_mean': 73.90296936035156, 'beta_dpo/gap_std': 100.1375961303711, 'beta_dpo/beta_used_raw': -0.6135008335113525, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35295820236206055, 'logits/rejected': -0.3571382761001587, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 69.82958984375, 'beta_dpo/beta_margin_mean': 0.06982959061861038, 'beta_dpo/beta_margin_std': 0.0898992121219635, 'beta_dpo/beta_margin_grad_mean': -0.48259493708610535, 'beta_dpo/beta_margin_grad_std': 0.022371800616383553, 'epoch': 0.44}
+ 44%|██████████████████████████████████                                            | 297/681 [19:01<16:03,  2.51s/it] 44%|██████████████████████████████████▏                                           | 298/681 [19:04<16:45,  2.63s/it]                                                                                                                     {'loss': 1.6437, 'grad_norm': 738.2294311523438, 'learning_rate': 3.474464683231698e-07, 'beta_dpo/gap_mean': 74.29185485839844, 'beta_dpo/gap_std': 102.38994598388672, 'beta_dpo/beta_used_raw': 0.27431046962738037, 'beta_dpo/beta_used': 0.27431046962738037, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4162539839744568, 'logits/rejected': -0.4425868093967438, 'beta_dpo/beta': 0.27431046962738037, 'beta_dpo/loss_margin_mean': 86.00110626220703, 'beta_dpo/beta_margin_mean': 20.479074478149414, 'beta_dpo/beta_margin_std': 45.33749008178711, 'beta_dpo/beta_margin_grad_mean': -0.263118177652359, 'beta_dpo/beta_margin_grad_std': 0.33494073152542114, 'epoch': 0.44}
+ 44%|██████████████████████████████████▏                                           | 298/681 [19:04<16:45,  2.63s/it] 44%|██████████████████████████████████▏                                           | 299/681 [19:07<16:35,  2.61s/it]                                                                                                                     {'loss': 1.3176, 'grad_norm': 5.145935535430908, 'learning_rate': 3.462633636266041e-07, 'beta_dpo/gap_mean': 74.65848541259766, 'beta_dpo/gap_std': 103.56509399414062, 'beta_dpo/beta_used_raw': -0.10428804159164429, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39493227005004883, 'logits/rejected': -0.40073153376579285, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 77.17499542236328, 'beta_dpo/beta_margin_mean': 0.07717499881982803, 'beta_dpo/beta_margin_std': 0.10790830105543137, 'beta_dpo/beta_margin_grad_mean': -0.4808002710342407, 'beta_dpo/beta_margin_grad_std': 0.02673073299229145, 'epoch': 0.44}
+ 44%|██████████████████████████████████▏                                           | 299/681 [19:07<16:35,  2.61s/it] 44%|██████████████████████████████████▎                                           | 300/681 [19:09<16:41,  2.63s/it]                                                                                                                     {'loss': 2.8698, 'grad_norm': 932.0242919921875, 'learning_rate': 3.4507772230088147e-07, 'beta_dpo/gap_mean': 77.76226806640625, 'beta_dpo/gap_std': 109.28889465332031, 'beta_dpo/beta_used_raw': -0.37631434202194214, 'beta_dpo/beta_used': 0.09059438109397888, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3533056974411011, 'logits/rejected': -0.35223710536956787, 'beta_dpo/beta': 0.09059438109397888, 'beta_dpo/loss_margin_mean': 91.35057830810547, 'beta_dpo/beta_margin_mean': 9.376904487609863, 'beta_dpo/beta_margin_std': 18.19443702697754, 'beta_dpo/beta_margin_grad_mean': -0.3587842583656311, 'beta_dpo/beta_margin_grad_std': 0.31596502661705017, 'epoch': 0.44}
+ 44%|██████████████████████████████████▎                                           | 300/681 [19:09<16:41,  2.63s/it][INFO|trainer.py:4307] 2026-04-17 23:42:41,926 >> 
+***** Running Evaluation *****
+[INFO|trainer.py:4309] 2026-04-17 23:42:41,926 >>   Num examples = 2339
+[INFO|trainer.py:4312] 2026-04-17 23:42:41,926 >>   Batch size = 8
+
+  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A
+  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.65it/s][A
+  4%|███▎                                                                             | 3/73 [00:01<00:27,  2.58it/s][A
+  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.25it/s][A
+  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.10it/s][A
+  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.00it/s][A
+ 10%|███████▊                                                                         | 7/73 [00:03<00:32,  2.06it/s][A
+ 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.93it/s][A
+ 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.87it/s][A
+ 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.84it/s][A
+ 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A
+ 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.79it/s][A
+ 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.84it/s][A
+ 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.81it/s][A
+ 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.81it/s][A
+ 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.75it/s][A
+ 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.74it/s][A
+ 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.73it/s][A
+ 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.70it/s][A
+ 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.69it/s][A
+ 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.69it/s][A
+ 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.67it/s][A
+ 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:29,  1.72it/s][A
+ 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.73it/s][A
+ 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:28,  1.71it/s][A
+ 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.73it/s][A
+ 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s][A
+ 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.89it/s][A
+ 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:22,  1.91it/s][A
+ 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.92it/s][A
+ 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.85it/s][A
+ 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s][A
+ 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:20,  1.91it/s][A
+ 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.87it/s][A
+ 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.80it/s][A
+ 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.81it/s][A
+ 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s][A
+ 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.88it/s][A
+ 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:19,  1.79it/s][A
+ 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.81it/s][A
+ 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.87it/s][A
+ 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:17,  1.82it/s][A
+ 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.85it/s][A
+ 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.84it/s][A
+ 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s][A
+ 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.84it/s][A
+ 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s][A
+ 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:26<00:13,  1.80it/s][A
+ 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.79it/s][A
+ 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.81it/s][A
+ 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.79it/s][A
+ 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.73it/s][A
+ 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s][A
+ 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.81it/s][A
+ 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.80it/s][A
+ 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.84it/s][A
+ 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.77it/s][A
+ 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s][A
+ 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.85it/s][A
+ 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s][A
+ 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A
+ 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.77it/s][A
+ 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s][A
+ 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.95it/s][A
+ 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.92it/s][A
+ 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.85it/s][A
+ 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.88it/s][A
+ 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.83it/s][A
+ 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s][A
+ 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A
+ 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.81it/s][A
+ 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.80it/s][A
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A                                                                                                                     
+                                                                                                                     [A{'eval_loss': 0.8542339205741882, 'eval_runtime': 40.2324, 'eval_samples_per_second': 58.137, 'eval_steps_per_second': 1.839, 'eval_beta_dpo/beta': 0.021529680117964745, 'eval_beta_dpo/loss_margin_mean': 46.85930633544922, 'eval_beta_dpo/beta_margin_mean': 1.7761027812957764, 'eval_beta_dpo/beta_margin_std': 2.521554946899414, 'eval_beta_dpo/beta_margin_grad_mean': -0.47100841999053955, 'eval_beta_dpo/beta_margin_grad_std': 0.05001794174313545, 'eval_beta_dpo/gap_mean': 79.1242446899414, 'eval_beta_dpo/gap_std': 110.1003646850586, 'eval_beta_dpo/beta_used_raw': -1.8358967304229736, 'eval_beta_dpo/beta_used': 0.021529680117964745, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.4178045988082886, 'eval_logits/rejected': -0.40100225806236267, 'epoch': 0.44}
+ 44%|██████████████████████████████████▎                                           | 300/681 [19:50<16:41,  2.63s/it]
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A
+                                                                                                                     [A 44%|█████████████████████████████████▌                                          | 301/681 [19:52<1:32:40, 14.63s/it]                                                                                                                     {'loss': 2.4685, 'grad_norm': 1095.8056640625, 'learning_rate': 3.4388957558875316e-07, 'beta_dpo/gap_mean': 82.58103942871094, 'beta_dpo/gap_std': 111.84109497070312, 'beta_dpo/beta_used_raw': 0.05099296569824219, 'beta_dpo/beta_used': 0.2012784332036972, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.36673691868782043, 'logits/rejected': -0.3641397953033447, 'beta_dpo/beta': 0.2012784332036972, 'beta_dpo/loss_margin_mean': 101.39947509765625, 'beta_dpo/beta_margin_mean': 21.419300079345703, 'beta_dpo/beta_margin_std': 39.65841293334961, 'beta_dpo/beta_margin_grad_mean': -0.31333795189857483, 'beta_dpo/beta_margin_grad_std': 0.2758391499519348, 'epoch': 0.44}
+ 44%|█████████████████████████████████▌                                          | 301/681 [19:52<1:32:40, 14.63s/it] 44%|█████████████████████████████████▋                                          | 302/681 [19:55<1:09:39, 11.03s/it]                                                                                                                     {'loss': 1.3296, 'grad_norm': 5.6372833251953125, 'learning_rate': 3.426989547989902e-07, 'beta_dpo/gap_mean': 82.75358581542969, 'beta_dpo/gap_std': 113.17562103271484, 'beta_dpo/beta_used_raw': -1.307005763053894, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37512508034706116, 'logits/rejected': -0.38196590542793274, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 75.1414566040039, 'beta_dpo/beta_margin_mean': 0.07514145970344543, 'beta_dpo/beta_margin_std': 0.1161830946803093, 'beta_dpo/beta_margin_grad_mean': -0.48131224513053894, 'beta_dpo/beta_margin_grad_std': 0.028863143175840378, 'epoch': 0.44}
+ 44%|█████████████████████████████████▋                                          | 302/681 [19:55<1:09:39, 11.03s/it] 44%|██████████████████████████████████▋                                           | 303/681 [19:57<53:38,  8.51s/it]                                                                                                                     {'loss': 1.3394, 'grad_norm': 5.255090236663818, 'learning_rate': 3.4150589130555773e-07, 'beta_dpo/gap_mean': 80.88421630859375, 'beta_dpo/gap_std': 116.31727600097656, 'beta_dpo/beta_used_raw': -1.7821969985961914, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38791757822036743, 'logits/rejected': -0.36933159828186035, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 71.96322631835938, 'beta_dpo/beta_margin_mean': 0.07196322828531265, 'beta_dpo/beta_margin_std': 0.12872378528118134, 'beta_dpo/beta_margin_grad_mean': -0.4821236729621887, 'beta_dpo/beta_margin_grad_std': 0.03194034472107887, 'epoch': 0.44}
+ 44%|██████████████████████████████████▋                                           | 303/681 [19:57<53:38,  8.51s/it] 45%|██████████████████████████████████▊                                           | 304/681 [20:00<42:29,  6.76s/it]                                                                                                                     {'loss': 2.6158, 'grad_norm': 2268.49462890625, 'learning_rate': 3.403104165467883e-07, 'beta_dpo/gap_mean': 78.1776123046875, 'beta_dpo/gap_std': 113.8460693359375, 'beta_dpo/beta_used_raw': 0.308247447013855, 'beta_dpo/beta_used': 0.45528510212898254, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42312443256378174, 'logits/rejected': -0.4081481993198395, 'beta_dpo/beta': 0.45528510212898254, 'beta_dpo/loss_margin_mean': 74.2430419921875, 'beta_dpo/beta_margin_mean': 40.59646224975586, 'beta_dpo/beta_margin_std': 64.21621704101562, 'beta_dpo/beta_margin_grad_mean': -0.3141389787197113, 'beta_dpo/beta_margin_grad_std': 0.2951262891292572, 'epoch': 0.45}
+ 45%|██████████████████████████████████▊                                           | 304/681 [20:00<42:29,  6.76s/it] 45%|██████████████████████████████████▉                                           | 305/681 [20:03<34:44,  5.54s/it]                                                                                                                     {'loss': 1.3143, 'grad_norm': 5.800883769989014, 'learning_rate': 3.391125620245535e-07, 'beta_dpo/gap_mean': 79.73931884765625, 'beta_dpo/gap_std': 116.2216567993164, 'beta_dpo/beta_used_raw': -0.13185091316699982, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4113423824310303, 'logits/rejected': -0.39184314012527466, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 82.05501556396484, 'beta_dpo/beta_margin_mean': 0.08205502480268478, 'beta_dpo/beta_margin_std': 0.13452649116516113, 'beta_dpo/beta_margin_grad_mean': -0.47965607047080994, 'beta_dpo/beta_margin_grad_std': 0.0331178717315197, 'epoch': 0.45}
+ 45%|██████████████████████████████████▉                                           | 305/681 [20:03<34:44,  5.54s/it] 45%|███████████████████████████████████                                           | 306/681 [20:05<29:15,  4.68s/it]                                                                                                                     {'loss': 1.3335, 'grad_norm': 5.251987457275391, 'learning_rate': 3.3791235930343417e-07, 'beta_dpo/gap_mean': 76.38526916503906, 'beta_dpo/gap_std': 114.24805450439453, 'beta_dpo/beta_used_raw': -1.1865973472595215, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.400661826133728, 'logits/rejected': -0.38528114557266235, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 59.507118225097656, 'beta_dpo/beta_margin_mean': 0.05950712412595749, 'beta_dpo/beta_margin_std': 0.10371576249599457, 'beta_dpo/beta_margin_grad_mean': -0.4851844310760498, 'beta_dpo/beta_margin_grad_std': 0.02573644183576107, 'epoch': 0.45}
+ 45%|███████████████████████████████████                                           | 306/681 [20:05<29:15,  4.68s/it] 45%|███████████████████████████████████▏                                          | 307/681 [20:08<25:39,  4.12s/it]                                                                                                                     {'loss': 7.6211, 'grad_norm': 1632.386474609375, 'learning_rate': 3.367098400098881e-07, 'beta_dpo/gap_mean': 76.5669937133789, 'beta_dpo/gap_std': 113.13117218017578, 'beta_dpo/beta_used_raw': 0.1832038164138794, 'beta_dpo/beta_used': 0.3818568289279938, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39632394909858704, 'logits/rejected': -0.37825697660446167, 'beta_dpo/beta': 0.3818568289279938, 'beta_dpo/loss_margin_mean': 80.41350555419922, 'beta_dpo/beta_margin_mean': 27.862314224243164, 'beta_dpo/beta_margin_std': 64.0865249633789, 'beta_dpo/beta_margin_grad_mean': -0.34861063957214355, 'beta_dpo/beta_margin_grad_std': 0.32014045119285583, 'epoch': 0.45}
+ 45%|███████████████████████████████████▏                                          | 307/681 [20:08<25:39,  4.12s/it] 45%|███████████████████████████████████▎                                          | 308/681 [20:11<22:43,  3.65s/it]                                                                                                                     {'loss': 5.1079, 'grad_norm': 1437.0244140625, 'learning_rate': 3.355050358314172e-07, 'beta_dpo/gap_mean': 78.43896484375, 'beta_dpo/gap_std': 113.47734069824219, 'beta_dpo/beta_used_raw': 0.35672301054000854, 'beta_dpo/beta_used': 0.35672301054000854, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3438449501991272, 'logits/rejected': -0.31777122616767883, 'beta_dpo/beta': 0.35672301054000854, 'beta_dpo/loss_margin_mean': 90.54447174072266, 'beta_dpo/beta_margin_mean': 32.29079055786133, 'beta_dpo/beta_margin_std': 39.89966583251953, 'beta_dpo/beta_margin_grad_mean': -0.21785807609558105, 'beta_dpo/beta_margin_grad_std': 0.3981392979621887, 'epoch': 0.45}
+ 45%|███████████████████████████████████▎                                          | 308/681 [20:11<22:43,  3.65s/it] 45%|███████████████████████████████████▍                                          | 309/681 [20:13<20:48,  3.36s/it]                                                                                                                     {'loss': 3.7664, 'grad_norm': 1346.0263671875, 'learning_rate': 3.3429797851573183e-07, 'beta_dpo/gap_mean': 78.77679443359375, 'beta_dpo/gap_std': 111.2503433227539, 'beta_dpo/beta_used_raw': 0.36354923248291016, 'beta_dpo/beta_used': 0.36354923248291016, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3582022190093994, 'logits/rejected': -0.3475998640060425, 'beta_dpo/beta': 0.36354923248291016, 'beta_dpo/loss_margin_mean': 83.59400177001953, 'beta_dpo/beta_margin_mean': 37.24231719970703, 'beta_dpo/beta_margin_std': 56.5272102355957, 'beta_dpo/beta_margin_grad_mean': -0.22801323235034943, 'beta_dpo/beta_margin_grad_std': 0.36051756143569946, 'epoch': 0.45}
+ 45%|███████████████████████████████████▍                                          | 309/681 [20:13<20:48,  3.36s/it] 46%|███████████████████████████████████▌                                          | 310/681 [20:16<19:42,  3.19s/it]                                                                                                                     {'loss': 1.3247, 'grad_norm': 5.082400321960449, 'learning_rate': 3.3308869986991487e-07, 'beta_dpo/gap_mean': 78.03067016601562, 'beta_dpo/gap_std': 107.44921875, 'beta_dpo/beta_used_raw': -0.7171174883842468, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39452001452445984, 'logits/rejected': -0.3749483823776245, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 69.67520141601562, 'beta_dpo/beta_margin_mean': 0.06967519968748093, 'beta_dpo/beta_margin_std': 0.09265855699777603, 'beta_dpo/beta_margin_grad_mean': -0.4826306700706482, 'beta_dpo/beta_margin_grad_std': 0.0230739563703537, 'epoch': 0.46}
+ 46%|███████████████████████████████████▌                                          | 310/681 [20:16<19:42,  3.19s/it] 46%|███████████████████████████████████▌                                          | 311/681 [20:19<18:33,  3.01s/it]                                                                                                                     {'loss': 6.6088, 'grad_norm': 2260.131591796875, 'learning_rate': 3.3187723175958346e-07, 'beta_dpo/gap_mean': 79.78893280029297, 'beta_dpo/gap_std': 111.02082824707031, 'beta_dpo/beta_used_raw': -0.058561310172080994, 'beta_dpo/beta_used': 0.2502756416797638, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3645089864730835, 'logits/rejected': -0.349958598613739, 'beta_dpo/beta': 0.2502756416797638, 'beta_dpo/loss_margin_mean': 86.99933624267578, 'beta_dpo/beta_margin_mean': 23.12792205810547, 'beta_dpo/beta_margin_std': 54.33233642578125, 'beta_dpo/beta_margin_grad_mean': -0.40929269790649414, 'beta_dpo/beta_margin_grad_std': 0.3354220688343048, 'epoch': 0.46}
+ 46%|███████████████████████████████████▌                                          | 311/681 [20:19<18:33,  3.01s/it] 46%|███████████████████████████████████▋                                          | 312/681 [20:21<17:22,  2.82s/it]                                                                                                                     {'loss': 2.0408, 'grad_norm': 368.40875244140625, 'learning_rate': 3.306636061080487e-07, 'beta_dpo/gap_mean': 79.41765594482422, 'beta_dpo/gap_std': 112.60750579833984, 'beta_dpo/beta_used_raw': -0.2892300486564636, 'beta_dpo/beta_used': 0.07158917188644409, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3711026608943939, 'logits/rejected': -0.36203962564468384, 'beta_dpo/beta': 0.07158917188644409, 'beta_dpo/loss_margin_mean': 79.63638305664062, 'beta_dpo/beta_margin_mean': 6.374331474304199, 'beta_dpo/beta_margin_std': 13.631952285766602, 'beta_dpo/beta_margin_grad_mean': -0.3369253873825073, 'beta_dpo/beta_margin_grad_std': 0.29506799578666687, 'epoch': 0.46}
+ 46%|███████████████████████████████████▋                                          | 312/681 [20:21<17:22,  2.82s/it] 46%|███████████████████████████████████▊                                          | 313/681 [20:24<16:37,  2.71s/it]                                                                                                                     {'loss': 1.321, 'grad_norm': 4.683560371398926, 'learning_rate': 3.2944785489547537e-07, 'beta_dpo/gap_mean': 78.54216003417969, 'beta_dpo/gap_std': 110.89816284179688, 'beta_dpo/beta_used_raw': -0.5578416585922241, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39467549324035645, 'logits/rejected': -0.38951510190963745, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 76.3763198852539, 'beta_dpo/beta_margin_mean': 0.07637631893157959, 'beta_dpo/beta_margin_std': 0.10121695697307587, 'beta_dpo/beta_margin_grad_mean': -0.48098939657211304, 'beta_dpo/beta_margin_grad_std': 0.025076594203710556, 'epoch': 0.46}
+ 46%|███████████████████████████████████▊                                          | 313/681 [20:24<16:37,  2.71s/it] 46%|███████████████████████████████████▉                                          | 314/681 [20:26<16:15,  2.66s/it]                                                                                                                     {'loss': 3.7032, 'grad_norm': 1395.1510009765625, 'learning_rate': 3.2823001015803857e-07, 'beta_dpo/gap_mean': 79.06829833984375, 'beta_dpo/gap_std': 112.64566040039062, 'beta_dpo/beta_used_raw': -0.6258662939071655, 'beta_dpo/beta_used': 0.2938551902770996, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4507661461830139, 'logits/rejected': -0.44838911294937134, 'beta_dpo/beta': 0.2938551902770996, 'beta_dpo/loss_margin_mean': 75.2780532836914, 'beta_dpo/beta_margin_mean': 23.5745906829834, 'beta_dpo/beta_margin_std': 54.09528350830078, 'beta_dpo/beta_margin_grad_mean': -0.3812112510204315, 'beta_dpo/beta_margin_grad_std': 0.33289316296577454, 'epoch': 0.46}
+ 46%|███████████████████████████████████▉                                          | 314/681 [20:26<16:15,  2.66s/it] 46%|████████████████████████████████████                                          | 315/681 [20:29<15:56,  2.61s/it]                                                                                                                     {'loss': 2.1612, 'grad_norm': 879.7577514648438, 'learning_rate': 3.270101039870797e-07, 'beta_dpo/gap_mean': 76.99462890625, 'beta_dpo/gap_std': 110.44047546386719, 'beta_dpo/beta_used_raw': -0.3934894800186157, 'beta_dpo/beta_used': 0.2281070500612259, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3693186044692993, 'logits/rejected': -0.3700152039527893, 'beta_dpo/beta': 0.2281070500612259, 'beta_dpo/loss_margin_mean': 66.10765075683594, 'beta_dpo/beta_margin_mean': 16.0867919921875, 'beta_dpo/beta_margin_std': 31.88882827758789, 'beta_dpo/beta_margin_grad_mean': -0.34743332862854004, 'beta_dpo/beta_margin_grad_std': 0.3025640845298767, 'epoch': 0.46}
+ 46%|████████████████████████████████████                                          | 315/681 [20:29<15:56,  2.61s/it] 46%|████████████████████████████████████▏                                         | 316/681 [20:31<15:47,  2.60s/it]                                                                                                                     {'loss': 2.74, 'grad_norm': 1523.668701171875, 'learning_rate': 3.2578816852826086e-07, 'beta_dpo/gap_mean': 79.88623046875, 'beta_dpo/gap_std': 111.00810241699219, 'beta_dpo/beta_used_raw': 0.716162919998169, 'beta_dpo/beta_used': 0.716162919998169, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4141780734062195, 'logits/rejected': -0.426508367061615, 'beta_dpo/beta': 0.716162919998169, 'beta_dpo/loss_margin_mean': 95.93524169921875, 'beta_dpo/beta_margin_mean': 75.56684112548828, 'beta_dpo/beta_margin_std': 110.35047149658203, 'beta_dpo/beta_margin_grad_mean': -0.17893782258033752, 'beta_dpo/beta_margin_grad_std': 0.3721279203891754, 'epoch': 0.46}
+ 46%|████████████████████████████████████▏                                         | 316/681 [20:31<15:47,  2.60s/it] 47%|████████████████████████████████████▎                                         | 317/681 [20:34<15:46,  2.60s/it]                                                                                                                     {'loss': 7.8427, 'grad_norm': 2744.883056640625, 'learning_rate': 3.2456423598071783e-07, 'beta_dpo/gap_mean': 83.21510314941406, 'beta_dpo/gap_std': 109.098876953125, 'beta_dpo/beta_used_raw': 0.6636589169502258, 'beta_dpo/beta_used': 0.6636589169502258, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43852800130844116, 'logits/rejected': -0.4249088168144226, 'beta_dpo/beta': 0.6636589169502258, 'beta_dpo/loss_margin_mean': 105.4694595336914, 'beta_dpo/beta_margin_mean': 66.06298828125, 'beta_dpo/beta_margin_std': 109.42732238769531, 'beta_dpo/beta_margin_grad_mean': -0.2624233067035675, 'beta_dpo/beta_margin_grad_std': 0.2798077166080475, 'epoch': 0.47}
+ 47%|████████████████████████████████████▎                                         | 317/681 [20:34<15:46,  2.60s/it] 47%|████████████████████████████████████▍                                         | 318/681 [20:36<15:25,  2.55s/it]                                                                                                                     {'loss': 1.3202, 'grad_norm': 5.620822906494141, 'learning_rate': 3.233383385962115e-07, 'beta_dpo/gap_mean': 83.25845336914062, 'beta_dpo/gap_std': 107.83091735839844, 'beta_dpo/beta_used_raw': -0.7813102602958679, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4964483976364136, 'logits/rejected': -0.46540865302085876, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 79.98356628417969, 'beta_dpo/beta_margin_mean': 0.07998356968164444, 'beta_dpo/beta_margin_std': 0.09835181385278702, 'beta_dpo/beta_margin_grad_mean': -0.4800810217857361, 'beta_dpo/beta_margin_grad_std': 0.024429909884929657, 'epoch': 0.47}
+ 47%|████████████████████████████████████▍                                         | 318/681 [20:36<15:25,  2.55s/it] 47%|████████████████████████████████████▌                                         | 319/681 [20:39<15:40,  2.60s/it]                                                                                                                     {'loss': 1.3132, 'grad_norm': 5.136927604675293, 'learning_rate': 3.2211050867827805e-07, 'beta_dpo/gap_mean': 84.244140625, 'beta_dpo/gap_std': 106.17644500732422, 'beta_dpo/beta_used_raw': -0.41069674491882324, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44059932231903076, 'logits/rejected': -0.4612247943878174, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.76531219482422, 'beta_dpo/beta_margin_mean': 0.08676531910896301, 'beta_dpo/beta_margin_std': 0.09681374579668045, 'beta_dpo/beta_margin_grad_mean': -0.4783901572227478, 'beta_dpo/beta_margin_grad_std': 0.02400689758360386, 'epoch': 0.47}
+ 47%|████████████████████████████████████▌                                         | 319/681 [20:39<15:40,  2.60s/it] 47%|████████████████████████████████████▋                                         | 320/681 [20:42<15:42,  2.61s/it]                                                                                                                     {'loss': 0.9036, 'grad_norm': 51.687992095947266, 'learning_rate': 3.208807785813777e-07, 'beta_dpo/gap_mean': 85.014892578125, 'beta_dpo/gap_std': 103.82169342041016, 'beta_dpo/beta_used_raw': -0.33262649178504944, 'beta_dpo/beta_used': 0.028877759352326393, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4929655194282532, 'logits/rejected': -0.4922058582305908, 'beta_dpo/beta': 0.028877759352326393, 'beta_dpo/loss_margin_mean': 86.08537292480469, 'beta_dpo/beta_margin_mean': 2.645266532897949, 'beta_dpo/beta_margin_std': 4.285132884979248, 'beta_dpo/beta_margin_grad_mean': -0.3182305097579956, 'beta_dpo/beta_margin_grad_std': 0.24575480818748474, 'epoch': 0.47}
+ 47%|████████████████████████████████████▋                                         | 320/681 [20:42<15:42,  2.61s/it] 47%|████████████████████████████████████▊                                         | 321/681 [20:44<15:28,  2.58s/it]                                                                                                                     {'loss': 1.3152, 'grad_norm': 5.877539157867432, 'learning_rate': 3.1964918071004217e-07, 'beta_dpo/gap_mean': 84.98190307617188, 'beta_dpo/gap_std': 106.54576110839844, 'beta_dpo/beta_used_raw': -0.5375549793243408, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42156291007995605, 'logits/rejected': -0.41359078884124756, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 80.3016128540039, 'beta_dpo/beta_margin_mean': 0.08030161261558533, 'beta_dpo/beta_margin_std': 0.11732209473848343, 'beta_dpo/beta_margin_grad_mean': -0.4800475537776947, 'beta_dpo/beta_margin_grad_std': 0.028980152681469917, 'epoch': 0.47}
+ 47%|████████████████████████████████████▊                                         | 321/681 [20:44<15:28,  2.58s/it] 47%|████████████████████████████████████▉                                         | 322/681 [20:47<15:39,  2.62s/it]                                                                                                                     {'loss': 5.5448, 'grad_norm': 2252.3525390625, 'learning_rate': 3.184157475180207e-07, 'beta_dpo/gap_mean': 84.80892944335938, 'beta_dpo/gap_std': 106.46078491210938, 'beta_dpo/beta_used_raw': 0.6184810400009155, 'beta_dpo/beta_used': 0.6184810400009155, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4382587671279907, 'logits/rejected': -0.4316785931587219, 'beta_dpo/beta': 0.6184810400009155, 'beta_dpo/loss_margin_mean': 88.51132202148438, 'beta_dpo/beta_margin_mean': 58.11309814453125, 'beta_dpo/beta_margin_std': 91.10275268554688, 'beta_dpo/beta_margin_grad_mean': -0.202738955616951, 'beta_dpo/beta_margin_grad_std': 0.3781369626522064, 'epoch': 0.47}
+ 47%|████████████████████████████████████▉                                         | 322/681 [20:47<15:39,  2.62s/it] 47%|████████████████████████████████████▉                                         | 323/681 [20:50<15:53,  2.66s/it]                                                                                                                     {'loss': 1.375, 'grad_norm': 346.4527282714844, 'learning_rate': 3.171805115074251e-07, 'beta_dpo/gap_mean': 85.3616943359375, 'beta_dpo/gap_std': 106.0413818359375, 'beta_dpo/beta_used_raw': -0.6850037574768066, 'beta_dpo/beta_used': 0.09758946299552917, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4343454837799072, 'logits/rejected': -0.4204588532447815, 'beta_dpo/beta': 0.09758946299552917, 'beta_dpo/loss_margin_mean': 85.88945770263672, 'beta_dpo/beta_margin_mean': 9.701543807983398, 'beta_dpo/beta_margin_std': 19.077165603637695, 'beta_dpo/beta_margin_grad_mean': -0.3393961191177368, 'beta_dpo/beta_margin_grad_std': 0.30425986647605896, 'epoch': 0.47}
+ 47%|████████████████████████████████████▉                                         | 323/681 [20:50<15:53,  2.66s/it] 48%|█████████████████████████████████████                                         | 324/681 [20:52<15:23,  2.59s/it]                                                                                                                     {'loss': 1.327, 'grad_norm': 6.610962390899658, 'learning_rate': 3.1594350522787295e-07, 'beta_dpo/gap_mean': 82.46531677246094, 'beta_dpo/gap_std': 104.10604858398438, 'beta_dpo/beta_used_raw': -1.1255923509597778, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44873249530792236, 'logits/rejected': -0.4262539744377136, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 79.67871856689453, 'beta_dpo/beta_margin_mean': 0.0796787217259407, 'beta_dpo/beta_margin_std': 0.11951327323913574, 'beta_dpo/beta_margin_grad_mean': -0.48019298911094666, 'beta_dpo/beta_margin_grad_std': 0.029619457200169563, 'epoch': 0.48}
+ 48%|█████████████████████████████████████                                         | 324/681 [20:52<15:23,  2.59s/it] 48%|█████████████████████████████████████▏                                        | 325/681 [20:55<16:04,  2.71s/it]                                                                                                                     {'loss': 1.3307, 'grad_norm': 4.3783674240112305, 'learning_rate': 3.147047612756302e-07, 'beta_dpo/gap_mean': 81.02421569824219, 'beta_dpo/gap_std': 103.86199951171875, 'beta_dpo/beta_used_raw': -1.2990741729736328, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.494614839553833, 'logits/rejected': -0.46266597509384155, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 62.00973129272461, 'beta_dpo/beta_margin_mean': 0.06200973317027092, 'beta_dpo/beta_margin_std': 0.08459888398647308, 'beta_dpo/beta_margin_grad_mean': -0.4845367670059204, 'beta_dpo/beta_margin_grad_std': 0.02106996439397335, 'epoch': 0.48}
+ 48%|█████████████████████████████████████▏                                        | 325/681 [20:55<16:04,  2.71s/it] 48%|█████████████████████████████████████▎                                        | 326/681 [20:58<15:52,  2.68s/it]                                                                                                                     {'loss': 1.3416, 'grad_norm': 4.2274274826049805, 'learning_rate': 3.134643122927519e-07, 'beta_dpo/gap_mean': 77.61061096191406, 'beta_dpo/gap_std': 99.97056579589844, 'beta_dpo/beta_used_raw': -1.766413688659668, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.516798198223114, 'logits/rejected': -0.48323750495910645, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 64.17534637451172, 'beta_dpo/beta_margin_mean': 0.06417535245418549, 'beta_dpo/beta_margin_std': 0.08998852968215942, 'beta_dpo/beta_margin_grad_mean': -0.4840051829814911, 'beta_dpo/beta_margin_grad_std': 0.022391587495803833, 'epoch': 0.48}
+ 48%|█████████████████████████████████████▎                                        | 326/681 [20:58<15:52,  2.68s/it] 48%|█████████████████████████████████████▍                                        | 327/681 [21:00<15:54,  2.70s/it]                                                                                                                     {'loss': 7.9926, 'grad_norm': 2141.1357421875, 'learning_rate': 3.1222219096622264e-07, 'beta_dpo/gap_mean': 81.72610473632812, 'beta_dpo/gap_std': 102.8271713256836, 'beta_dpo/beta_used_raw': 0.5268765687942505, 'beta_dpo/beta_used': 0.5268765687942505, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.436132550239563, 'logits/rejected': -0.41571980714797974, 'beta_dpo/beta': 0.5268765687942505, 'beta_dpo/loss_margin_mean': 105.36248779296875, 'beta_dpo/beta_margin_mean': 54.37653732299805, 'beta_dpo/beta_margin_std': 60.839786529541016, 'beta_dpo/beta_margin_grad_mean': -0.19231468439102173, 'beta_dpo/beta_margin_grad_std': 0.38571032881736755, 'epoch': 0.48}
+ 48%|█████████████████████████████████████▍                                        | 327/681 [21:00<15:54,  2.70s/it] 48%|█████████████████████████████████████▌                                        | 328/681 [21:03<15:44,  2.68s/it]                                                                                                                     {'loss': 1.3207, 'grad_norm': 5.572524547576904, 'learning_rate': 3.1097843002709427e-07, 'beta_dpo/gap_mean': 83.3543701171875, 'beta_dpo/gap_std': 105.11456298828125, 'beta_dpo/beta_used_raw': -0.8078003525733948, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42520958185195923, 'logits/rejected': -0.4174392819404602, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 88.71802520751953, 'beta_dpo/beta_margin_mean': 0.08871802687644958, 'beta_dpo/beta_margin_std': 0.1109635978937149, 'beta_dpo/beta_margin_grad_mean': -0.47792962193489075, 'beta_dpo/beta_margin_grad_std': 0.027522550895810127, 'epoch': 0.48}
+ 48%|█████████████████████████████████████▌                                        | 328/681 [21:03<15:44,  2.68s/it] 48%|█████████████████████████████████████▋                                        | 329/681 [21:05<15:20,  2.61s/it]                                                                                                                     {'loss': 12.0021, 'grad_norm': 3878.8359375, 'learning_rate': 3.0973306224962437e-07, 'beta_dpo/gap_mean': 87.77429962158203, 'beta_dpo/gap_std': 108.42816162109375, 'beta_dpo/beta_used_raw': 1.0845508575439453, 'beta_dpo/beta_used': 1.0845508575439453, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3832947015762329, 'logits/rejected': -0.36104413866996765, 'beta_dpo/beta': 1.0845508575439453, 'beta_dpo/loss_margin_mean': 109.0322265625, 'beta_dpo/beta_margin_mean': 114.5302505493164, 'beta_dpo/beta_margin_std': 163.5399627685547, 'beta_dpo/beta_margin_grad_mean': -0.1470133364200592, 'beta_dpo/beta_margin_grad_std': 0.3484492897987366, 'epoch': 0.48}
+ 48%|█████████████████████████████████████▋                                        | 329/681 [21:05<15:20,  2.61s/it] 48%|█████████████████████████████████████▊                                        | 330/681 [21:08<15:24,  2.63s/it]                                                                                                                     {'loss': 1.1195, 'grad_norm': 94.45597839355469, 'learning_rate': 3.084861204504122e-07, 'beta_dpo/gap_mean': 89.45821380615234, 'beta_dpo/gap_std': 113.25923156738281, 'beta_dpo/beta_used_raw': -0.501742959022522, 'beta_dpo/beta_used': 0.020872846245765686, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3601895570755005, 'logits/rejected': -0.36258891224861145, 'beta_dpo/beta': 0.020872846245765686, 'beta_dpo/loss_margin_mean': 98.53221893310547, 'beta_dpo/beta_margin_mean': 2.022984027862549, 'beta_dpo/beta_margin_std': 3.9013209342956543, 'beta_dpo/beta_margin_grad_mean': -0.356696754693985, 'beta_dpo/beta_margin_grad_std': 0.2544516921043396, 'epoch': 0.48}
+ 48%|█████████████████████████████████████▊                                        | 330/681 [21:08<15:24,  2.63s/it] 49%|█████████████████████████████████████▉                                        | 331/681 [21:11<15:08,  2.60s/it]                                                                                                                     {'loss': 0.6532, 'grad_norm': 4.018616199493408, 'learning_rate': 3.072376374875335e-07, 'beta_dpo/gap_mean': 91.51332092285156, 'beta_dpo/gap_std': 111.50447082519531, 'beta_dpo/beta_used_raw': 0.10756845772266388, 'beta_dpo/beta_used': 0.3303714692592621, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40397077798843384, 'logits/rejected': -0.3952021598815918, 'beta_dpo/beta': 0.3303714692592621, 'beta_dpo/loss_margin_mean': 98.58274841308594, 'beta_dpo/beta_margin_mean': 34.38044357299805, 'beta_dpo/beta_margin_std': 57.2767333984375, 'beta_dpo/beta_margin_grad_mean': -0.3008911907672882, 'beta_dpo/beta_margin_grad_std': 0.292959600687027, 'epoch': 0.49}
+ 49%|█████████████████████████████████████▉                                        | 331/681 [21:11<15:08,  2.60s/it] 49%|██████████████████████████████████████                                        | 332/681 [21:13<14:44,  2.53s/it]                                                                                                                     {'loss': 1.3397, 'grad_norm': 5.169561386108398, 'learning_rate': 3.059876462596758e-07, 'beta_dpo/gap_mean': 88.39376831054688, 'beta_dpo/gap_std': 107.6720962524414, 'beta_dpo/beta_used_raw': -2.294619083404541, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42340922355651855, 'logits/rejected': -0.4118001163005829, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 70.96298217773438, 'beta_dpo/beta_margin_mean': 0.07096298784017563, 'beta_dpo/beta_margin_std': 0.0935334786772728, 'beta_dpo/beta_margin_grad_mean': -0.48232200741767883, 'beta_dpo/beta_margin_grad_std': 0.023256592452526093, 'epoch': 0.49}
+ 49%|██████████████████████████████████████                                        | 332/681 [21:13<14:44,  2.53s/it] 49%|██████████████████████████████████████▏                                       | 333/681 [21:15<14:36,  2.52s/it]                                                                                                                     {'loss': 7.7022, 'grad_norm': 6724.30078125, 'learning_rate': 3.0473617970527015e-07, 'beta_dpo/gap_mean': 90.23367309570312, 'beta_dpo/gap_std': 110.23046875, 'beta_dpo/beta_used_raw': 0.4829646050930023, 'beta_dpo/beta_used': 0.9148516654968262, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41021233797073364, 'logits/rejected': -0.4079732298851013, 'beta_dpo/beta': 0.9148516654968262, 'beta_dpo/loss_margin_mean': 97.64309692382812, 'beta_dpo/beta_margin_mean': 111.1144790649414, 'beta_dpo/beta_margin_std': 201.45445251464844, 'beta_dpo/beta_margin_grad_mean': -0.34807515144348145, 'beta_dpo/beta_margin_grad_std': 0.3170374631881714, 'epoch': 0.49}
+ 49%|██████████████████████████████████████▏                                       | 333/681 [21:16<14:36,  2.52s/it] 49%|██████████████████████████████████████▎                                       | 334/681 [21:18<14:43,  2.55s/it]                                                                                                                     {'loss': 1.3155, 'grad_norm': 5.3802080154418945, 'learning_rate': 3.034832708016243e-07, 'beta_dpo/gap_mean': 88.88426208496094, 'beta_dpo/gap_std': 111.89533996582031, 'beta_dpo/beta_used_raw': -0.775077760219574, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45664849877357483, 'logits/rejected': -0.44416582584381104, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.18205261230469, 'beta_dpo/beta_margin_mean': 0.08618205785751343, 'beta_dpo/beta_margin_std': 0.11291919648647308, 'beta_dpo/beta_margin_grad_mean': -0.47854748368263245, 'beta_dpo/beta_margin_grad_std': 0.028062039986252785, 'epoch': 0.49}
+ 49%|██████████████████████████████████████▎                                       | 334/681 [21:18<14:43,  2.55s/it] 49%|██████████████████████████████████████▎                                       | 335/681 [21:21<14:42,  2.55s/it]                                                                                                                     {'loss': 1.3126, 'grad_norm': 5.149271488189697, 'learning_rate': 3.022289525640531e-07, 'beta_dpo/gap_mean': 84.96998596191406, 'beta_dpo/gap_std': 111.31343078613281, 'beta_dpo/beta_used_raw': -0.3869401812553406, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42109692096710205, 'logits/rejected': -0.4054427742958069, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 66.3158950805664, 'beta_dpo/beta_margin_mean': 0.0663158968091011, 'beta_dpo/beta_margin_std': 0.11655885726213455, 'beta_dpo/beta_margin_grad_mean': -0.48350557684898376, 'beta_dpo/beta_margin_grad_std': 0.028902921825647354, 'epoch': 0.49}
+ 49%|██████████████████████████████████████▎                                       | 335/681 [21:21<14:42,  2.55s/it] 49%|██████████████████████████████████████▍                                       | 336/681 [21:23<14:52,  2.59s/it]                                                                                                                     {'loss': 6.4255, 'grad_norm': 4854.24609375, 'learning_rate': 3.009732580450086e-07, 'beta_dpo/gap_mean': 88.45248413085938, 'beta_dpo/gap_std': 115.87779998779297, 'beta_dpo/beta_used_raw': 0.7048290371894836, 'beta_dpo/beta_used': 0.7048290371894836, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39914026856422424, 'logits/rejected': -0.40446028113365173, 'beta_dpo/beta': 0.7048290371894836, 'beta_dpo/loss_margin_mean': 115.32160186767578, 'beta_dpo/beta_margin_mean': 86.26851654052734, 'beta_dpo/beta_margin_std': 136.75621032714844, 'beta_dpo/beta_margin_grad_mean': -0.12527000904083252, 'beta_dpo/beta_margin_grad_std': 0.3306175172328949, 'epoch': 0.49}
+ 49%|██████████████████████████████████████▍                                       | 336/681 [21:23<14:52,  2.59s/it] 49%|██████████████████████████████████████▌                                       | 337/681 [21:26<14:39,  2.56s/it]                                                                                                                     {'loss': 2.2556, 'grad_norm': 1186.75927734375, 'learning_rate': 2.9971622033320914e-07, 'beta_dpo/gap_mean': 93.61722564697266, 'beta_dpo/gap_std': 119.06917572021484, 'beta_dpo/beta_used_raw': 0.00013016164302825928, 'beta_dpo/beta_used': 0.14777547121047974, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4144825041294098, 'logits/rejected': -0.41202259063720703, 'beta_dpo/beta': 0.14777547121047974, 'beta_dpo/loss_margin_mean': 105.2668228149414, 'beta_dpo/beta_margin_mean': 18.477201461791992, 'beta_dpo/beta_margin_std': 31.78298568725586, 'beta_dpo/beta_margin_grad_mean': -0.33285483717918396, 'beta_dpo/beta_margin_grad_std': 0.31178155541419983, 'epoch': 0.49}
+ 49%|██████████████████████████████████████▌                                       | 337/681 [21:26<14:39,  2.56s/it] 50%|██████████████████████████████████████▋                                       | 338/681 [21:28<14:37,  2.56s/it]                                                                                                                     {'loss': 1.3108, 'grad_norm': 7.202863693237305, 'learning_rate': 2.984578725527675e-07, 'beta_dpo/gap_mean': 94.33158874511719, 'beta_dpo/gap_std': 117.08407592773438, 'beta_dpo/beta_used_raw': -0.8564766645431519, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4074411988258362, 'logits/rejected': -0.3915863037109375, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 101.54019927978516, 'beta_dpo/beta_margin_mean': 0.10154020041227341, 'beta_dpo/beta_margin_std': 0.10497380793094635, 'beta_dpo/beta_margin_grad_mean': -0.47472554445266724, 'beta_dpo/beta_margin_grad_std': 0.02603665366768837, 'epoch': 0.5}
+ 50%|██████████████████████████████████████▋                                       | 338/681 [21:28<14:37,  2.56s/it] 50%|██████████████████████████████████████▊                                       | 339/681 [21:31<14:04,  2.47s/it]                                                                                                                     {'loss': 5.6395, 'grad_norm': 4415.94677734375, 'learning_rate': 2.9719824786231796e-07, 'beta_dpo/gap_mean': 93.49383544921875, 'beta_dpo/gap_std': 113.80068969726562, 'beta_dpo/beta_used_raw': 0.2719331383705139, 'beta_dpo/beta_used': 1.0157151222229004, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4132786989212036, 'logits/rejected': -0.4065033197402954, 'beta_dpo/beta': 1.0157151222229004, 'beta_dpo/loss_margin_mean': 96.39201354980469, 'beta_dpo/beta_margin_mean': 132.27044677734375, 'beta_dpo/beta_margin_std': 213.22317504882812, 'beta_dpo/beta_margin_grad_mean': -0.3203289806842804, 'beta_dpo/beta_margin_grad_std': 0.3050708770751953, 'epoch': 0.5}
+ 50%|██████████████████████████████████████▊                                       | 339/681 [21:31<14:04,  2.47s/it] 50%|██████████████████████████████████████▉                                       | 340/681 [21:33<14:12,  2.50s/it]                                                                                                                     {'loss': 2.6635, 'grad_norm': 2312.302001953125, 'learning_rate': 2.959373794541426e-07, 'beta_dpo/gap_mean': 95.82996368408203, 'beta_dpo/gap_std': 116.46409606933594, 'beta_dpo/beta_used_raw': -0.11612993478775024, 'beta_dpo/beta_used': 0.48150238394737244, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.36081361770629883, 'logits/rejected': -0.33534175157546997, 'beta_dpo/beta': 0.48150238394737244, 'beta_dpo/loss_margin_mean': 91.91159057617188, 'beta_dpo/beta_margin_mean': 53.98538589477539, 'beta_dpo/beta_margin_std': 104.22420501708984, 'beta_dpo/beta_margin_grad_mean': -0.31963202357292175, 'beta_dpo/beta_margin_grad_std': 0.30448395013809204, 'epoch': 0.5}
+ 50%|██████████████████████████████████████▉                                       | 340/681 [21:33<14:12,  2.50s/it] 50%|███████████████████████████████████████                                       | 341/681 [21:35<13:41,  2.42s/it]                                                                                                                     {'loss': 5.4623, 'grad_norm': 2236.2265625, 'learning_rate': 2.946753005532965e-07, 'beta_dpo/gap_mean': 97.98030090332031, 'beta_dpo/gap_std': 118.38259887695312, 'beta_dpo/beta_used_raw': 0.584057629108429, 'beta_dpo/beta_used': 0.6681861877441406, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35989874601364136, 'logits/rejected': -0.3705149292945862, 'beta_dpo/beta': 0.6681861877441406, 'beta_dpo/loss_margin_mean': 117.34190368652344, 'beta_dpo/beta_margin_mean': 76.64708709716797, 'beta_dpo/beta_margin_std': 130.1103515625, 'beta_dpo/beta_margin_grad_mean': -0.29601871967315674, 'beta_dpo/beta_margin_grad_std': 0.28802916407585144, 'epoch': 0.5}
+ 50%|███████████████████████████████████████                                       | 341/681 [21:35<13:41,  2.42s/it] 50%|███████████████████████████████████████▏                                      | 342/681 [21:38<14:03,  2.49s/it]                                                                                                                     {'loss': 1.3243, 'grad_norm': 6.459059238433838, 'learning_rate': 2.934120444167326e-07, 'beta_dpo/gap_mean': 96.36663818359375, 'beta_dpo/gap_std': 119.49044799804688, 'beta_dpo/beta_used_raw': -1.7561790943145752, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4166700839996338, 'logits/rejected': -0.387287974357605, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 88.04671478271484, 'beta_dpo/beta_margin_mean': 0.08804672211408615, 'beta_dpo/beta_margin_std': 0.12628589570522308, 'beta_dpo/beta_margin_grad_mean': -0.47810834646224976, 'beta_dpo/beta_margin_grad_std': 0.031336311250925064, 'epoch': 0.5}
+ 50%|███████████████████████████████████████▏                                      | 342/681 [21:38<14:03,  2.49s/it] 50%|███████████████████████████████████████▎                                      | 343/681 [21:40<13:43,  2.44s/it]                                                                                                                     {'loss': 1.0074, 'grad_norm': 1073.5543212890625, 'learning_rate': 2.9214764433242476e-07, 'beta_dpo/gap_mean': 99.7641372680664, 'beta_dpo/gap_std': 115.47168731689453, 'beta_dpo/beta_used_raw': -0.4439680874347687, 'beta_dpo/beta_used': 0.4361698031425476, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41678088903427124, 'logits/rejected': -0.4238309860229492, 'beta_dpo/beta': 0.4361698031425476, 'beta_dpo/loss_margin_mean': 112.97042083740234, 'beta_dpo/beta_margin_mean': 53.51424026489258, 'beta_dpo/beta_margin_std': 72.98287200927734, 'beta_dpo/beta_margin_grad_mean': -0.25323668122291565, 'beta_dpo/beta_margin_grad_std': 0.25362610816955566, 'epoch': 0.5}
+ 50%|███████████████████████████████████████▎                                      | 343/681 [21:40<13:43,  2.44s/it] 51%|███████████████████████████████████████▍                                      | 344/681 [21:43<13:50,  2.46s/it]                                                                                                                     {'loss': 1.9805, 'grad_norm': 2767.380859375, 'learning_rate': 2.9088213361849126e-07, 'beta_dpo/gap_mean': 97.2651596069336, 'beta_dpo/gap_std': 113.85401916503906, 'beta_dpo/beta_used_raw': -0.35434967279434204, 'beta_dpo/beta_used': 0.5173386931419373, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3739524185657501, 'logits/rejected': -0.3753708004951477, 'beta_dpo/beta': 0.5173386931419373, 'beta_dpo/loss_margin_mean': 91.90724182128906, 'beta_dpo/beta_margin_mean': 64.93697357177734, 'beta_dpo/beta_margin_std': 109.22602844238281, 'beta_dpo/beta_margin_grad_mean': -0.30524685978889465, 'beta_dpo/beta_margin_grad_std': 0.2957528233528137, 'epoch': 0.51}
+ 51%|███████████████████████████████████████▍                                      | 344/681 [21:43<13:50,  2.46s/it] 51%|███████████████████████████████████████▌                                      | 345/681 [21:46<14:21,  2.56s/it]                                                                                                                     {'loss': 3.0387, 'grad_norm': 2037.227294921875, 'learning_rate': 2.896155456223163e-07, 'beta_dpo/gap_mean': 99.37379455566406, 'beta_dpo/gap_std': 114.99360656738281, 'beta_dpo/beta_used_raw': 0.40887582302093506, 'beta_dpo/beta_used': 0.40887582302093506, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41102027893066406, 'logits/rejected': -0.3992459177970886, 'beta_dpo/beta': 0.40887582302093506, 'beta_dpo/loss_margin_mean': 109.09276580810547, 'beta_dpo/beta_margin_mean': 49.93855667114258, 'beta_dpo/beta_margin_std': 70.8931655883789, 'beta_dpo/beta_margin_grad_mean': -0.19348150491714478, 'beta_dpo/beta_margin_grad_std': 0.38543590903282166, 'epoch': 0.51}
+ 51%|███████████████████████████████████████▌                                      | 345/681 [21:46<14:21,  2.56s/it] 51%|███████████████████████████████████████▋                                      | 346/681 [21:48<14:10,  2.54s/it]                                                                                                                     {'loss': 1.3049, 'grad_norm': 6.275406837463379, 'learning_rate': 2.883479137196714e-07, 'beta_dpo/gap_mean': 100.52455139160156, 'beta_dpo/gap_std': 115.36701965332031, 'beta_dpo/beta_used_raw': -0.828955888748169, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37849825620651245, 'logits/rejected': -0.3621870279312134, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 96.45289611816406, 'beta_dpo/beta_margin_mean': 0.09645290672779083, 'beta_dpo/beta_margin_std': 0.1203700602054596, 'beta_dpo/beta_margin_grad_mean': -0.4759877324104309, 'beta_dpo/beta_margin_grad_std': 0.029918290674686432, 'epoch': 0.51}
+ 51%|███████████████████████████████████████▋                                      | 346/681 [21:48<14:10,  2.54s/it] 51%|███████████████████████████████████████▋                                      | 347/681 [21:50<13:41,  2.46s/it]                                                                                                                     {'loss': 1.3105, 'grad_norm': 7.38579797744751, 'learning_rate': 2.8707927131383614e-07, 'beta_dpo/gap_mean': 100.19987487792969, 'beta_dpo/gap_std': 118.36697387695312, 'beta_dpo/beta_used_raw': -1.1044821739196777, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3721884787082672, 'logits/rejected': -0.3643941581249237, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 98.27653503417969, 'beta_dpo/beta_margin_mean': 0.0982765406370163, 'beta_dpo/beta_margin_std': 0.12459293752908707, 'beta_dpo/beta_margin_grad_mean': -0.47555938363075256, 'beta_dpo/beta_margin_grad_std': 0.030918261036276817, 'epoch': 0.51}
+ 51%|███████████████████████████████████████▋                                      | 347/681 [21:51<13:41,  2.46s/it] 51%|███████████████████████████████████████▊                                      | 348/681 [21:53<13:36,  2.45s/it]                                                                                                                     {'loss': 1.652, 'grad_norm': 457.3243713378906, 'learning_rate': 2.858096518347179e-07, 'beta_dpo/gap_mean': 98.06617736816406, 'beta_dpo/gap_std': 117.04876708984375, 'beta_dpo/beta_used_raw': -0.1274842917919159, 'beta_dpo/beta_used': 0.11714650690555573, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4001210629940033, 'logits/rejected': -0.4025808572769165, 'beta_dpo/beta': 0.11714650690555573, 'beta_dpo/loss_margin_mean': 82.79788970947266, 'beta_dpo/beta_margin_mean': 12.065768241882324, 'beta_dpo/beta_margin_std': 22.209104537963867, 'beta_dpo/beta_margin_grad_mean': -0.3267797529697418, 'beta_dpo/beta_margin_grad_std': 0.28449147939682007, 'epoch': 0.51}
+ 51%|███████████████████████████████████████▊                                      | 348/681 [21:53<13:36,  2.45s/it] 51%|███████████████████████████████████████▉                                      | 349/681 [21:56<13:46,  2.49s/it]                                                                                                                     {'loss': 1.3096, 'grad_norm': 7.413999080657959, 'learning_rate': 2.845390887379706e-07, 'beta_dpo/gap_mean': 95.7049331665039, 'beta_dpo/gap_std': 117.83291625976562, 'beta_dpo/beta_used_raw': -0.7904142737388611, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.354410856962204, 'logits/rejected': -0.34631115198135376, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 97.76747131347656, 'beta_dpo/beta_margin_mean': 0.09776747226715088, 'beta_dpo/beta_margin_std': 0.13501474261283875, 'beta_dpo/beta_margin_grad_mean': -0.47573983669281006, 'beta_dpo/beta_margin_grad_std': 0.03337588906288147, 'epoch': 0.51}
+ 51%|███████████████████████████████████████▉                                      | 349/681 [21:56<13:46,  2.49s/it] 51%|████████████████████████████████████████                                      | 350/681 [21:58<13:58,  2.53s/it]                                                                                                                     {'loss': 1.6184, 'grad_norm': 363.3417663574219, 'learning_rate': 2.8326761550411346e-07, 'beta_dpo/gap_mean': 98.13190460205078, 'beta_dpo/gap_std': 121.19251251220703, 'beta_dpo/beta_used_raw': 0.18125556409358978, 'beta_dpo/beta_used': 0.3681584596633911, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39443519711494446, 'logits/rejected': -0.37324777245521545, 'beta_dpo/beta': 0.3681584596633911, 'beta_dpo/loss_margin_mean': 101.13141632080078, 'beta_dpo/beta_margin_mean': 44.03104782104492, 'beta_dpo/beta_margin_std': 82.63276672363281, 'beta_dpo/beta_margin_grad_mean': -0.2865951657295227, 'beta_dpo/beta_margin_grad_std': 0.2829616367816925, 'epoch': 0.51}
+ 51%|████████████████████████████████████████                                      | 350/681 [21:58<13:58,  2.53s/it] 52%|████████████████████████████████████████▏                                     | 351/681 [22:01<14:02,  2.55s/it]                                                                                                                     {'loss': 1.3058, 'grad_norm': 6.668581008911133, 'learning_rate': 2.819952656376487e-07, 'beta_dpo/gap_mean': 101.26289367675781, 'beta_dpo/gap_std': 127.14557647705078, 'beta_dpo/beta_used_raw': -0.8729835748672485, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43974393606185913, 'logits/rejected': -0.4313165545463562, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 121.89144897460938, 'beta_dpo/beta_margin_mean': 0.12189145386219025, 'beta_dpo/beta_margin_std': 0.15585792064666748, 'beta_dpo/beta_margin_grad_mean': -0.46981188654899597, 'beta_dpo/beta_margin_grad_std': 0.038395486772060394, 'epoch': 0.52}
+ 52%|████████████████████████████████████████▏                                     | 351/681 [22:01<14:02,  2.55s/it] 52%|████████████████████████████████████████▎                                     | 352/681 [22:03<14:03,  2.57s/it]                                                                                                                     {'loss': 1.3343, 'grad_norm': 6.023617267608643, 'learning_rate': 2.8072207266617854e-07, 'beta_dpo/gap_mean': 96.96006774902344, 'beta_dpo/gap_std': 127.05946350097656, 'beta_dpo/beta_used_raw': -2.4254016876220703, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4059138894081116, 'logits/rejected': -0.37293723225593567, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 61.68793487548828, 'beta_dpo/beta_margin_mean': 0.06168793886899948, 'beta_dpo/beta_margin_std': 0.12350940704345703, 'beta_dpo/beta_margin_grad_mean': -0.48466551303863525, 'beta_dpo/beta_margin_grad_std': 0.030659163370728493, 'epoch': 0.52}
+ 52%|████████████████████████████████████████▎                                     | 352/681 [22:03<14:03,  2.57s/it] 52%|████████████████████████████████████████▍                                     | 353/681 [22:06<14:00,  2.56s/it]                                                                                                                     {'loss': 1.3195, 'grad_norm': 6.5913310050964355, 'learning_rate': 2.794480701395219e-07, 'beta_dpo/gap_mean': 95.6932373046875, 'beta_dpo/gap_std': 130.9846954345703, 'beta_dpo/beta_used_raw': -1.3700706958770752, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40948837995529175, 'logits/rejected': -0.39385730028152466, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 96.69725036621094, 'beta_dpo/beta_margin_mean': 0.09669725596904755, 'beta_dpo/beta_margin_std': 0.15294483304023743, 'beta_dpo/beta_margin_grad_mean': -0.47603118419647217, 'beta_dpo/beta_margin_grad_std': 0.037852540612220764, 'epoch': 0.52}
+ 52%|████████████████████████████████████████▍                                     | 353/681 [22:06<14:00,  2.56s/it] 52%|████████████████████████████████████████▌                                     | 354/681 [22:09<14:09,  2.60s/it]                                                                                                                     {'loss': 1.3129, 'grad_norm': 5.958319664001465, 'learning_rate': 2.781732916288303e-07, 'beta_dpo/gap_mean': 95.46762084960938, 'beta_dpo/gap_std': 128.0501708984375, 'beta_dpo/beta_used_raw': -1.0040392875671387, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3586284816265106, 'logits/rejected': -0.34347254037857056, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 100.078369140625, 'beta_dpo/beta_margin_mean': 0.10007837414741516, 'beta_dpo/beta_margin_std': 0.10820183157920837, 'beta_dpo/beta_margin_grad_mean': -0.4750857651233673, 'beta_dpo/beta_margin_grad_std': 0.026884840801358223, 'epoch': 0.52}
+ 52%|████████████████████████████████████████▌                                     | 354/681 [22:09<14:09,  2.60s/it] 52%|████████████████████████████████████████▋                                     | 355/681 [22:11<13:42,  2.52s/it]                                                                                                                     {'loss': 9.4138, 'grad_norm': 3436.352294921875, 'learning_rate': 2.7689777072570284e-07, 'beta_dpo/gap_mean': 98.98455810546875, 'beta_dpo/gap_std': 126.47689819335938, 'beta_dpo/beta_used_raw': 0.2829711437225342, 'beta_dpo/beta_used': 0.803097665309906, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4502210021018982, 'logits/rejected': -0.42753684520721436, 'beta_dpo/beta': 0.803097665309906, 'beta_dpo/loss_margin_mean': 113.99552917480469, 'beta_dpo/beta_margin_mean': 108.771484375, 'beta_dpo/beta_margin_std': 188.28627014160156, 'beta_dpo/beta_margin_grad_mean': -0.31661173701286316, 'beta_dpo/beta_margin_grad_std': 0.30314168334007263, 'epoch': 0.52}
+ 52%|████████████████████████████████████████▋                                     | 355/681 [22:11<13:42,  2.52s/it] 52%|████████████████████████████████████████▊                                     | 356/681 [22:14<14:10,  2.62s/it]                                                                                                                     {'loss': 1.3335, 'grad_norm': 5.952792644500732, 'learning_rate': 2.7562154104130176e-07, 'beta_dpo/gap_mean': 92.14360046386719, 'beta_dpo/gap_std': 127.69420623779297, 'beta_dpo/beta_used_raw': -2.0601253509521484, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3653779625892639, 'logits/rejected': -0.3463535010814667, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 58.786895751953125, 'beta_dpo/beta_margin_mean': 0.05878689885139465, 'beta_dpo/beta_margin_std': 0.14823727309703827, 'beta_dpo/beta_margin_grad_mean': -0.48544058203697205, 'beta_dpo/beta_margin_grad_std': 0.03667362034320831, 'epoch': 0.52}
+ 52%|████████████████████████████████████████▊                                     | 356/681 [22:14<14:10,  2.62s/it] 52%|████████████████████████████████████████▉                                     | 357/681 [22:17<14:26,  2.67s/it]                                                                                                                     {'loss': 1.3075, 'grad_norm': 5.877689361572266, 'learning_rate': 2.7434463620546594e-07, 'beta_dpo/gap_mean': 92.12881469726562, 'beta_dpo/gap_std': 128.6616973876953, 'beta_dpo/beta_used_raw': -0.46944957971572876, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39090579748153687, 'logits/rejected': -0.3792232275009155, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 92.58734893798828, 'beta_dpo/beta_margin_mean': 0.09258735179901123, 'beta_dpo/beta_margin_std': 0.12106671184301376, 'beta_dpo/beta_margin_grad_mean': -0.47698020935058594, 'beta_dpo/beta_margin_grad_std': 0.030018875375390053, 'epoch': 0.52}
+ 52%|████████████████████████████████████████▉                                     | 357/681 [22:17<14:26,  2.67s/it] 53%|█████████████████████████████████████████                                     | 358/681 [22:19<14:41,  2.73s/it]                                                                                                                     {'loss': 1.3174, 'grad_norm': 5.643310070037842, 'learning_rate': 2.730670898658255e-07, 'beta_dpo/gap_mean': 91.1614990234375, 'beta_dpo/gap_std': 129.97589111328125, 'beta_dpo/beta_used_raw': -1.034654974937439, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40258651971817017, 'logits/rejected': -0.385714590549469, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 87.48451232910156, 'beta_dpo/beta_margin_mean': 0.08748451620340347, 'beta_dpo/beta_margin_std': 0.14093735814094543, 'beta_dpo/beta_margin_grad_mean': -0.4783032238483429, 'beta_dpo/beta_margin_grad_std': 0.03480137139558792, 'epoch': 0.53}
+ 53%|█████████████████████████████████████████                                     | 358/681 [22:19<14:41,  2.73s/it] 53%|█████████████████████████████████████████                                     | 359/681 [22:22<14:36,  2.72s/it]                                                                                                                     {'loss': 1.5572, 'grad_norm': 417.1752624511719, 'learning_rate': 2.717889356869146e-07, 'beta_dpo/gap_mean': 94.33483123779297, 'beta_dpo/gap_std': 137.95599365234375, 'beta_dpo/beta_used_raw': -0.8927912712097168, 'beta_dpo/beta_used': 0.03269139304757118, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3224365711212158, 'logits/rejected': -0.2917293906211853, 'beta_dpo/beta': 0.03269139304757118, 'beta_dpo/loss_margin_mean': 116.4987564086914, 'beta_dpo/beta_margin_mean': 3.772794485092163, 'beta_dpo/beta_margin_std': 7.085198402404785, 'beta_dpo/beta_margin_grad_mean': -0.34401631355285645, 'beta_dpo/beta_margin_grad_std': 0.29530322551727295, 'epoch': 0.53}
+ 53%|█████████████████████████████████████████                                     | 359/681 [22:22<14:36,  2.72s/it] 53%|█████████████████████████████████████████▏                                    | 360/681 [22:25<14:12,  2.66s/it]                                                                                                                     {'loss': 1.3215, 'grad_norm': 7.576156139373779, 'learning_rate': 2.7051020734928443e-07, 'beta_dpo/gap_mean': 93.76991271972656, 'beta_dpo/gap_std': 133.27197265625, 'beta_dpo/beta_used_raw': -1.4150499105453491, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33717477321624756, 'logits/rejected': -0.32376694679260254, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 83.61884307861328, 'beta_dpo/beta_margin_mean': 0.08361884206533432, 'beta_dpo/beta_margin_std': 0.10896874964237213, 'beta_dpo/beta_margin_grad_mean': -0.4791829586029053, 'beta_dpo/beta_margin_grad_std': 0.027085591107606888, 'epoch': 0.53}
+ 53%|█████████████████████████████████████████▏                                    | 360/681 [22:25<14:12,  2.66s/it] 53%|█████████████████████████████████████████▎                                    | 361/681 [22:27<14:17,  2.68s/it]                                                                                                                     {'loss': 1.3155, 'grad_norm': 9.286351203918457, 'learning_rate': 2.6923093854861593e-07, 'beta_dpo/gap_mean': 92.4726333618164, 'beta_dpo/gap_std': 133.42208862304688, 'beta_dpo/beta_used_raw': -0.9473916888237, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3260883092880249, 'logits/rejected': -0.3336498737335205, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 90.1120834350586, 'beta_dpo/beta_margin_mean': 0.09011209011077881, 'beta_dpo/beta_margin_std': 0.13601025938987732, 'beta_dpo/beta_margin_grad_mean': -0.477610319852829, 'beta_dpo/beta_margin_grad_std': 0.03370558097958565, 'epoch': 0.53}
+ 53%|█████████████████████████████████████████▎                                    | 361/681 [22:27<14:17,  2.68s/it] 53%|█████████████████████████████████████████▍                                    | 362/681 [22:30<13:38,  2.57s/it]                                                                                                                     {'loss': 4.7128, 'grad_norm': 3908.80322265625, 'learning_rate': 2.679511629948319e-07, 'beta_dpo/gap_mean': 101.06622314453125, 'beta_dpo/gap_std': 136.33203125, 'beta_dpo/beta_used_raw': 1.0895951986312866, 'beta_dpo/beta_used': 1.6271191835403442, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3415091633796692, 'logits/rejected': -0.3479331135749817, 'beta_dpo/beta': 1.6271191835403442, 'beta_dpo/loss_margin_mean': 147.14773559570312, 'beta_dpo/beta_margin_mean': 257.64166259765625, 'beta_dpo/beta_margin_std': 433.18182373046875, 'beta_dpo/beta_margin_grad_mean': -0.2851690351963043, 'beta_dpo/beta_margin_grad_std': 0.2767854332923889, 'epoch': 0.53}
+ 53%|█████████████████████████████████████████▍                                    | 362/681 [22:30<13:38,  2.57s/it] 53%|█████████████████████████████████████████▌                                    | 363/681 [22:32<13:08,  2.48s/it]                                                                                                                     {'loss': 5.4489, 'grad_norm': 2845.82421875, 'learning_rate': 2.6667091441120816e-07, 'beta_dpo/gap_mean': 108.2145004272461, 'beta_dpo/gap_std': 139.0877227783203, 'beta_dpo/beta_used_raw': 0.030955523252487183, 'beta_dpo/beta_used': 0.48806485533714294, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3030551075935364, 'logits/rejected': -0.288122296333313, 'beta_dpo/beta': 0.48806485533714294, 'beta_dpo/loss_margin_mean': 144.82916259765625, 'beta_dpo/beta_margin_mean': 78.98721313476562, 'beta_dpo/beta_margin_std': 153.0666961669922, 'beta_dpo/beta_margin_grad_mean': -0.3278650641441345, 'beta_dpo/beta_margin_grad_std': 0.3104459047317505, 'epoch': 0.53}
+ 53%|█████████████████████████████████████████▌                                    | 363/681 [22:32<13:08,  2.48s/it] 53%|█████████████████████████████████████████▋                                    | 364/681 [22:35<13:19,  2.52s/it]                                                                                                                     {'loss': 1.3205, 'grad_norm': 6.039409160614014, 'learning_rate': 2.6539022653348575e-07, 'beta_dpo/gap_mean': 107.01531982421875, 'beta_dpo/gap_std': 143.16229248046875, 'beta_dpo/beta_used_raw': -2.154345989227295, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3785761594772339, 'logits/rejected': -0.3902500867843628, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 90.85896301269531, 'beta_dpo/beta_margin_mean': 0.09085896611213684, 'beta_dpo/beta_margin_std': 0.1515338271856308, 'beta_dpo/beta_margin_grad_mean': -0.4774971008300781, 'beta_dpo/beta_margin_grad_std': 0.03736840933561325, 'epoch': 0.53}
+ 53%|█████████████████████████████████████████▋                                    | 364/681 [22:35<13:19,  2.52s/it] 54%|█████████████████████████████████████████▊                                    | 365/681 [22:37<13:27,  2.56s/it]                                                                                                                     {'loss': 1.3158, 'grad_norm': 6.869436264038086, 'learning_rate': 2.641091331089811e-07, 'beta_dpo/gap_mean': 108.13379669189453, 'beta_dpo/gap_std': 142.005859375, 'beta_dpo/beta_used_raw': -1.951167106628418, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3123311996459961, 'logits/rejected': -0.32426539063453674, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 113.32341003417969, 'beta_dpo/beta_margin_mean': 0.11332341283559799, 'beta_dpo/beta_margin_std': 0.14188429713249207, 'beta_dpo/beta_margin_grad_mean': -0.47192299365997314, 'beta_dpo/beta_margin_grad_std': 0.03479469195008278, 'epoch': 0.54}
+ 54%|█████████████████████████████████████████▊                                    | 365/681 [22:37<13:27,  2.56s/it] 54%|█████████████████████████████████████████▉                                    | 366/681 [22:40<13:29,  2.57s/it]                                                                                                                     {'loss': 4.1092, 'grad_norm': 2276.9384765625, 'learning_rate': 2.6282766789569736e-07, 'beta_dpo/gap_mean': 110.02189636230469, 'beta_dpo/gap_std': 146.34872436523438, 'beta_dpo/beta_used_raw': -0.3282930850982666, 'beta_dpo/beta_used': 0.5055487155914307, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2959885001182556, 'logits/rejected': -0.31161656975746155, 'beta_dpo/beta': 0.5055487155914307, 'beta_dpo/loss_margin_mean': 110.3228759765625, 'beta_dpo/beta_margin_mean': 68.90055084228516, 'beta_dpo/beta_margin_std': 133.3690948486328, 'beta_dpo/beta_margin_grad_mean': -0.31768321990966797, 'beta_dpo/beta_margin_grad_std': 0.30457475781440735, 'epoch': 0.54}
+ 54%|█████████████████████████████████████████▉                                    | 366/681 [22:40<13:29,  2.57s/it] 54%|██████████████████████████████████████████                                    | 367/681 [22:43<13:44,  2.63s/it]                                                                                                                     {'loss': 1.9352, 'grad_norm': 524.9410400390625, 'learning_rate': 2.615458646614349e-07, 'beta_dpo/gap_mean': 106.54058837890625, 'beta_dpo/gap_std': 143.6832275390625, 'beta_dpo/beta_used_raw': -0.25230592489242554, 'beta_dpo/beta_used': 0.1259302943944931, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37701088190078735, 'logits/rejected': -0.35184770822525024, 'beta_dpo/beta': 0.1259302943944931, 'beta_dpo/loss_margin_mean': 93.8835220336914, 'beta_dpo/beta_margin_mean': 11.867181777954102, 'beta_dpo/beta_margin_std': 23.115652084350586, 'beta_dpo/beta_margin_grad_mean': -0.3177259862422943, 'beta_dpo/beta_margin_grad_std': 0.2994624972343445, 'epoch': 0.54}
+ 54%|██████████████████████████████████████████                                    | 367/681 [22:43<13:44,  2.63s/it] 54%|██████████████████████████████████████████▏                                   | 368/681 [22:45<13:50,  2.65s/it]                                                                                                                     {'loss': 1.3764, 'grad_norm': 3995.7197265625, 'learning_rate': 2.6026375718290083e-07, 'beta_dpo/gap_mean': 109.11013793945312, 'beta_dpo/gap_std': 139.04080200195312, 'beta_dpo/beta_used_raw': 0.9328745603561401, 'beta_dpo/beta_used': 0.9328745603561401, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38272589445114136, 'logits/rejected': -0.38491058349609375, 'beta_dpo/beta': 0.9328745603561401, 'beta_dpo/loss_margin_mean': 132.6707000732422, 'beta_dpo/beta_margin_mean': 133.5645751953125, 'beta_dpo/beta_margin_std': 201.60333251953125, 'beta_dpo/beta_margin_grad_mean': -0.09676685929298401, 'beta_dpo/beta_margin_grad_std': 0.2863916754722595, 'epoch': 0.54}
+ 54%|██████████████████████████████████████████▏                                   | 368/681 [22:45<13:50,  2.65s/it] 54%|██████████████████████████████████████████▎                                   | 369/681 [22:48<14:03,  2.70s/it]                                                                                                                     {'loss': 1.2417, 'grad_norm': 338.8497619628906, 'learning_rate': 2.589813792448196e-07, 'beta_dpo/gap_mean': 105.86335754394531, 'beta_dpo/gap_std': 138.92889404296875, 'beta_dpo/beta_used_raw': -1.1680105924606323, 'beta_dpo/beta_used': 0.09317570924758911, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40276187658309937, 'logits/rejected': -0.3842419385910034, 'beta_dpo/beta': 0.09317570924758911, 'beta_dpo/loss_margin_mean': 81.47874450683594, 'beta_dpo/beta_margin_mean': 9.50542163848877, 'beta_dpo/beta_margin_std': 21.700239181518555, 'beta_dpo/beta_margin_grad_mean': -0.3334360122680664, 'beta_dpo/beta_margin_grad_std': 0.29883116483688354, 'epoch': 0.54}
+ 54%|██████████████████████████████████████████▎                                   | 369/681 [22:48<14:03,  2.70s/it] 54%|██████████████████████████████████████████▍                                   | 370/681 [22:51<14:14,  2.75s/it]                                                                                                                     {'loss': 5.0036, 'grad_norm': 2646.7197265625, 'learning_rate': 2.5769876463904263e-07, 'beta_dpo/gap_mean': 100.1129150390625, 'beta_dpo/gap_std': 139.25335693359375, 'beta_dpo/beta_used_raw': -0.5632827281951904, 'beta_dpo/beta_used': 0.32751452922821045, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39602580666542053, 'logits/rejected': -0.39256715774536133, 'beta_dpo/beta': 0.32751452922821045, 'beta_dpo/loss_margin_mean': 70.3260726928711, 'beta_dpo/beta_margin_mean': 26.184959411621094, 'beta_dpo/beta_margin_std': 58.59195327758789, 'beta_dpo/beta_margin_grad_mean': -0.33634528517723083, 'beta_dpo/beta_margin_grad_std': 0.31442970037460327, 'epoch': 0.54}
+ 54%|██████████████████████████████████████████▍                                   | 370/681 [22:51<14:14,  2.75s/it] 54%|██████████████████████████████████████████▍                                   | 371/681 [22:54<14:20,  2.78s/it]                                                                                                                     {'loss': 4.2713, 'grad_norm': 1841.630859375, 'learning_rate': 2.5641594716365744e-07, 'beta_dpo/gap_mean': 97.70218658447266, 'beta_dpo/gap_std': 137.7125244140625, 'beta_dpo/beta_used_raw': -0.1922587752342224, 'beta_dpo/beta_used': 0.26400327682495117, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4191368520259857, 'logits/rejected': -0.4073137044906616, 'beta_dpo/beta': 0.26400327682495117, 'beta_dpo/loss_margin_mean': 91.76586151123047, 'beta_dpo/beta_margin_mean': 22.5057430267334, 'beta_dpo/beta_margin_std': 54.71674346923828, 'beta_dpo/beta_margin_grad_mean': -0.3500906229019165, 'beta_dpo/beta_margin_grad_std': 0.31608888506889343, 'epoch': 0.54}
+ 54%|██████████████████████████████████████████▍                                   | 371/681 [22:54<14:20,  2.78s/it] 55%|██████████████████████████████████████████▌                                   | 372/681 [22:56<13:35,  2.64s/it]                                                                                                                     {'loss': 5.4678, 'grad_norm': 2330.501953125, 'learning_rate': 2.551329606220976e-07, 'beta_dpo/gap_mean': 98.745849609375, 'beta_dpo/gap_std': 137.76092529296875, 'beta_dpo/beta_used_raw': 0.2250063121318817, 'beta_dpo/beta_used': 0.29865550994873047, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4094877243041992, 'logits/rejected': -0.3760242462158203, 'beta_dpo/beta': 0.29865550994873047, 'beta_dpo/loss_margin_mean': 105.9774398803711, 'beta_dpo/beta_margin_mean': 30.436782836914062, 'beta_dpo/beta_margin_std': 65.03998565673828, 'beta_dpo/beta_margin_grad_mean': -0.34942829608917236, 'beta_dpo/beta_margin_grad_std': 0.3169166147708893, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████▌                                   | 372/681 [22:56<13:35,  2.64s/it] 55%|██████████████████████████████████████████▋                                   | 373/681 [22:59<13:17,  2.59s/it]                                                                                                                     {'loss': 3.7343, 'grad_norm': 2668.42236328125, 'learning_rate': 2.538498388222517e-07, 'beta_dpo/gap_mean': 98.81103515625, 'beta_dpo/gap_std': 134.30552673339844, 'beta_dpo/beta_used_raw': -0.7580370903015137, 'beta_dpo/beta_used': 0.4515746831893921, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4020259380340576, 'logits/rejected': -0.3562648296356201, 'beta_dpo/beta': 0.4515746831893921, 'beta_dpo/loss_margin_mean': 103.87548828125, 'beta_dpo/beta_margin_mean': 58.79832077026367, 'beta_dpo/beta_margin_std': 84.47066497802734, 'beta_dpo/beta_margin_grad_mean': -0.27207887172698975, 'beta_dpo/beta_margin_grad_std': 0.2706195116043091, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████▋                                   | 373/681 [22:59<13:17,  2.59s/it] 55%|██████████████████████████████████████████▊                                   | 374/681 [23:01<13:28,  2.63s/it]                                                                                                                     {'loss': 1.319, 'grad_norm': 25.06356430053711, 'learning_rate': 2.525666155755725e-07, 'beta_dpo/gap_mean': 98.51296997070312, 'beta_dpo/gap_std': 129.830322265625, 'beta_dpo/beta_used_raw': -1.5819969177246094, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5303980112075806, 'logits/rejected': -0.5011695027351379, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 83.52459716796875, 'beta_dpo/beta_margin_mean': 0.08352459967136383, 'beta_dpo/beta_margin_std': 0.1111961379647255, 'beta_dpo/beta_margin_grad_mean': -0.4792296886444092, 'beta_dpo/beta_margin_grad_std': 0.0275330301374197, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████▊                                   | 374/681 [23:01<13:28,  2.63s/it] 55%|██████████████████████████████████████████▉                                   | 375/681 [23:04<13:25,  2.63s/it]                                                                                                                     {'loss': 1.3091, 'grad_norm': 33.27694320678711, 'learning_rate': 2.512833246961859e-07, 'beta_dpo/gap_mean': 95.07070922851562, 'beta_dpo/gap_std': 124.96221923828125, 'beta_dpo/beta_used_raw': -0.7749541997909546, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46519535779953003, 'logits/rejected': -0.4570329785346985, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 76.89561462402344, 'beta_dpo/beta_margin_mean': 0.07689561694860458, 'beta_dpo/beta_margin_std': 0.10439448803663254, 'beta_dpo/beta_margin_grad_mean': -0.48084428906440735, 'beta_dpo/beta_margin_grad_std': 0.025963004678487778, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████▉                                   | 375/681 [23:04<13:25,  2.63s/it] 55%|███████████████████████████████████████████                                   | 376/681 [23:07<13:29,  2.65s/it]                                                                                                                     {'loss': 2.4697, 'grad_norm': 1583.425048828125, 'learning_rate': 2.5e-07, 'beta_dpo/gap_mean': 94.86084747314453, 'beta_dpo/gap_std': 124.55882263183594, 'beta_dpo/beta_used_raw': -0.6300212144851685, 'beta_dpo/beta_used': 0.16056698560714722, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4400368332862854, 'logits/rejected': -0.42413341999053955, 'beta_dpo/beta': 0.16056698560714722, 'beta_dpo/loss_margin_mean': 106.193359375, 'beta_dpo/beta_margin_mean': 17.529916763305664, 'beta_dpo/beta_margin_std': 32.734588623046875, 'beta_dpo/beta_margin_grad_mean': -0.3113880455493927, 'beta_dpo/beta_margin_grad_std': 0.28589603304862976, 'epoch': 0.55}
+ 55%|███████████████████████████████████████████                                   | 376/681 [23:07<13:29,  2.65s/it] 55%|███████████████████████████████████████████▏                                  | 377/681 [23:09<13:10,  2.60s/it]                                                                                                                     {'loss': 1.7143, 'grad_norm': 474.910400390625, 'learning_rate': 2.487166753038141e-07, 'beta_dpo/gap_mean': 94.40826416015625, 'beta_dpo/gap_std': 123.61512756347656, 'beta_dpo/beta_used_raw': -0.9513387680053711, 'beta_dpo/beta_used': 0.12274540960788727, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43538355827331543, 'logits/rejected': -0.43877607583999634, 'beta_dpo/beta': 0.12274540960788727, 'beta_dpo/loss_margin_mean': 91.47625732421875, 'beta_dpo/beta_margin_mean': 12.869964599609375, 'beta_dpo/beta_margin_std': 25.119873046875, 'beta_dpo/beta_margin_grad_mean': -0.3400813341140747, 'beta_dpo/beta_margin_grad_std': 0.3001156449317932, 'epoch': 0.55}
+ 55%|███████████████████████████████████████████▏                                  | 377/681 [23:09<13:10,  2.60s/it] 56%|███████████████████████████████████████████▎                                  | 378/681 [23:11<12:26,  2.46s/it]                                                                                                                     {'loss': 1.2075, 'grad_norm': 206.10948181152344, 'learning_rate': 2.4743338442442754e-07, 'beta_dpo/gap_mean': 96.25257873535156, 'beta_dpo/gap_std': 121.488525390625, 'beta_dpo/beta_used_raw': -0.05297088995575905, 'beta_dpo/beta_used': 0.055305834859609604, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.453810453414917, 'logits/rejected': -0.45135384798049927, 'beta_dpo/beta': 0.055305834859609604, 'beta_dpo/loss_margin_mean': 101.7795639038086, 'beta_dpo/beta_margin_mean': 5.2662177085876465, 'beta_dpo/beta_margin_std': 8.644315719604492, 'beta_dpo/beta_margin_grad_mean': -0.33113202452659607, 'beta_dpo/beta_margin_grad_std': 0.2857387065887451, 'epoch': 0.56}
+ 56%|███████████████████████████████████████████▎                                  | 378/681 [23:11<12:26,  2.46s/it] 56%|███████████████████████████████████████████▍                                  | 379/681 [23:14<12:24,  2.47s/it]                                                                                                                     {'loss': 1.3086, 'grad_norm': 7.842655658721924, 'learning_rate': 2.461501611777483e-07, 'beta_dpo/gap_mean': 98.50502014160156, 'beta_dpo/gap_std': 122.33307647705078, 'beta_dpo/beta_used_raw': -0.923268735408783, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40998560190200806, 'logits/rejected': -0.43568363785743713, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 104.080322265625, 'beta_dpo/beta_margin_mean': 0.10408032685518265, 'beta_dpo/beta_margin_std': 0.13608884811401367, 'beta_dpo/beta_margin_grad_mean': -0.47414979338645935, 'beta_dpo/beta_margin_grad_std': 0.03370606154203415, 'epoch': 0.56}
+ 56%|███████████████████████████████████████████▍                                  | 379/681 [23:14<12:24,  2.47s/it] 56%|███████████████████████████████████████████▌                                  | 380/681 [23:16<12:08,  2.42s/it]                                                                                                                     {'loss': 3.929, 'grad_norm': 1847.671142578125, 'learning_rate': 2.4486703937790243e-07, 'beta_dpo/gap_mean': 99.70042419433594, 'beta_dpo/gap_std': 122.06121063232422, 'beta_dpo/beta_used_raw': 0.49257999658584595, 'beta_dpo/beta_used': 0.49257999658584595, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4073488712310791, 'logits/rejected': -0.4285936951637268, 'beta_dpo/beta': 0.49257999658584595, 'beta_dpo/loss_margin_mean': 114.565673828125, 'beta_dpo/beta_margin_mean': 55.05702590942383, 'beta_dpo/beta_margin_std': 68.4500732421875, 'beta_dpo/beta_margin_grad_mean': -0.1504988819360733, 'beta_dpo/beta_margin_grad_std': 0.34962981939315796, 'epoch': 0.56}
+ 56%|███████████████████████████████████████████▌                                  | 380/681 [23:16<12:08,  2.42s/it] 56%|███████████████████████████████████████████▋                                  | 381/681 [23:19<12:28,  2.50s/it]                                                                                                                     {'loss': 1.3176, 'grad_norm': 7.046865463256836, 'learning_rate': 2.435840528363426e-07, 'beta_dpo/gap_mean': 99.50776672363281, 'beta_dpo/gap_std': 124.66862487792969, 'beta_dpo/beta_used_raw': -1.517669916152954, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44461020827293396, 'logits/rejected': -0.42805731296539307, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.09545135498047, 'beta_dpo/beta_margin_mean': 0.08609545230865479, 'beta_dpo/beta_margin_std': 0.13360077142715454, 'beta_dpo/beta_margin_grad_mean': -0.4786049425601959, 'beta_dpo/beta_margin_grad_std': 0.033149346709251404, 'epoch': 0.56}
+ 56%|███████████████████████████████████████████▋                                  | 381/681 [23:19<12:28,  2.50s/it] 56%|███████████████████████████████████████████▊                                  | 382/681 [23:21<12:48,  2.57s/it]                                                                                                                     {'loss': 1.3066, 'grad_norm': 7.702118873596191, 'learning_rate': 2.4230123536095745e-07, 'beta_dpo/gap_mean': 98.30332946777344, 'beta_dpo/gap_std': 123.63853454589844, 'beta_dpo/beta_used_raw': -0.7904385328292847, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.482845664024353, 'logits/rejected': -0.47936874628067017, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 98.48768615722656, 'beta_dpo/beta_margin_mean': 0.09848769009113312, 'beta_dpo/beta_margin_std': 0.10959197580814362, 'beta_dpo/beta_margin_grad_mean': -0.4754858613014221, 'beta_dpo/beta_margin_grad_std': 0.0272133257240057, 'epoch': 0.56}
+ 56%|███████████████████████████████████████████▊                                  | 382/681 [23:22<12:48,  2.57s/it] 56%|███████████████████████████████████████████▊                                  | 383/681 [23:24<13:04,  2.63s/it]                                                                                                                     {'loss': 1.3082, 'grad_norm': 7.877129077911377, 'learning_rate': 2.4101862075518037e-07, 'beta_dpo/gap_mean': 99.17279815673828, 'beta_dpo/gap_std': 122.20887756347656, 'beta_dpo/beta_used_raw': -0.9441766142845154, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4365376830101013, 'logits/rejected': -0.4394179880619049, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 101.19039154052734, 'beta_dpo/beta_margin_mean': 0.10119039565324783, 'beta_dpo/beta_margin_std': 0.1272357702255249, 'beta_dpo/beta_margin_grad_mean': -0.47483423352241516, 'beta_dpo/beta_margin_grad_std': 0.031567756086587906, 'epoch': 0.56}
+ 56%|███████████████████████████████████████████▊                                  | 383/681 [23:24<13:04,  2.63s/it] 56%|███████████████████████████████████████████▉                                  | 384/681 [23:27<12:56,  2.61s/it]                                                                                                                     {'loss': 1.3064, 'grad_norm': 6.691796779632568, 'learning_rate': 2.397362428170992e-07, 'beta_dpo/gap_mean': 96.98212432861328, 'beta_dpo/gap_std': 120.21687316894531, 'beta_dpo/beta_used_raw': -0.6997740268707275, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4357266128063202, 'logits/rejected': -0.4359877407550812, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 91.37213897705078, 'beta_dpo/beta_margin_mean': 0.09137213975191116, 'beta_dpo/beta_margin_std': 0.10625956207513809, 'beta_dpo/beta_margin_grad_mean': -0.4772571325302124, 'beta_dpo/beta_margin_grad_std': 0.026376277208328247, 'epoch': 0.56}
+ 56%|███████████████████████████████████████████▉                                  | 384/681 [23:27<12:56,  2.61s/it] 57%|████████████████████████████████████████████                                  | 385/681 [23:29<12:43,  2.58s/it]                                                                                                                     {'loss': 1.3072, 'grad_norm': 6.454415798187256, 'learning_rate': 2.3845413533856514e-07, 'beta_dpo/gap_mean': 95.1080322265625, 'beta_dpo/gap_std': 117.16928100585938, 'beta_dpo/beta_used_raw': -0.6672598123550415, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4430091381072998, 'logits/rejected': -0.406819224357605, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.40987396240234, 'beta_dpo/beta_margin_mean': 0.08640988171100616, 'beta_dpo/beta_margin_std': 0.09507441520690918, 'beta_dpo/beta_margin_grad_mean': -0.4784564971923828, 'beta_dpo/beta_margin_grad_std': 0.023655114695429802, 'epoch': 0.57}
+ 57%|████████████████████████████████████████████                                  | 385/681 [23:29<12:43,  2.58s/it] 57%|████████████████████████████████████████████▏                                 | 386/681 [23:32<12:40,  2.58s/it]                                                                                                                     {'loss': 2.1028, 'grad_norm': 1257.6240234375, 'learning_rate': 2.3717233210430254e-07, 'beta_dpo/gap_mean': 95.47817993164062, 'beta_dpo/gap_std': 116.49141693115234, 'beta_dpo/beta_used_raw': -0.22976088523864746, 'beta_dpo/beta_used': 0.3350660502910614, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40499740839004517, 'logits/rejected': -0.3944457769393921, 'beta_dpo/beta': 0.3350660502910614, 'beta_dpo/loss_margin_mean': 104.02435302734375, 'beta_dpo/beta_margin_mean': 41.42173385620117, 'beta_dpo/beta_margin_std': 72.62975311279297, 'beta_dpo/beta_margin_grad_mean': -0.30638933181762695, 'beta_dpo/beta_margin_grad_std': 0.2916352152824402, 'epoch': 0.57}
+ 57%|████████████████████████████████████████████▏                                 | 386/681 [23:32<12:40,  2.58s/it] 57%|████████████████████████████████████████████▎                                 | 387/681 [23:34<12:38,  2.58s/it]                                                                                                                     {'loss': 0.9943, 'grad_norm': 153.96595764160156, 'learning_rate': 2.3589086689101889e-07, 'beta_dpo/gap_mean': 96.32708740234375, 'beta_dpo/gap_std': 116.07279968261719, 'beta_dpo/beta_used_raw': -0.41031795740127563, 'beta_dpo/beta_used': 0.04211033880710602, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46131113171577454, 'logits/rejected': -0.4227498173713684, 'beta_dpo/beta': 0.04211033880710602, 'beta_dpo/loss_margin_mean': 86.49880981445312, 'beta_dpo/beta_margin_mean': 2.8369340896606445, 'beta_dpo/beta_margin_std': 6.981544017791748, 'beta_dpo/beta_margin_grad_mean': -0.362678587436676, 'beta_dpo/beta_margin_grad_std': 0.2757696211338043, 'epoch': 0.57}
+ 57%|████████████████████████████████████████████▎                                 | 387/681 [23:35<12:38,  2.58s/it] 57%|████████████████████████████████████████████▍                                 | 388/681 [23:37<12:14,  2.51s/it]                                                                                                                     {'loss': 2.9347, 'grad_norm': 1019.3936767578125, 'learning_rate': 2.3460977346651428e-07, 'beta_dpo/gap_mean': 99.73340606689453, 'beta_dpo/gap_std': 122.03709411621094, 'beta_dpo/beta_used_raw': 0.2852635979652405, 'beta_dpo/beta_used': 0.2852635979652405, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34111300110816956, 'logits/rejected': -0.35984545946121216, 'beta_dpo/beta': 0.2852635979652405, 'beta_dpo/loss_margin_mean': 126.48102569580078, 'beta_dpo/beta_margin_mean': 35.86345291137695, 'beta_dpo/beta_margin_std': 41.991371154785156, 'beta_dpo/beta_margin_grad_mean': -0.1428508460521698, 'beta_dpo/beta_margin_grad_std': 0.3305058777332306, 'epoch': 0.57}
+ 57%|████████████████████████████████████████████▍                                 | 388/681 [23:37<12:14,  2.51s/it] 57%|████████████████████████████████████████████▌                                 | 389/681 [23:39<12:06,  2.49s/it]                                                                                                                     {'loss': 1.299, 'grad_norm': 7.796079158782959, 'learning_rate': 2.3332908558879177e-07, 'beta_dpo/gap_mean': 101.11051177978516, 'beta_dpo/gap_std': 122.17589569091797, 'beta_dpo/beta_used_raw': -0.477594792842865, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3674032688140869, 'logits/rejected': -0.33893561363220215, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 102.70687103271484, 'beta_dpo/beta_margin_mean': 0.10270687937736511, 'beta_dpo/beta_margin_std': 0.1187412440776825, 'beta_dpo/beta_margin_grad_mean': -0.4744521677494049, 'beta_dpo/beta_margin_grad_std': 0.029463116079568863, 'epoch': 0.57}
+ 57%|████████████████████████████████████████████▌                                 | 389/681 [23:39<12:06,  2.49s/it] 57%|████████████████████████████████████████████▋                                 | 390/681 [23:42<12:06,  2.50s/it]                                                                                                                     {'loss': 5.2234, 'grad_norm': 6808.29296875, 'learning_rate': 2.320488370051681e-07, 'beta_dpo/gap_mean': 100.94984436035156, 'beta_dpo/gap_std': 128.69989013671875, 'beta_dpo/beta_used_raw': 0.6466106176376343, 'beta_dpo/beta_used': 0.9373176097869873, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38758012652397156, 'logits/rejected': -0.3825533986091614, 'beta_dpo/beta': 0.9373176097869873, 'beta_dpo/loss_margin_mean': 96.0970687866211, 'beta_dpo/beta_margin_mean': 102.44970703125, 'beta_dpo/beta_margin_std': 286.3146667480469, 'beta_dpo/beta_margin_grad_mean': -0.3490453064441681, 'beta_dpo/beta_margin_grad_std': 0.32049307227134705, 'epoch': 0.57}
+ 57%|████████████████████████████████████████████▋                                 | 390/681 [23:42<12:06,  2.50s/it] 57%|████████████████████████████████████████████▊                                 | 391/681 [23:44<12:02,  2.49s/it]                                                                                                                     {'loss': 1.3264, 'grad_norm': 7.870649814605713, 'learning_rate': 2.3076906145138405e-07, 'beta_dpo/gap_mean': 95.19480895996094, 'beta_dpo/gap_std': 125.16159057617188, 'beta_dpo/beta_used_raw': -1.8503118753433228, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4045184850692749, 'logits/rejected': -0.40096336603164673, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 70.15617370605469, 'beta_dpo/beta_margin_mean': 0.07015617936849594, 'beta_dpo/beta_margin_std': 0.1320018768310547, 'beta_dpo/beta_margin_grad_mean': -0.4825769364833832, 'beta_dpo/beta_margin_grad_std': 0.032539550215005875, 'epoch': 0.57}
+ 57%|████████████████████████████████████████████▊                                 | 391/681 [23:44<12:02,  2.49s/it] 58%|████████████████████████████████████████████▉                                 | 392/681 [23:47<12:14,  2.54s/it]                                                                                                                     {'loss': 1.3047, 'grad_norm': 7.0149126052856445, 'learning_rate': 2.294897926507156e-07, 'beta_dpo/gap_mean': 96.84786987304688, 'beta_dpo/gap_std': 127.46624755859375, 'beta_dpo/beta_used_raw': -0.6004123687744141, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4069562554359436, 'logits/rejected': -0.4070258140563965, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 117.58483123779297, 'beta_dpo/beta_margin_mean': 0.11758483201265335, 'beta_dpo/beta_margin_std': 0.13041386008262634, 'beta_dpo/beta_margin_grad_mean': -0.4708142578601837, 'beta_dpo/beta_margin_grad_std': 0.03216283768415451, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████▉                                 | 392/681 [23:47<12:14,  2.54s/it] 58%|█████████████████████████████████████████████                                 | 393/681 [23:49<12:00,  2.50s/it]                                                                                                                     {'loss': 1.3203, 'grad_norm': 5.620955944061279, 'learning_rate': 2.2821106431308543e-07, 'beta_dpo/gap_mean': 97.63465881347656, 'beta_dpo/gap_std': 131.28060913085938, 'beta_dpo/beta_used_raw': -1.5364588499069214, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.36222386360168457, 'logits/rejected': -0.35495465993881226, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 87.04754638671875, 'beta_dpo/beta_margin_mean': 0.08704755455255508, 'beta_dpo/beta_margin_std': 0.1434432864189148, 'beta_dpo/beta_margin_grad_mean': -0.47842276096343994, 'beta_dpo/beta_margin_grad_std': 0.035466983914375305, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████                                 | 393/681 [23:49<12:00,  2.50s/it] 58%|█████████████████████████████████████████████▏                                | 394/681 [23:52<12:12,  2.55s/it]                                                                                                                     {'loss': 1.311, 'grad_norm': 6.00560998916626, 'learning_rate': 2.2693291013417452e-07, 'beta_dpo/gap_mean': 98.78483581542969, 'beta_dpo/gap_std': 134.528564453125, 'beta_dpo/beta_used_raw': -1.0046627521514893, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38290512561798096, 'logits/rejected': -0.37921932339668274, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 110.56187438964844, 'beta_dpo/beta_margin_mean': 0.11056187748908997, 'beta_dpo/beta_margin_std': 0.1556539684534073, 'beta_dpo/beta_margin_grad_mean': -0.47261518239974976, 'beta_dpo/beta_margin_grad_std': 0.03843296319246292, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████▏                                | 394/681 [23:52<12:12,  2.55s/it] 58%|█████████████████████████████████████████████▏                                | 395/681 [23:55<12:21,  2.59s/it]                                                                                                                     {'loss': 4.0929, 'grad_norm': 1960.75048828125, 'learning_rate': 2.2565536379453404e-07, 'beta_dpo/gap_mean': 101.26589965820312, 'beta_dpo/gap_std': 135.43722534179688, 'beta_dpo/beta_used_raw': -0.2869706153869629, 'beta_dpo/beta_used': 0.2388431876897812, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41427770256996155, 'logits/rejected': -0.4001610577106476, 'beta_dpo/beta': 0.2388431876897812, 'beta_dpo/loss_margin_mean': 112.6613540649414, 'beta_dpo/beta_margin_mean': 26.790372848510742, 'beta_dpo/beta_margin_std': 53.6635856628418, 'beta_dpo/beta_margin_grad_mean': -0.36290186643600464, 'beta_dpo/beta_margin_grad_std': 0.3192496597766876, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████▏                                | 395/681 [23:55<12:21,  2.59s/it] 58%|█████████████████████████████████████████████▎                                | 396/681 [23:57<12:24,  2.61s/it]                                                                                                                     {'loss': 0.7611, 'grad_norm': 261.0092468261719, 'learning_rate': 2.2437845895869825e-07, 'beta_dpo/gap_mean': 100.85454559326172, 'beta_dpo/gap_std': 133.6050262451172, 'beta_dpo/beta_used_raw': -0.8138464689254761, 'beta_dpo/beta_used': 0.04714573919773102, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45682457089424133, 'logits/rejected': -0.4294641613960266, 'beta_dpo/beta': 0.04714573919773102, 'beta_dpo/loss_margin_mean': 92.83641815185547, 'beta_dpo/beta_margin_mean': 4.048221588134766, 'beta_dpo/beta_margin_std': 9.408126831054688, 'beta_dpo/beta_margin_grad_mean': -0.32316020131111145, 'beta_dpo/beta_margin_grad_std': 0.29187336564064026, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████▎                                | 396/681 [23:57<12:24,  2.61s/it] 58%|█████████████████████████████████████████████▍                                | 397/681 [24:00<12:12,  2.58s/it]                                                                                                                     {'loss': 1.2987, 'grad_norm': 9.609397888183594, 'learning_rate': 2.2310222927429716e-07, 'beta_dpo/gap_mean': 104.96504211425781, 'beta_dpo/gap_std': 135.63267517089844, 'beta_dpo/beta_used_raw': -0.7097823619842529, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37662869691848755, 'logits/rejected': -0.3610289692878723, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 134.23080444335938, 'beta_dpo/beta_margin_mean': 0.1342308074235916, 'beta_dpo/beta_margin_std': 0.14559264481067657, 'beta_dpo/beta_margin_grad_mean': -0.4667245149612427, 'beta_dpo/beta_margin_grad_std': 0.03587669879198074, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████▍                                | 397/681 [24:00<12:12,  2.58s/it] 58%|█████████████████████████████████████████████▌                                | 398/681 [24:02<11:48,  2.50s/it]                                                                                                                     {'loss': 1.3013, 'grad_norm': 7.986485481262207, 'learning_rate': 2.2182670837116972e-07, 'beta_dpo/gap_mean': 108.35206604003906, 'beta_dpo/gap_std': 138.2628631591797, 'beta_dpo/beta_used_raw': -0.9772100448608398, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4529736638069153, 'logits/rejected': -0.4409021735191345, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 118.11903381347656, 'beta_dpo/beta_margin_mean': 0.11811903864145279, 'beta_dpo/beta_margin_std': 0.14565932750701904, 'beta_dpo/beta_margin_grad_mean': -0.4707203805446625, 'beta_dpo/beta_margin_grad_std': 0.03591061383485794, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████▌                                | 398/681 [24:02<11:48,  2.50s/it] 59%|█████████████████████████████████████████████▋                                | 399/681 [24:04<11:26,  2.43s/it]                                                                                                                     {'loss': 3.271, 'grad_norm': 1133.5469970703125, 'learning_rate': 2.2055192986047804e-07, 'beta_dpo/gap_mean': 109.07110595703125, 'beta_dpo/gap_std': 139.66268920898438, 'beta_dpo/beta_used_raw': -0.7041253447532654, 'beta_dpo/beta_used': 0.10209912061691284, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3726699948310852, 'logits/rejected': -0.31704509258270264, 'beta_dpo/beta': 0.10209912061691284, 'beta_dpo/loss_margin_mean': 107.10200500488281, 'beta_dpo/beta_margin_mean': 12.228537559509277, 'beta_dpo/beta_margin_std': 24.178831100463867, 'beta_dpo/beta_margin_grad_mean': -0.3368144929409027, 'beta_dpo/beta_margin_grad_std': 0.3037874400615692, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████▋                                | 399/681 [24:04<11:26,  2.43s/it] 59%|█████████████████████████████████████████████▊                                | 400/681 [24:07<11:24,  2.44s/it]                                                                                                                     {'loss': 18.5063, 'grad_norm': 9287.4912109375, 'learning_rate': 2.192779273338215e-07, 'beta_dpo/gap_mean': 115.11041259765625, 'beta_dpo/gap_std': 142.930419921875, 'beta_dpo/beta_used_raw': 1.6487863063812256, 'beta_dpo/beta_used': 1.6487863063812256, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4059417247772217, 'logits/rejected': -0.40355077385902405, 'beta_dpo/beta': 1.6487863063812256, 'beta_dpo/loss_margin_mean': 150.7600555419922, 'beta_dpo/beta_margin_mean': 249.3288116455078, 'beta_dpo/beta_margin_std': 262.01593017578125, 'beta_dpo/beta_margin_grad_mean': -0.1875, 'beta_dpo/beta_margin_grad_std': 0.3903123736381531, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████▊                                | 400/681 [24:07<11:24,  2.44s/it][INFO|trainer.py:4307] 2026-04-17 23:47:39,407 >> 
+***** Running Evaluation *****
+[INFO|trainer.py:4309] 2026-04-17 23:47:39,407 >>   Num examples = 2339
+[INFO|trainer.py:4312] 2026-04-17 23:47:39,407 >>   Batch size = 8
+
+  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A
+  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.65it/s][A
+  4%|███▎                                                                             | 3/73 [00:01<00:26,  2.60it/s][A
+  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.26it/s][A
+  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.11it/s][A
+  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.00it/s][A
+ 10%|███████▊                                                                         | 7/73 [00:03<00:32,  2.06it/s][A
+ 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.92it/s][A
+ 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.87it/s][A
+ 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.84it/s][A
+ 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A
+ 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.80it/s][A
+ 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.84it/s][A
+ 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.80it/s][A
+ 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.82it/s][A
+ 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.74it/s][A
+ 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.73it/s][A
+ 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.72it/s][A
+ 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.70it/s][A
+ 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.69it/s][A
+ 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.69it/s][A
+ 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.68it/s][A
+ 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:29,  1.72it/s][A
+ 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.73it/s][A
+ 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:27,  1.72it/s][A
+ 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.74it/s][A
+ 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.94it/s][A
+ 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.90it/s][A
+ 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:22,  1.92it/s][A
+ 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.93it/s][A
+ 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.85it/s][A
+ 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s][A
+ 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:21,  1.90it/s][A
+ 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.87it/s][A
+ 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.81it/s][A
+ 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.82it/s][A
+ 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s][A
+ 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.87it/s][A
+ 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:19,  1.79it/s][A
+ 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.81it/s][A
+ 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.87it/s][A
+ 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:17,  1.82it/s][A
+ 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s][A
+ 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.84it/s][A
+ 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s][A
+ 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.84it/s][A
+ 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s][A
+ 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:25<00:13,  1.79it/s][A
+ 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.78it/s][A
+ 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.81it/s][A
+ 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.79it/s][A
+ 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.74it/s][A
+ 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s][A
+ 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.81it/s][A
+ 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.80it/s][A
+ 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.84it/s][A
+ 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.77it/s][A
+ 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s][A
+ 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.85it/s][A
+ 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.82it/s][A
+ 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A
+ 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.77it/s][A
+ 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s][A
+ 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.95it/s][A
+ 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.92it/s][A
+ 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.84it/s][A
+ 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.88it/s][A
+ 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.83it/s][A
+ 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s][A
+ 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A
+ 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.80it/s][A
+ 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.80it/s][A
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A                                                                                                                     
+                                                                                                                     [A{'eval_loss': 0.7606868147850037, 'eval_runtime': 40.2132, 'eval_samples_per_second': 58.165, 'eval_steps_per_second': 1.84, 'eval_beta_dpo/beta': 0.0093453424051404, 'eval_beta_dpo/loss_margin_mean': 66.89200592041016, 'eval_beta_dpo/beta_margin_mean': 1.0762052536010742, 'eval_beta_dpo/beta_margin_std': 1.4304980039596558, 'eval_beta_dpo/beta_margin_grad_mean': -0.4752621054649353, 'eval_beta_dpo/beta_margin_grad_std': 0.04468919709324837, 'eval_beta_dpo/gap_mean': 116.2162094116211, 'eval_beta_dpo/gap_std': 143.88238525390625, 'eval_beta_dpo/beta_used_raw': -2.859452724456787, 'eval_beta_dpo/beta_used': 0.0093453424051404, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.4157075881958008, 'eval_logits/rejected': -0.39382484555244446, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████▊                                | 400/681 [24:47<11:24,  2.44s/it]
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A
+                                                                                                                     [A[INFO|trainer.py:3984] 2026-04-17 23:48:34,546 >> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400
+[INFO|configuration_utils.py:419] 2026-04-17 23:48:34,554 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400/config.json
+[INFO|configuration_utils.py:911] 2026-04-17 23:48:34,560 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400/generation_config.json
+[INFO|modeling_utils.py:3580] 2026-04-17 23:49:23,208 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400/model.safetensors.index.json.
+[INFO|tokenization_utils_base.py:2510] 2026-04-17 23:49:23,279 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400/tokenizer_config.json
+[INFO|tokenization_utils_base.py:2519] 2026-04-17 23:49:23,338 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400/special_tokens_map.json
+ 59%|████████████████████████████████████████████▏                              | 401/681 [29:39<7:53:02, 101.36s/it]                                                                                                                     {'loss': 1.303, 'grad_norm': 6.7877278327941895, 'learning_rate': 2.1800473436235136e-07, 'beta_dpo/gap_mean': 113.66698455810547, 'beta_dpo/gap_std': 148.7388916015625, 'beta_dpo/beta_used_raw': -1.313326358795166, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35054802894592285, 'logits/rejected': -0.3441402316093445, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 94.4480209350586, 'beta_dpo/beta_margin_mean': 0.094448022544384, 'beta_dpo/beta_margin_std': 0.17364467680454254, 'beta_dpo/beta_margin_grad_mean': -0.4766118824481964, 'beta_dpo/beta_margin_grad_std': 0.042866192758083344, 'epoch': 0.59}
+ 59%|████████████████████████████████████████████▏                              | 401/681 [29:39<7:53:02, 101.36s/it] 59%|████████████████████████████████████████████▊                               | 402/681 [29:41<5:33:04, 71.63s/it]                                                                                                                     {'loss': 5.1878, 'grad_norm': 2755.770263671875, 'learning_rate': 2.1673238449588665e-07, 'beta_dpo/gap_mean': 119.07506561279297, 'beta_dpo/gap_std': 149.63043212890625, 'beta_dpo/beta_used_raw': 0.6786636710166931, 'beta_dpo/beta_used': 0.6786636710166931, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3783169388771057, 'logits/rejected': -0.3567967414855957, 'beta_dpo/beta': 0.6786636710166931, 'beta_dpo/loss_margin_mean': 158.593994140625, 'beta_dpo/beta_margin_mean': 108.07469177246094, 'beta_dpo/beta_margin_std': 99.87371826171875, 'beta_dpo/beta_margin_grad_mean': -0.10659972578287125, 'beta_dpo/beta_margin_grad_std': 0.3003370761871338, 'epoch': 0.59}
+ 59%|████████████████████████████████████████████▊                               | 402/681 [29:41<5:33:04, 71.63s/it] 59%|████████████████████████████████████████████▉                               | 403/681 [29:44<3:55:41, 50.87s/it]                                                                                                                     {'loss': 1.2773, 'grad_norm': 6.965160369873047, 'learning_rate': 2.154609112620295e-07, 'beta_dpo/gap_mean': 120.31027221679688, 'beta_dpo/gap_std': 146.5064697265625, 'beta_dpo/beta_used_raw': -0.16943010687828064, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38709545135498047, 'logits/rejected': -0.3838120698928833, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 119.02156829833984, 'beta_dpo/beta_margin_mean': 0.11902157217264175, 'beta_dpo/beta_margin_std': 0.13397535681724548, 'beta_dpo/beta_margin_grad_mean': -0.4704398214817047, 'beta_dpo/beta_margin_grad_std': 0.03317659720778465, 'epoch': 0.59}
+ 59%|████████████████████████████████████████████▉                               | 403/681 [29:44<3:55:41, 50.87s/it] 59%|█████████████████████████████████████████████                               | 404/681 [29:46<2:47:48, 36.35s/it]                                                                                                                     {'loss': 1.2817, 'grad_norm': 7.6397705078125, 'learning_rate': 2.1419034816528218e-07, 'beta_dpo/gap_mean': 120.10807800292969, 'beta_dpo/gap_std': 150.40188598632812, 'beta_dpo/beta_used_raw': -0.3914072513580322, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32211601734161377, 'logits/rejected': -0.3063517212867737, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 116.9678955078125, 'beta_dpo/beta_margin_mean': 0.11696790158748627, 'beta_dpo/beta_margin_std': 0.16781915724277496, 'beta_dpo/beta_margin_grad_mean': -0.4710405468940735, 'beta_dpo/beta_margin_grad_std': 0.04145493730902672, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████                               | 404/681 [29:46<2:47:48, 36.35s/it] 59%|█████████████████████████████████████████████▏                              | 405/681 [29:49<2:00:16, 26.15s/it]                                                                                                                     {'loss': 1.3212, 'grad_norm': 7.145941257476807, 'learning_rate': 2.129207286861638e-07, 'beta_dpo/gap_mean': 115.75703430175781, 'beta_dpo/gap_std': 156.31784057617188, 'beta_dpo/beta_used_raw': -2.5856375694274902, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3783246874809265, 'logits/rejected': -0.35847070813179016, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 101.84107971191406, 'beta_dpo/beta_margin_mean': 0.10184108465909958, 'beta_dpo/beta_margin_std': 0.19063597917556763, 'beta_dpo/beta_margin_grad_mean': -0.4748651087284088, 'beta_dpo/beta_margin_grad_std': 0.0469396598637104, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████▏                              | 405/681 [29:49<2:00:16, 26.15s/it] 60%|█████████████████████████████████████████████▎                              | 406/681 [29:51<1:27:18, 19.05s/it]                                                                                                                     {'loss': 1.2817, 'grad_norm': 7.6379899978637695, 'learning_rate': 2.1165208628032861e-07, 'beta_dpo/gap_mean': 117.24635314941406, 'beta_dpo/gap_std': 158.91787719726562, 'beta_dpo/beta_used_raw': -0.2788747549057007, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3630604147911072, 'logits/rejected': -0.35475897789001465, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 132.46351623535156, 'beta_dpo/beta_margin_mean': 0.13246352970600128, 'beta_dpo/beta_margin_std': 0.16599087417125702, 'beta_dpo/beta_margin_grad_mean': -0.46724018454551697, 'beta_dpo/beta_margin_grad_std': 0.04072672128677368, 'epoch': 0.6}
+ 60%|█████████████████████████████████████████████▎                              | 406/681 [29:51<1:27:18, 19.05s/it] 60%|█████████████████████████████████████████████▍                              | 407/681 [29:54<1:04:22, 14.10s/it]                                                                                                                     {'loss': 10.9265, 'grad_norm': 4827.95361328125, 'learning_rate': 2.1038445437768375e-07, 'beta_dpo/gap_mean': 115.60337829589844, 'beta_dpo/gap_std': 158.64419555664062, 'beta_dpo/beta_used_raw': -0.8416473865509033, 'beta_dpo/beta_used': 0.9161151051521301, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.377028226852417, 'logits/rejected': -0.3416253924369812, 'beta_dpo/beta': 0.9161151051521301, 'beta_dpo/loss_margin_mean': 100.3062515258789, 'beta_dpo/beta_margin_mean': 123.79098510742188, 'beta_dpo/beta_margin_std': 235.88023376464844, 'beta_dpo/beta_margin_grad_mean': -0.3084886372089386, 'beta_dpo/beta_margin_grad_std': 0.2934010624885559, 'epoch': 0.6}
+ 60%|█████████████████████████████████████████████▍                              | 407/681 [29:54<1:04:22, 14.10s/it] 60%|██████████████████████████████████████████████▋                               | 408/681 [29:57<48:52, 10.74s/it]                                                                                                                     {'loss': 1.3143, 'grad_norm': 7.195991516113281, 'learning_rate': 2.0911786638150872e-07, 'beta_dpo/gap_mean': 111.73031616210938, 'beta_dpo/gap_std': 154.44381713867188, 'beta_dpo/beta_used_raw': -2.016765594482422, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40478670597076416, 'logits/rejected': -0.37068575620651245, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 79.95922088623047, 'beta_dpo/beta_margin_mean': 0.07995922118425369, 'beta_dpo/beta_margin_std': 0.13016226887702942, 'beta_dpo/beta_margin_grad_mean': -0.4801346957683563, 'beta_dpo/beta_margin_grad_std': 0.03229653090238571, 'epoch': 0.6}
+ 60%|██████████████████████████████████████████████▋                               | 408/681 [29:57<48:52, 10.74s/it] 60%|██████████████████████████████████████████████▊                               | 409/681 [29:59<37:42,  8.32s/it]                                                                                                                     {'loss': 1.3136, 'grad_norm': 7.589075565338135, 'learning_rate': 2.0785235566757517e-07, 'beta_dpo/gap_mean': 109.16544342041016, 'beta_dpo/gap_std': 155.03025817871094, 'beta_dpo/beta_used_raw': -1.8204164505004883, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34394949674606323, 'logits/rejected': -0.3319231867790222, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 111.70116424560547, 'beta_dpo/beta_margin_mean': 0.11170117557048798, 'beta_dpo/beta_margin_std': 0.15871573984622955, 'beta_dpo/beta_margin_grad_mean': -0.4723385274410248, 'beta_dpo/beta_margin_grad_std': 0.03917807340621948, 'epoch': 0.6}
+ 60%|██████████████████████████████████████████████▊                               | 409/681 [29:59<37:42,  8.32s/it] 60%|██████████████████████████████████████████████▉                               | 410/681 [30:02<29:45,  6.59s/it]                                                                                                                     {'loss': 1.3845, 'grad_norm': 1850.3192138671875, 'learning_rate': 2.065879555832674e-07, 'beta_dpo/gap_mean': 112.37252044677734, 'beta_dpo/gap_std': 154.6945343017578, 'beta_dpo/beta_used_raw': -0.16834038496017456, 'beta_dpo/beta_used': 0.5207417011260986, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3558204472064972, 'logits/rejected': -0.34983137249946594, 'beta_dpo/beta': 0.5207417011260986, 'beta_dpo/loss_margin_mean': 121.03668975830078, 'beta_dpo/beta_margin_mean': 55.4542121887207, 'beta_dpo/beta_margin_std': 125.90103912353516, 'beta_dpo/beta_margin_grad_mean': -0.3113498389720917, 'beta_dpo/beta_margin_grad_std': 0.3010904788970947, 'epoch': 0.6}
+ 60%|██████████████████████████████████████████████▉                               | 410/681 [30:02<29:45,  6.59s/it] 60%|███████████████████████████████████████████████                               | 411/681 [30:04<23:44,  5.28s/it]                                                                                                                     {'loss': 1.3083, 'grad_norm': 10.161256790161133, 'learning_rate': 2.0532469944670343e-07, 'beta_dpo/gap_mean': 113.07457733154297, 'beta_dpo/gap_std': 160.96011352539062, 'beta_dpo/beta_used_raw': -1.678023338317871, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.293745219707489, 'logits/rejected': -0.2922123670578003, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 106.50434112548828, 'beta_dpo/beta_margin_mean': 0.10650434345006943, 'beta_dpo/beta_margin_std': 0.19019237160682678, 'beta_dpo/beta_margin_grad_mean': -0.4737773537635803, 'beta_dpo/beta_margin_grad_std': 0.046403612941503525, 'epoch': 0.6}
+ 60%|███████████████████████████████████████████████                               | 411/681 [30:04<23:44,  5.28s/it] 60%|███████████████████████████████████████████████▏                              | 412/681 [30:06<19:40,  4.39s/it]                                                                                                                     {'loss': 1.3101, 'grad_norm': 7.504628658294678, 'learning_rate': 2.0406262054585738e-07, 'beta_dpo/gap_mean': 111.26490783691406, 'beta_dpo/gap_std': 163.46185302734375, 'beta_dpo/beta_used_raw': -1.7123887538909912, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3158118724822998, 'logits/rejected': -0.32687675952911377, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 115.88773345947266, 'beta_dpo/beta_margin_mean': 0.11588773876428604, 'beta_dpo/beta_margin_std': 0.17700567841529846, 'beta_dpo/beta_margin_grad_mean': -0.4713696539402008, 'beta_dpo/beta_margin_grad_std': 0.04353627562522888, 'epoch': 0.6}
+ 60%|███████████████████████████████████████████████▏                              | 412/681 [30:06<19:40,  4.39s/it] 61%|███████████████████████████████████████████████▎                              | 413/681 [30:09<17:20,  3.88s/it]                                                                                                                     {'loss': 1.2993, 'grad_norm': 10.111505508422852, 'learning_rate': 2.0280175213768205e-07, 'beta_dpo/gap_mean': 110.88575744628906, 'beta_dpo/gap_std': 163.36767578125, 'beta_dpo/beta_used_raw': -0.9482701420783997, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33399781584739685, 'logits/rejected': -0.3200353980064392, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 115.44949340820312, 'beta_dpo/beta_margin_mean': 0.11544950306415558, 'beta_dpo/beta_margin_std': 0.16624687612056732, 'beta_dpo/beta_margin_grad_mean': -0.4713848829269409, 'beta_dpo/beta_margin_grad_std': 0.04106110334396362, 'epoch': 0.61}
+ 61%|███████████████████████████████████████████████▎                              | 413/681 [30:09<17:20,  3.88s/it] 61%|███████████████████████████████████████████████▍                              | 414/681 [30:11<15:27,  3.47s/it]                                                                                                                     {'loss': 18.094, 'grad_norm': 10158.8984375, 'learning_rate': 2.0154212744723247e-07, 'beta_dpo/gap_mean': 114.5771484375, 'beta_dpo/gap_std': 164.32669067382812, 'beta_dpo/beta_used_raw': 0.5759499669075012, 'beta_dpo/beta_used': 1.1125692129135132, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29129675030708313, 'logits/rejected': -0.28304004669189453, 'beta_dpo/beta': 1.1125692129135132, 'beta_dpo/loss_margin_mean': 140.61228942871094, 'beta_dpo/beta_margin_mean': 208.84002685546875, 'beta_dpo/beta_margin_std': 342.9871826171875, 'beta_dpo/beta_margin_grad_mean': -0.3008454442024231, 'beta_dpo/beta_margin_grad_std': 0.29388001561164856, 'epoch': 0.61}
+ 61%|███████████████████████████████████████████████▍                              | 414/681 [30:12<15:27,  3.47s/it] 61%|███████████████████████████████████████████████▌                              | 415/681 [30:14<14:27,  3.26s/it]                                                                                                                     {'loss': 1.3127, 'grad_norm': 7.246009826660156, 'learning_rate': 2.002837796667909e-07, 'beta_dpo/gap_mean': 116.05256652832031, 'beta_dpo/gap_std': 165.4222412109375, 'beta_dpo/beta_used_raw': -2.1535353660583496, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3636121153831482, 'logits/rejected': -0.35459795594215393, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 95.04881286621094, 'beta_dpo/beta_margin_mean': 0.09504882246255875, 'beta_dpo/beta_margin_std': 0.1632952094078064, 'beta_dpo/beta_margin_grad_mean': -0.47645503282546997, 'beta_dpo/beta_margin_grad_std': 0.04023678973317146, 'epoch': 0.61}
+ 61%|███████████████████████████████████████████████▌                              | 415/681 [30:14<14:27,  3.26s/it] 61%|███████████████████████████████████████████████▋                              | 416/681 [30:17<13:25,  3.04s/it]                                                                                                                     {'loss': 7.9484, 'grad_norm': 9633.19921875, 'learning_rate': 1.990267419549914e-07, 'beta_dpo/gap_mean': 118.31330108642578, 'beta_dpo/gap_std': 161.25177001953125, 'beta_dpo/beta_used_raw': 0.8338208198547363, 'beta_dpo/beta_used': 0.8338208198547363, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3395143449306488, 'logits/rejected': -0.32628241181373596, 'beta_dpo/beta': 0.8338208198547363, 'beta_dpo/loss_margin_mean': 147.69627380371094, 'beta_dpo/beta_margin_mean': 129.33334350585938, 'beta_dpo/beta_margin_std': 189.8321990966797, 'beta_dpo/beta_margin_grad_mean': -0.17009158432483673, 'beta_dpo/beta_margin_grad_std': 0.35257911682128906, 'epoch': 0.61}
+ 61%|███████████████████████████████████████████████▋                              | 416/681 [30:17<13:25,  3.04s/it] 61%|███████████████████████████████████████████████▊                              | 417/681 [30:19<12:26,  2.83s/it]                                                                                                                     {'loss': 6.8179, 'grad_norm': 3923.328857421875, 'learning_rate': 1.9777104743594686e-07, 'beta_dpo/gap_mean': 119.18829345703125, 'beta_dpo/gap_std': 156.21324157714844, 'beta_dpo/beta_used_raw': 0.1691010594367981, 'beta_dpo/beta_used': 0.3650580644607544, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.27080368995666504, 'logits/rejected': -0.22706595063209534, 'beta_dpo/beta': 0.3650580644607544, 'beta_dpo/loss_margin_mean': 115.47030639648438, 'beta_dpo/beta_margin_mean': 45.415931701660156, 'beta_dpo/beta_margin_std': 81.82047271728516, 'beta_dpo/beta_margin_grad_mean': -0.3305802643299103, 'beta_dpo/beta_margin_grad_std': 0.3116385340690613, 'epoch': 0.61}
+ 61%|███████████████████████████████████████████████▊                              | 417/681 [30:19<12:26,  2.83s/it] 61%|███████████████████████████████████████████████▉                              | 418/681 [30:22<12:19,  2.81s/it]                                                                                                                     {'loss': 2.2555, 'grad_norm': 956.6565551757812, 'learning_rate': 1.965167291983757e-07, 'beta_dpo/gap_mean': 119.43331909179688, 'beta_dpo/gap_std': 159.44818115234375, 'beta_dpo/beta_used_raw': -0.4067423641681671, 'beta_dpo/beta_used': 0.1472662091255188, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38150128722190857, 'logits/rejected': -0.33936968445777893, 'beta_dpo/beta': 0.1472662091255188, 'beta_dpo/loss_margin_mean': 129.963623046875, 'beta_dpo/beta_margin_mean': 24.18821907043457, 'beta_dpo/beta_margin_std': 42.399009704589844, 'beta_dpo/beta_margin_grad_mean': -0.31466129422187805, 'beta_dpo/beta_margin_grad_std': 0.29242756962776184, 'epoch': 0.61}
+ 61%|███████████████████████████████████████████████▉                              | 418/681 [30:22<12:19,  2.81s/it] 62%|███████████████████████████████████████████████▉                              | 419/681 [30:25<12:03,  2.76s/it]                                                                                                                     {'loss': 1.3448, 'grad_norm': 406.3208312988281, 'learning_rate': 1.9526382029472988e-07, 'beta_dpo/gap_mean': 123.40135192871094, 'beta_dpo/gap_std': 159.61978149414062, 'beta_dpo/beta_used_raw': -0.6058524250984192, 'beta_dpo/beta_used': 0.04090619087219238, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3685181736946106, 'logits/rejected': -0.35807985067367554, 'beta_dpo/beta': 0.04090619087219238, 'beta_dpo/loss_margin_mean': 131.7987060546875, 'beta_dpo/beta_margin_mean': 5.522484302520752, 'beta_dpo/beta_margin_std': 10.368701934814453, 'beta_dpo/beta_margin_grad_mean': -0.3300994336605072, 'beta_dpo/beta_margin_grad_std': 0.2953225076198578, 'epoch': 0.62}
+ 62%|███████████████████████████████████████████████▉                              | 419/681 [30:25<12:03,  2.76s/it] 62%|████████████████████████████████████████████████                              | 420/681 [30:27<11:42,  2.69s/it]                                                                                                                     {'loss': 1.2911, 'grad_norm': 8.381654739379883, 'learning_rate': 1.9401235374032425e-07, 'beta_dpo/gap_mean': 117.49530029296875, 'beta_dpo/gap_std': 161.63946533203125, 'beta_dpo/beta_used_raw': -0.7748525738716125, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34530162811279297, 'logits/rejected': -0.2882389426231384, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 84.27227783203125, 'beta_dpo/beta_margin_mean': 0.08427228033542633, 'beta_dpo/beta_margin_std': 0.17619559168815613, 'beta_dpo/beta_margin_grad_mean': -0.479174941778183, 'beta_dpo/beta_margin_grad_std': 0.043484870344400406, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████                              | 420/681 [30:27<11:42,  2.69s/it] 62%|████████████████████████████████████████████████▏                             | 421/681 [30:30<11:43,  2.70s/it]                                                                                                                     {'loss': 1.2975, 'grad_norm': 6.698497772216797, 'learning_rate': 1.9276236251246653e-07, 'beta_dpo/gap_mean': 111.70301818847656, 'beta_dpo/gap_std': 160.45973205566406, 'beta_dpo/beta_used_raw': -0.9457611441612244, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3635827600955963, 'logits/rejected': -0.3487810492515564, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 89.76795959472656, 'beta_dpo/beta_margin_mean': 0.08976796269416809, 'beta_dpo/beta_margin_std': 0.1381371021270752, 'beta_dpo/beta_margin_grad_mean': -0.4776723086833954, 'beta_dpo/beta_margin_grad_std': 0.03428473323583603, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████▏                             | 421/681 [30:30<11:43,  2.70s/it] 62%|████████████████████████████████████████████████▎                             | 422/681 [30:33<11:48,  2.74s/it]                                                                                                                     {'loss': 1.3, 'grad_norm': 7.295708179473877, 'learning_rate': 1.9151387954958792e-07, 'beta_dpo/gap_mean': 108.79386901855469, 'beta_dpo/gap_std': 155.77139282226562, 'beta_dpo/beta_used_raw': -0.9157909154891968, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.323574960231781, 'logits/rejected': -0.3058650493621826, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 94.8263168334961, 'beta_dpo/beta_margin_mean': 0.09482631832361221, 'beta_dpo/beta_margin_std': 0.14304772019386292, 'beta_dpo/beta_margin_grad_mean': -0.476465106010437, 'beta_dpo/beta_margin_grad_std': 0.03539099171757698, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████▎                             | 422/681 [30:33<11:48,  2.74s/it] 62%|████████████████████████████████████████████████▍                             | 423/681 [30:35<11:17,  2.63s/it]                                                                                                                     {'loss': 5.8705, 'grad_norm': 2952.7294921875, 'learning_rate': 1.902669377503756e-07, 'beta_dpo/gap_mean': 111.04264831542969, 'beta_dpo/gap_std': 153.08340454101562, 'beta_dpo/beta_used_raw': 0.5498670339584351, 'beta_dpo/beta_used': 0.5498670339584351, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29522740840911865, 'logits/rejected': -0.2932446002960205, 'beta_dpo/beta': 0.5498670339584351, 'beta_dpo/loss_margin_mean': 124.84105682373047, 'beta_dpo/beta_margin_mean': 67.63153839111328, 'beta_dpo/beta_margin_std': 82.61705017089844, 'beta_dpo/beta_margin_grad_mean': -0.19201448559761047, 'beta_dpo/beta_margin_grad_std': 0.38938337564468384, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████▍                             | 423/681 [30:35<11:17,  2.63s/it] 62%|████████████████████████████████████████████████▌                             | 424/681 [30:38<11:17,  2.64s/it]                                                                                                                     {'loss': 0.9681, 'grad_norm': 137.83319091796875, 'learning_rate': 1.890215699729057e-07, 'beta_dpo/gap_mean': 112.22328186035156, 'beta_dpo/gap_std': 152.5062255859375, 'beta_dpo/beta_used_raw': -1.4149752855300903, 'beta_dpo/beta_used': 0.027477234601974487, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3986721932888031, 'logits/rejected': -0.3727181553840637, 'beta_dpo/beta': 0.027477234601974487, 'beta_dpo/loss_margin_mean': 109.46617126464844, 'beta_dpo/beta_margin_mean': 3.6695759296417236, 'beta_dpo/beta_margin_std': 6.411843299865723, 'beta_dpo/beta_margin_grad_mean': -0.31576114892959595, 'beta_dpo/beta_margin_grad_std': 0.28133726119995117, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████▌                             | 424/681 [30:38<11:17,  2.64s/it] 62%|████████████████████████████████████████████████▋                             | 425/681 [30:40<11:05,  2.60s/it]                                                                                                                     {'loss': 6.1878, 'grad_norm': 6124.79150390625, 'learning_rate': 1.8777780903377732e-07, 'beta_dpo/gap_mean': 109.38998413085938, 'beta_dpo/gap_std': 150.577880859375, 'beta_dpo/beta_used_raw': 0.4376869797706604, 'beta_dpo/beta_used': 0.5835731625556946, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3280683159828186, 'logits/rejected': -0.32920628786087036, 'beta_dpo/beta': 0.5835731625556946, 'beta_dpo/loss_margin_mean': 106.90679168701172, 'beta_dpo/beta_margin_mean': 72.92134857177734, 'beta_dpo/beta_margin_std': 129.18519592285156, 'beta_dpo/beta_margin_grad_mean': -0.3327001929283142, 'beta_dpo/beta_margin_grad_std': 0.312762588262558, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████▋                             | 425/681 [30:40<11:05,  2.60s/it] 63%|████████████████████████████████████████████████▊                             | 426/681 [30:43<11:09,  2.63s/it]                                                                                                                     {'loss': 8.4638, 'grad_norm': 5486.13525390625, 'learning_rate': 1.8653568770724803e-07, 'beta_dpo/gap_mean': 111.31645965576172, 'beta_dpo/gap_std': 149.850341796875, 'beta_dpo/beta_used_raw': -0.7809062600135803, 'beta_dpo/beta_used': 0.8895680904388428, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37183499336242676, 'logits/rejected': -0.31186115741729736, 'beta_dpo/beta': 0.8895680904388428, 'beta_dpo/loss_margin_mean': 127.76013946533203, 'beta_dpo/beta_margin_mean': 142.06744384765625, 'beta_dpo/beta_margin_std': 253.59666442871094, 'beta_dpo/beta_margin_grad_mean': -0.30061760544776917, 'beta_dpo/beta_margin_grad_std': 0.29346781969070435, 'epoch': 0.63}
+ 63%|████████████████████████████████████████████████▊                             | 426/681 [30:43<11:09,  2.63s/it] 63%|████████████████████████████████████████████████▉                             | 427/681 [30:45<11:05,  2.62s/it]                                                                                                                     {'loss': 1.306, 'grad_norm': 6.825258731842041, 'learning_rate': 1.8529523872436977e-07, 'beta_dpo/gap_mean': 109.63316345214844, 'beta_dpo/gap_std': 148.7486572265625, 'beta_dpo/beta_used_raw': -1.4412474632263184, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3810279965400696, 'logits/rejected': -0.35081952810287476, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 81.17052459716797, 'beta_dpo/beta_margin_mean': 0.08117052912712097, 'beta_dpo/beta_margin_std': 0.13242076337337494, 'beta_dpo/beta_margin_grad_mean': -0.4798411726951599, 'beta_dpo/beta_margin_grad_std': 0.03274958208203316, 'epoch': 0.63}
+ 63%|████████████████████████████████████████████████▉                             | 427/681 [30:45<11:05,  2.62s/it] 63%|█████████████████████████████████████████████████                             | 428/681 [30:48<11:12,  2.66s/it]                                                                                                                     {'loss': 3.3058, 'grad_norm': 3710.728271484375, 'learning_rate': 1.8405649477212697e-07, 'beta_dpo/gap_mean': 109.1749267578125, 'beta_dpo/gap_std': 149.90882873535156, 'beta_dpo/beta_used_raw': -0.37105491757392883, 'beta_dpo/beta_used': 0.41161054372787476, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37873727083206177, 'logits/rejected': -0.37077072262763977, 'beta_dpo/beta': 0.41161054372787476, 'beta_dpo/loss_margin_mean': 120.1363296508789, 'beta_dpo/beta_margin_mean': 47.70144271850586, 'beta_dpo/beta_margin_std': 109.32994842529297, 'beta_dpo/beta_margin_grad_mean': -0.32943397760391235, 'beta_dpo/beta_margin_grad_std': 0.30981266498565674, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████                             | 428/681 [30:48<11:12,  2.66s/it] 63%|█████████████████████████████████████████████████▏                            | 429/681 [30:51<11:14,  2.68s/it]                                                                                                                     {'loss': 7.8201, 'grad_norm': 3259.48974609375, 'learning_rate': 1.828194884925749e-07, 'beta_dpo/gap_mean': 107.56082916259766, 'beta_dpo/gap_std': 150.14230346679688, 'beta_dpo/beta_used_raw': 0.4344549775123596, 'beta_dpo/beta_used': 0.4344549775123596, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38967394828796387, 'logits/rejected': -0.33787745237350464, 'beta_dpo/beta': 0.4344549775123596, 'beta_dpo/loss_margin_mean': 103.24775695800781, 'beta_dpo/beta_margin_mean': 48.72703552246094, 'beta_dpo/beta_margin_std': 64.88159942626953, 'beta_dpo/beta_margin_grad_mean': -0.2335137575864792, 'beta_dpo/beta_margin_grad_std': 0.4133719801902771, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████▏                            | 429/681 [30:51<11:14,  2.68s/it] 63%|█████████████████████████████████████████████████▎                            | 430/681 [30:54<11:43,  2.80s/it]                                                                                                                     {'loss': 1.3051, 'grad_norm': 7.614285945892334, 'learning_rate': 1.8158425248197928e-07, 'beta_dpo/gap_mean': 109.13970947265625, 'beta_dpo/gap_std': 147.79107666015625, 'beta_dpo/beta_used_raw': -1.2862778902053833, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4028991460800171, 'logits/rejected': -0.40245670080184937, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 112.42671203613281, 'beta_dpo/beta_margin_mean': 0.11242672055959702, 'beta_dpo/beta_margin_std': 0.14071322977542877, 'beta_dpo/beta_margin_grad_mean': -0.4721178114414215, 'beta_dpo/beta_margin_grad_std': 0.03465087339282036, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████▎                            | 430/681 [30:54<11:43,  2.80s/it] 63%|█████████████████████████████████████████████████▎                            | 431/681 [30:57<11:33,  2.77s/it]                                                                                                                     {'loss': 1.2936, 'grad_norm': 6.900725841522217, 'learning_rate': 1.8035081928995788e-07, 'beta_dpo/gap_mean': 113.27009582519531, 'beta_dpo/gap_std': 150.56829833984375, 'beta_dpo/beta_used_raw': -0.7770711183547974, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33334821462631226, 'logits/rejected': -0.32843929529190063, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 130.09228515625, 'beta_dpo/beta_margin_mean': 0.1300922930240631, 'beta_dpo/beta_margin_std': 0.15987038612365723, 'beta_dpo/beta_margin_grad_mean': -0.4677823781967163, 'beta_dpo/beta_margin_grad_std': 0.03935808688402176, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████▎                            | 431/681 [30:57<11:33,  2.77s/it] 63%|█████████████████████████████████████████████████▍                            | 432/681 [30:59<11:29,  2.77s/it]                                                                                                                     {'loss': 2.6038, 'grad_norm': 871.7344970703125, 'learning_rate': 1.791192214186223e-07, 'beta_dpo/gap_mean': 113.14790344238281, 'beta_dpo/gap_std': 143.69342041015625, 'beta_dpo/beta_used_raw': -0.6099668145179749, 'beta_dpo/beta_used': 0.10785573720932007, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4066033363342285, 'logits/rejected': -0.37539827823638916, 'beta_dpo/beta': 0.10785573720932007, 'beta_dpo/loss_margin_mean': 124.32618713378906, 'beta_dpo/beta_margin_mean': 17.94474220275879, 'beta_dpo/beta_margin_std': 30.068361282348633, 'beta_dpo/beta_margin_grad_mean': -0.31203174591064453, 'beta_dpo/beta_margin_grad_std': 0.2826971411705017, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████▍                            | 432/681 [30:59<11:29,  2.77s/it] 64%|█████████████████████████████████████████████████▌                            | 433/681 [31:02<11:11,  2.71s/it]                                                                                                                     {'loss': 0.6547, 'grad_norm': 21.230777740478516, 'learning_rate': 1.7788949132172193e-07, 'beta_dpo/gap_mean': 112.42630767822266, 'beta_dpo/gap_std': 144.95359802246094, 'beta_dpo/beta_used_raw': -0.3640483319759369, 'beta_dpo/beta_used': 0.2765732407569885, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.358863890171051, 'logits/rejected': -0.34688135981559753, 'beta_dpo/beta': 0.2765732407569885, 'beta_dpo/loss_margin_mean': 93.55750274658203, 'beta_dpo/beta_margin_mean': 27.676023483276367, 'beta_dpo/beta_margin_std': 58.62560272216797, 'beta_dpo/beta_margin_grad_mean': -0.31871679425239563, 'beta_dpo/beta_margin_grad_std': 0.3027940094470978, 'epoch': 0.64}
+ 64%|█████████████████████████████████████████████████▌                            | 433/681 [31:02<11:11,  2.71s/it] 64%|█████████████████████████████████████████████████▋                            | 434/681 [31:05<10:59,  2.67s/it]                                                                                                                     {'loss': 1.3143, 'grad_norm': 6.974902629852295, 'learning_rate': 1.7666166140378853e-07, 'beta_dpo/gap_mean': 108.65299987792969, 'beta_dpo/gap_std': 142.203125, 'beta_dpo/beta_used_raw': -1.8638619184494019, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39474016427993774, 'logits/rejected': -0.36454617977142334, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.80241394042969, 'beta_dpo/beta_margin_mean': 0.0868024155497551, 'beta_dpo/beta_margin_std': 0.12513087689876556, 'beta_dpo/beta_margin_grad_mean': -0.47845569252967834, 'beta_dpo/beta_margin_grad_std': 0.030826503410935402, 'epoch': 0.64}
+ 64%|█████████████████████████████████████████████████▋                            | 434/681 [31:05<10:59,  2.67s/it] 64%|█████████████████████████████████████████████████▊                            | 435/681 [31:07<10:25,  2.54s/it]                                                                                                                     {'loss': 2.6214, 'grad_norm': 1543.473388671875, 'learning_rate': 1.7543576401928218e-07, 'beta_dpo/gap_mean': 108.19963073730469, 'beta_dpo/gap_std': 141.86123657226562, 'beta_dpo/beta_used_raw': 0.4795774221420288, 'beta_dpo/beta_used': 0.4795774221420288, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3778401017189026, 'logits/rejected': -0.35977697372436523, 'beta_dpo/beta': 0.4795774221420288, 'beta_dpo/loss_margin_mean': 114.60810089111328, 'beta_dpo/beta_margin_mean': 54.45040512084961, 'beta_dpo/beta_margin_std': 62.09480285644531, 'beta_dpo/beta_margin_grad_mean': -0.12648658454418182, 'beta_dpo/beta_margin_grad_std': 0.3134034276008606, 'epoch': 0.64}
+ 64%|█████████████████████████████████████████████████▊                            | 435/681 [31:07<10:25,  2.54s/it] 64%|█████████████████████████████████████████████████▉                            | 436/681 [31:09<10:28,  2.56s/it]                                                                                                                     {'loss': 1.3673, 'grad_norm': 229.00344848632812, 'learning_rate': 1.742118314717391e-07, 'beta_dpo/gap_mean': 106.91453552246094, 'beta_dpo/gap_std': 138.24383544921875, 'beta_dpo/beta_used_raw': -1.441216230392456, 'beta_dpo/beta_used': 0.055185671895742416, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40563905239105225, 'logits/rejected': -0.3649734854698181, 'beta_dpo/beta': 0.055185671895742416, 'beta_dpo/loss_margin_mean': 96.44285583496094, 'beta_dpo/beta_margin_mean': 5.6773810386657715, 'beta_dpo/beta_margin_std': 10.930699348449707, 'beta_dpo/beta_margin_grad_mean': -0.30519527196884155, 'beta_dpo/beta_margin_grad_std': 0.2901572585105896, 'epoch': 0.64}
+ 64%|█████████████████████████████████████████████████▉                            | 436/681 [31:09<10:28,  2.56s/it] 64%|██████████████████████████████████████████████████                            | 437/681 [31:12<10:37,  2.61s/it]                                                                                                                     {'loss': 5.1701, 'grad_norm': 1593.89501953125, 'learning_rate': 1.7298989601292036e-07, 'beta_dpo/gap_mean': 104.29106140136719, 'beta_dpo/gap_std': 136.22210693359375, 'beta_dpo/beta_used_raw': -0.26632630825042725, 'beta_dpo/beta_used': 0.44650039076805115, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3833288848400116, 'logits/rejected': -0.3413906693458557, 'beta_dpo/beta': 0.44650039076805115, 'beta_dpo/loss_margin_mean': 96.21728515625, 'beta_dpo/beta_margin_mean': 45.99268341064453, 'beta_dpo/beta_margin_std': 82.80380249023438, 'beta_dpo/beta_margin_grad_mean': -0.31715255975723267, 'beta_dpo/beta_margin_grad_std': 0.30363377928733826, 'epoch': 0.64}
+ 64%|██████████████████████████████████████████████████                            | 437/681 [31:12<10:37,  2.61s/it] 64%|██████████████████████████████████████████████████▏                           | 438/681 [31:15<10:17,  2.54s/it]                                                                                                                     {'loss': 8.9122, 'grad_norm': 7641.5771484375, 'learning_rate': 1.7176998984196144e-07, 'beta_dpo/gap_mean': 107.95907592773438, 'beta_dpo/gap_std': 133.67709350585938, 'beta_dpo/beta_used_raw': 1.1907906532287598, 'beta_dpo/beta_used': 1.1907906532287598, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37084126472473145, 'logits/rejected': -0.3320963382720947, 'beta_dpo/beta': 1.1907906532287598, 'beta_dpo/loss_margin_mean': 126.7836685180664, 'beta_dpo/beta_margin_mean': 154.26736450195312, 'beta_dpo/beta_margin_std': 161.1520538330078, 'beta_dpo/beta_margin_grad_mean': -0.1750006526708603, 'beta_dpo/beta_margin_grad_std': 0.37429773807525635, 'epoch': 0.64}
+ 64%|██████████████████████████████████████████████████▏                           | 438/681 [31:15<10:17,  2.54s/it] 64%|██████████████████████████████████████████████████▎                           | 439/681 [31:17<10:06,  2.51s/it]                                                                                                                     {'loss': 1.4163, 'grad_norm': 512.3974609375, 'learning_rate': 1.7055214510452458e-07, 'beta_dpo/gap_mean': 107.83575439453125, 'beta_dpo/gap_std': 133.11056518554688, 'beta_dpo/beta_used_raw': -1.7231221199035645, 'beta_dpo/beta_used': 0.07319752871990204, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40375328063964844, 'logits/rejected': -0.4028066396713257, 'beta_dpo/beta': 0.07319752871990204, 'beta_dpo/loss_margin_mean': 90.30883026123047, 'beta_dpo/beta_margin_mean': 9.903467178344727, 'beta_dpo/beta_margin_std': 17.277389526367188, 'beta_dpo/beta_margin_grad_mean': -0.32128748297691345, 'beta_dpo/beta_margin_grad_std': 0.2859705984592438, 'epoch': 0.64}
+ 64%|██████████████████████████████████████████████████▎                           | 439/681 [31:17<10:06,  2.51s/it] 65%|██████████████████████████████████████████████████▍                           | 440/681 [31:19<09:55,  2.47s/it]                                                                                                                     {'loss': 1.3123, 'grad_norm': 11.201451301574707, 'learning_rate': 1.6933639389195134e-07, 'beta_dpo/gap_mean': 100.31968688964844, 'beta_dpo/gap_std': 130.88662719726562, 'beta_dpo/beta_used_raw': -1.205794334411621, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48015761375427246, 'logits/rejected': -0.44124317169189453, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 76.77810668945312, 'beta_dpo/beta_margin_mean': 0.0767781138420105, 'beta_dpo/beta_margin_std': 0.1251077651977539, 'beta_dpo/beta_margin_grad_mean': -0.4809180796146393, 'beta_dpo/beta_margin_grad_std': 0.031033983454108238, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████▍                           | 440/681 [31:19<09:55,  2.47s/it] 65%|██████████████████████████████████████████████████▌                           | 441/681 [31:22<10:28,  2.62s/it]                                                                                                                     {'loss': 1.3149, 'grad_norm': 12.307683944702148, 'learning_rate': 1.681227682404166e-07, 'beta_dpo/gap_mean': 99.0499267578125, 'beta_dpo/gap_std': 131.88418579101562, 'beta_dpo/beta_used_raw': -1.326048493385315, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4150615930557251, 'logits/rejected': -0.4018522799015045, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 98.94155883789062, 'beta_dpo/beta_margin_mean': 0.09894155710935593, 'beta_dpo/beta_margin_std': 0.1482171267271042, 'beta_dpo/beta_margin_grad_mean': -0.4754822850227356, 'beta_dpo/beta_margin_grad_std': 0.036441490054130554, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████▌                           | 441/681 [31:22<10:28,  2.62s/it] 65%|██████████████████████████████████████████████████▋                           | 442/681 [31:25<10:21,  2.60s/it]                                                                                                                     {'loss': 1.2978, 'grad_norm': 920.883056640625, 'learning_rate': 1.669113001300851e-07, 'beta_dpo/gap_mean': 101.88089752197266, 'beta_dpo/gap_std': 133.10354614257812, 'beta_dpo/beta_used_raw': -0.9432244896888733, 'beta_dpo/beta_used': 0.19351361691951752, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42568036913871765, 'logits/rejected': -0.4096643924713135, 'beta_dpo/beta': 0.19351361691951752, 'beta_dpo/loss_margin_mean': 124.86181640625, 'beta_dpo/beta_margin_mean': 28.820743560791016, 'beta_dpo/beta_margin_std': 45.040016174316406, 'beta_dpo/beta_margin_grad_mean': -0.2922385334968567, 'beta_dpo/beta_margin_grad_std': 0.2803710997104645, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████▋                           | 442/681 [31:25<10:21,  2.60s/it] 65%|██████████████████████████████████████████████████▋                           | 443/681 [31:28<10:23,  2.62s/it]                                                                                                                     {'loss': 1.3075, 'grad_norm': 8.173919677734375, 'learning_rate': 1.6570202148426815e-07, 'beta_dpo/gap_mean': 100.70872497558594, 'beta_dpo/gap_std': 131.86151123046875, 'beta_dpo/beta_used_raw': -0.9595794677734375, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4086863398551941, 'logits/rejected': -0.38320356607437134, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 73.91852569580078, 'beta_dpo/beta_margin_mean': 0.07391852885484695, 'beta_dpo/beta_margin_std': 0.12798674404621124, 'beta_dpo/beta_margin_grad_mean': -0.48161694407463074, 'beta_dpo/beta_margin_grad_std': 0.03176787868142128, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████▋                           | 443/681 [31:28<10:23,  2.62s/it] 65%|██████████████████████████████████████████████████▊                           | 444/681 [31:30<10:19,  2.61s/it]                                                                                                                     {'loss': 2.6417, 'grad_norm': 1877.506103515625, 'learning_rate': 1.6449496416858282e-07, 'beta_dpo/gap_mean': 102.39837646484375, 'beta_dpo/gap_std': 133.09300231933594, 'beta_dpo/beta_used_raw': -0.6297559142112732, 'beta_dpo/beta_used': 0.13834300637245178, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38396507501602173, 'logits/rejected': -0.3728168308734894, 'beta_dpo/beta': 0.13834300637245178, 'beta_dpo/loss_margin_mean': 126.64820861816406, 'beta_dpo/beta_margin_mean': 17.195384979248047, 'beta_dpo/beta_margin_std': 30.380125045776367, 'beta_dpo/beta_margin_grad_mean': -0.29932746291160583, 'beta_dpo/beta_margin_grad_std': 0.28772518038749695, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████▊                           | 444/681 [31:30<10:19,  2.61s/it] 65%|██████████████████████████████████████████████████▉                           | 445/681 [31:33<10:14,  2.60s/it]                                                                                                                     {'loss': 1.3019, 'grad_norm': 15.09030818939209, 'learning_rate': 1.6329015999011182e-07, 'beta_dpo/gap_mean': 103.6148681640625, 'beta_dpo/gap_std': 134.420654296875, 'beta_dpo/beta_used_raw': -0.7490635514259338, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4086730480194092, 'logits/rejected': -0.3865576982498169, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 102.85830688476562, 'beta_dpo/beta_margin_mean': 0.10285831242799759, 'beta_dpo/beta_margin_std': 0.14040379226207733, 'beta_dpo/beta_margin_grad_mean': -0.4744797348976135, 'beta_dpo/beta_margin_grad_std': 0.03470303490757942, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████▉                           | 445/681 [31:33<10:14,  2.60s/it] 65%|███████████████████████████████████████████████████                           | 446/681 [31:35<10:13,  2.61s/it]                                                                                                                     {'loss': 1.0661, 'grad_norm': 680.3995971679688, 'learning_rate': 1.6208764069656578e-07, 'beta_dpo/gap_mean': 104.75509643554688, 'beta_dpo/gap_std': 132.56423950195312, 'beta_dpo/beta_used_raw': -0.14518234133720398, 'beta_dpo/beta_used': 0.28921666741371155, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42230162024497986, 'logits/rejected': -0.42033088207244873, 'beta_dpo/beta': 0.28921666741371155, 'beta_dpo/loss_margin_mean': 121.7738265991211, 'beta_dpo/beta_margin_mean': 44.87013626098633, 'beta_dpo/beta_margin_std': 70.5100326538086, 'beta_dpo/beta_margin_grad_mean': -0.27025842666625977, 'beta_dpo/beta_margin_grad_std': 0.26976633071899414, 'epoch': 0.65}
+ 65%|███████████████████████████████████████████████████                           | 446/681 [31:35<10:13,  2.61s/it] 66%|███████████████████████████████████████████████████▏                          | 447/681 [31:38<09:51,  2.53s/it]                                                                                                                     {'loss': 1.2871, 'grad_norm': 12.893980026245117, 'learning_rate': 1.608874379754465e-07, 'beta_dpo/gap_mean': 110.31854248046875, 'beta_dpo/gap_std': 135.51388549804688, 'beta_dpo/beta_used_raw': -0.2607978880405426, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4422151446342468, 'logits/rejected': -0.45059633255004883, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 122.02387237548828, 'beta_dpo/beta_margin_mean': 0.12202388048171997, 'beta_dpo/beta_margin_std': 0.14478100836277008, 'beta_dpo/beta_margin_grad_mean': -0.4698044955730438, 'beta_dpo/beta_margin_grad_std': 0.03518033027648926, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████▏                          | 447/681 [31:38<09:51,  2.53s/it] 66%|███████████████████████████████████████████████████▎                          | 448/681 [31:40<09:52,  2.54s/it]                                                                                                                     {'loss': 0.6614, 'grad_norm': 4.838625907897949, 'learning_rate': 1.5968958345321177e-07, 'beta_dpo/gap_mean': 111.61314392089844, 'beta_dpo/gap_std': 135.30453491210938, 'beta_dpo/beta_used_raw': -0.4037218689918518, 'beta_dpo/beta_used': 0.8242188692092896, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3758270740509033, 'logits/rejected': -0.3679637312889099, 'beta_dpo/beta': 0.8242188692092896, 'beta_dpo/loss_margin_mean': 128.5632781982422, 'beta_dpo/beta_margin_mean': 125.9197998046875, 'beta_dpo/beta_margin_std': 187.5569305419922, 'beta_dpo/beta_margin_grad_mean': -0.2527080774307251, 'beta_dpo/beta_margin_grad_std': 0.254643052816391, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████▎                          | 448/681 [31:40<09:52,  2.54s/it] 66%|███████████████████████████████████████████████████▍                          | 449/681 [31:43<09:45,  2.53s/it]                                                                                                                     {'loss': 1.2892, 'grad_norm': 8.870427131652832, 'learning_rate': 1.584941086944423e-07, 'beta_dpo/gap_mean': 113.01295471191406, 'beta_dpo/gap_std': 139.9627685546875, 'beta_dpo/beta_used_raw': -0.4290629029273987, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4272603690624237, 'logits/rejected': -0.40170085430145264, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 108.83658599853516, 'beta_dpo/beta_margin_mean': 0.1088365912437439, 'beta_dpo/beta_margin_std': 0.17029906809329987, 'beta_dpo/beta_margin_grad_mean': -0.4730731248855591, 'beta_dpo/beta_margin_grad_std': 0.04196110740303993, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████▍                          | 449/681 [31:43<09:45,  2.53s/it] 66%|███████████████████████████████████████████████████▌                          | 450/681 [31:45<09:42,  2.52s/it]                                                                                                                     {'loss': 1.2847, 'grad_norm': 9.47729206085205, 'learning_rate': 1.573010452010098e-07, 'beta_dpo/gap_mean': 113.51698303222656, 'beta_dpo/gap_std': 141.5602264404297, 'beta_dpo/beta_used_raw': -0.313100129365921, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3865205645561218, 'logits/rejected': -0.38359227776527405, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 121.2069091796875, 'beta_dpo/beta_margin_mean': 0.12120691686868668, 'beta_dpo/beta_margin_std': 0.13755354285240173, 'beta_dpo/beta_margin_grad_mean': -0.46986889839172363, 'beta_dpo/beta_margin_grad_std': 0.0339692123234272, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████▌                          | 450/681 [31:45<09:42,  2.52s/it] 66%|███████████████████████████████████████████████████▋                          | 451/681 [31:47<09:19,  2.43s/it]                                                                                                                     {'loss': 7.5031, 'grad_norm': 3518.580078125, 'learning_rate': 1.5611042441124687e-07, 'beta_dpo/gap_mean': 110.95838928222656, 'beta_dpo/gap_std': 140.57334899902344, 'beta_dpo/beta_used_raw': -0.24944308400154114, 'beta_dpo/beta_used': 0.3940798044204712, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3372274339199066, 'logits/rejected': -0.3046179413795471, 'beta_dpo/beta': 0.3940798044204712, 'beta_dpo/loss_margin_mean': 94.27608489990234, 'beta_dpo/beta_margin_mean': 42.9352912902832, 'beta_dpo/beta_margin_std': 87.50625610351562, 'beta_dpo/beta_margin_grad_mean': -0.33411669731140137, 'beta_dpo/beta_margin_grad_std': 0.31294018030166626, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████▋                          | 451/681 [31:48<09:19,  2.43s/it] 66%|███████████████████████████████████████████████████▊                          | 452/681 [31:50<09:26,  2.47s/it]                                                                                                                     {'loss': 12.507, 'grad_norm': 4123.4677734375, 'learning_rate': 1.549222776991186e-07, 'beta_dpo/gap_mean': 111.77011108398438, 'beta_dpo/gap_std': 139.58013916015625, 'beta_dpo/beta_used_raw': 0.7567883729934692, 'beta_dpo/beta_used': 0.7567883729934692, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3441423773765564, 'logits/rejected': -0.35753265023231506, 'beta_dpo/beta': 0.7567883729934692, 'beta_dpo/loss_margin_mean': 117.5452651977539, 'beta_dpo/beta_margin_mean': 89.04338073730469, 'beta_dpo/beta_margin_std': 102.09488677978516, 'beta_dpo/beta_margin_grad_mean': -0.17167411744594574, 'beta_dpo/beta_margin_grad_std': 0.37626853585243225, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████▊                          | 452/681 [31:50<09:26,  2.47s/it] 67%|███████████████████████████████████████████████████▉                          | 453/681 [31:52<09:19,  2.46s/it]                                                                                                                     {'loss': 1.2991, 'grad_norm': 8.228669166564941, 'learning_rate': 1.5373663637339584e-07, 'beta_dpo/gap_mean': 111.07215881347656, 'beta_dpo/gap_std': 140.66952514648438, 'beta_dpo/beta_used_raw': -1.122417688369751, 'beta_dpo/beta_used': 0.0010159736266359687, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4157373905181885, 'logits/rejected': -0.38169363141059875, 'beta_dpo/beta': 0.0010159736266359687, 'beta_dpo/loss_margin_mean': 99.66301727294922, 'beta_dpo/beta_margin_mean': 0.10151873528957367, 'beta_dpo/beta_margin_std': 0.14481480419635773, 'beta_dpo/beta_margin_grad_mean': -0.47485530376434326, 'beta_dpo/beta_margin_grad_std': 0.03558202460408211, 'epoch': 0.67}
+ 67%|███████████████████████████████████████████████████▉                          | 453/681 [31:53<09:19,  2.46s/it] 67%|████████████████████████████████████████████████████                          | 454/681 [31:55<09:29,  2.51s/it]                                                                                                                     {'loss': 1.2903, 'grad_norm': 7.617781162261963, 'learning_rate': 1.5255353167683017e-07, 'beta_dpo/gap_mean': 112.77023315429688, 'beta_dpo/gap_std': 141.88412475585938, 'beta_dpo/beta_used_raw': -0.6103986501693726, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3238060176372528, 'logits/rejected': -0.2969810962677002, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 128.04446411132812, 'beta_dpo/beta_margin_mean': 0.1280444711446762, 'beta_dpo/beta_margin_std': 0.15373089909553528, 'beta_dpo/beta_margin_grad_mean': -0.46827903389930725, 'beta_dpo/beta_margin_grad_std': 0.03779821842908859, 'epoch': 0.67}
+ 67%|████████████████████████████████████████████████████                          | 454/681 [31:55<09:29,  2.51s/it] 67%|████████████████████████████████████████████████████                          | 455/681 [31:58<09:27,  2.51s/it]                                                                                                                     {'loss': 0.7604, 'grad_norm': 257.9051208496094, 'learning_rate': 1.5137299478533064e-07, 'beta_dpo/gap_mean': 119.1419677734375, 'beta_dpo/gap_std': 145.837158203125, 'beta_dpo/beta_used_raw': 0.23084740340709686, 'beta_dpo/beta_used': 0.23283345997333527, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3444521725177765, 'logits/rejected': -0.35367467999458313, 'beta_dpo/beta': 0.23283345997333527, 'beta_dpo/loss_margin_mean': 164.03538513183594, 'beta_dpo/beta_margin_mean': 31.724552154541016, 'beta_dpo/beta_margin_std': 55.67319107055664, 'beta_dpo/beta_margin_grad_mean': -0.27318888902664185, 'beta_dpo/beta_margin_grad_std': 0.2729749083518982, 'epoch': 0.67}
+ 67%|████████████████████████████████████████████████████                          | 455/681 [31:58<09:27,  2.51s/it] 67%|████████████████████████████████████████████████████▏                         | 456/681 [32:00<09:34,  2.55s/it]                                                                                                                     {'loss': 0.9313, 'grad_norm': 182.11668395996094, 'learning_rate': 1.5019505680714232e-07, 'beta_dpo/gap_mean': 127.31085205078125, 'beta_dpo/gap_std': 151.3060302734375, 'beta_dpo/beta_used_raw': -0.5959498286247253, 'beta_dpo/beta_used': 0.028770416975021362, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.36195001006126404, 'logits/rejected': -0.3621336817741394, 'beta_dpo/beta': 0.028770416975021362, 'beta_dpo/loss_margin_mean': 154.75982666015625, 'beta_dpo/beta_margin_mean': 4.620020866394043, 'beta_dpo/beta_margin_std': 7.49506950378418, 'beta_dpo/beta_margin_grad_mean': -0.30041444301605225, 'beta_dpo/beta_margin_grad_std': 0.25256428122520447, 'epoch': 0.67}
+ 67%|████████████████████████████████████████████████████▏                         | 456/681 [32:00<09:34,  2.55s/it] 67%|████████████████████████████████████████████████████▎                         | 457/681 [32:03<09:33,  2.56s/it]                                                                                                                     {'loss': 1.9311, 'grad_norm': 2250.94482421875, 'learning_rate': 1.4901974878202627e-07, 'beta_dpo/gap_mean': 128.869873046875, 'beta_dpo/gap_std': 148.14273071289062, 'beta_dpo/beta_used_raw': 0.25765174627304077, 'beta_dpo/beta_used': 0.9050564765930176, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35765865445137024, 'logits/rejected': -0.3306649625301361, 'beta_dpo/beta': 0.9050564765930176, 'beta_dpo/loss_margin_mean': 125.5430908203125, 'beta_dpo/beta_margin_mean': 119.8252182006836, 'beta_dpo/beta_margin_std': 193.12596130371094, 'beta_dpo/beta_margin_grad_mean': -0.3133964538574219, 'beta_dpo/beta_margin_grad_std': 0.30206099152565, 'epoch': 0.67}
+ 67%|████████████████████████████████████████████████████▎                         | 457/681 [32:03<09:33,  2.56s/it] 67%|████████████████████████████████████████████████████▍                         | 458/681 [32:05<09:20,  2.51s/it]                                                                                                                     {'loss': 1.2669, 'grad_norm': 7.672088146209717, 'learning_rate': 1.4784710168044212e-07, 'beta_dpo/gap_mean': 133.1038818359375, 'beta_dpo/gap_std': 151.08180236816406, 'beta_dpo/beta_used_raw': -0.31320202350616455, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3376292586326599, 'logits/rejected': -0.31968408823013306, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 156.4623565673828, 'beta_dpo/beta_margin_mean': 0.15646237134933472, 'beta_dpo/beta_margin_std': 0.1608007401227951, 'beta_dpo/beta_margin_grad_mean': -0.46133655309677124, 'beta_dpo/beta_margin_grad_std': 0.03900197148323059, 'epoch': 0.67}
+ 67%|████████████████████████████████████████████████████▍                         | 458/681 [32:05<09:20,  2.51s/it] 67%|████████████████████████████████████████████████████▌                         | 459/681 [32:08<09:24,  2.54s/it]                                                                                                                     {'loss': 1.2765, 'grad_norm': 7.513828754425049, 'learning_rate': 1.466771464027316e-07, 'beta_dpo/gap_mean': 132.22055053710938, 'beta_dpo/gap_std': 149.7262420654297, 'beta_dpo/beta_used_raw': -0.7991423606872559, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3106893301010132, 'logits/rejected': -0.30481159687042236, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 125.19963073730469, 'beta_dpo/beta_margin_mean': 0.12519963085651398, 'beta_dpo/beta_margin_std': 0.14195367693901062, 'beta_dpo/beta_margin_grad_mean': -0.46891355514526367, 'beta_dpo/beta_margin_grad_std': 0.03510946035385132, 'epoch': 0.67}
+ 67%|████████████████████████████████████████████████████▌                         | 459/681 [32:08<09:24,  2.54s/it] 68%|████████████████████████████████████████████████████▋                         | 460/681 [32:11<09:30,  2.58s/it]                                                                                                                     {'loss': 1.2756, 'grad_norm': 9.385546684265137, 'learning_rate': 1.4550991377830423e-07, 'beta_dpo/gap_mean': 132.47604370117188, 'beta_dpo/gap_std': 149.71617126464844, 'beta_dpo/beta_used_raw': -0.736950159072876, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35042130947113037, 'logits/rejected': -0.36293381452560425, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 135.55874633789062, 'beta_dpo/beta_margin_mean': 0.13555875420570374, 'beta_dpo/beta_margin_std': 0.15229398012161255, 'beta_dpo/beta_margin_grad_mean': -0.46639198064804077, 'beta_dpo/beta_margin_grad_std': 0.03753071278333664, 'epoch': 0.68}
+ 68%|████████████████████████████████████████████████████▋                         | 460/681 [32:11<09:30,  2.58s/it] 68%|████████████████████████████████████████████████████▊                         | 461/681 [32:13<09:33,  2.61s/it]                                                                                                                     {'loss': 1.2997, 'grad_norm': 9.00002670288086, 'learning_rate': 1.4434543456482518e-07, 'beta_dpo/gap_mean': 128.8672637939453, 'beta_dpo/gap_std': 150.39163208007812, 'beta_dpo/beta_used_raw': -2.1008927822113037, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3559180200099945, 'logits/rejected': -0.3427043855190277, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 114.12368774414062, 'beta_dpo/beta_margin_mean': 0.11412369459867477, 'beta_dpo/beta_margin_std': 0.15732567012310028, 'beta_dpo/beta_margin_grad_mean': -0.4717380404472351, 'beta_dpo/beta_margin_grad_std': 0.03876164183020592, 'epoch': 0.68}
+ 68%|████████████████████████████████████████████████████▊                         | 461/681 [32:13<09:33,  2.61s/it] 68%|████████████████████████████████████████████████████▉                         | 462/681 [32:16<09:24,  2.58s/it]                                                                                                                     {'loss': 1.3102, 'grad_norm': 9.362037658691406, 'learning_rate': 1.4318373944740484e-07, 'beta_dpo/gap_mean': 123.946533203125, 'beta_dpo/gap_std': 149.71881103515625, 'beta_dpo/beta_used_raw': -2.4599204063415527, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3212631940841675, 'logits/rejected': -0.29980742931365967, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.9663314819336, 'beta_dpo/beta_margin_mean': 0.08696634322404861, 'beta_dpo/beta_margin_std': 0.1362220048904419, 'beta_dpo/beta_margin_grad_mean': -0.4784083962440491, 'beta_dpo/beta_margin_grad_std': 0.03373510017991066, 'epoch': 0.68}
+ 68%|████████████████████████████████████████████████████▉                         | 462/681 [32:16<09:24,  2.58s/it] 68%|█████████████████████████████████████████████████████                         | 463/681 [32:18<09:12,  2.54s/it]                                                                                                                     {'loss': 7.63, 'grad_norm': 3597.947021484375, 'learning_rate': 1.4202485903778976e-07, 'beta_dpo/gap_mean': 119.78553771972656, 'beta_dpo/gap_std': 151.25320434570312, 'beta_dpo/beta_used_raw': -0.2606269419193268, 'beta_dpo/beta_used': 0.2805536985397339, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3247862458229065, 'logits/rejected': -0.3129928708076477, 'beta_dpo/beta': 0.2805536985397339, 'beta_dpo/loss_margin_mean': 117.82292938232422, 'beta_dpo/beta_margin_mean': 38.56230926513672, 'beta_dpo/beta_margin_std': 81.53507232666016, 'beta_dpo/beta_margin_grad_mean': -0.3316049575805664, 'beta_dpo/beta_margin_grad_std': 0.31257641315460205, 'epoch': 0.68}
+ 68%|█████████████████████████████████████████████████████                         | 463/681 [32:18<09:12,  2.54s/it] 68%|█████████████████████████████████████████████████████▏                        | 464/681 [32:20<08:53,  2.46s/it]                                                                                                                     {'loss': 29.0936, 'grad_norm': 10341.1005859375, 'learning_rate': 1.4086882387355658e-07, 'beta_dpo/gap_mean': 131.84754943847656, 'beta_dpo/gap_std': 157.7271728515625, 'beta_dpo/beta_used_raw': 2.1228408813476562, 'beta_dpo/beta_used': 2.1228408813476562, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3156416118144989, 'logits/rejected': -0.3281491696834564, 'beta_dpo/beta': 2.1228408813476562, 'beta_dpo/loss_margin_mean': 192.6825714111328, 'beta_dpo/beta_margin_mean': 394.66033935546875, 'beta_dpo/beta_margin_std': 431.92449951171875, 'beta_dpo/beta_margin_grad_mean': -0.12389523535966873, 'beta_dpo/beta_margin_grad_std': 0.3279002010822296, 'epoch': 0.68}
+ 68%|█████████████████████████████████████████████████████▏                        | 464/681 [32:20<08:53,  2.46s/it] 68%|█████████████████████████████████████████████████████▎                        | 465/681 [32:23<09:09,  2.55s/it]                                                                                                                     {'loss': 8.3958, 'grad_norm': 4897.61328125, 'learning_rate': 1.3971566441730714e-07, 'beta_dpo/gap_mean': 137.17782592773438, 'beta_dpo/gap_std': 158.68795776367188, 'beta_dpo/beta_used_raw': 0.4801773428916931, 'beta_dpo/beta_used': 0.4801773428916931, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.31099051237106323, 'logits/rejected': -0.305058091878891, 'beta_dpo/beta': 0.4801773428916931, 'beta_dpo/loss_margin_mean': 162.17996215820312, 'beta_dpo/beta_margin_mean': 81.35899353027344, 'beta_dpo/beta_margin_std': 94.96959686279297, 'beta_dpo/beta_margin_grad_mean': -0.16912737488746643, 'beta_dpo/beta_margin_grad_std': 0.37140730023384094, 'epoch': 0.68}
+ 68%|█████████████████████████████████████████████████████▎                        | 465/681 [32:23<09:09,  2.55s/it] 68%|█████████████████████████████████████████████████████▎                        | 466/681 [32:26<09:27,  2.64s/it]                                                                                                                     {'loss': 1.2206, 'grad_norm': 1151.1441650390625, 'learning_rate': 1.3856541105586545e-07, 'beta_dpo/gap_mean': 139.38119506835938, 'beta_dpo/gap_std': 160.36859130859375, 'beta_dpo/beta_used_raw': -0.26916056871414185, 'beta_dpo/beta_used': 0.22260768711566925, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3135194778442383, 'logits/rejected': -0.3104793429374695, 'beta_dpo/beta': 0.22260768711566925, 'beta_dpo/loss_margin_mean': 131.21505737304688, 'beta_dpo/beta_margin_mean': 33.30300521850586, 'beta_dpo/beta_margin_std': 57.53418731689453, 'beta_dpo/beta_margin_grad_mean': -0.2829422950744629, 'beta_dpo/beta_margin_grad_std': 0.2813977301120758, 'epoch': 0.68}
+ 68%|█████████████████████████████████████████████████████▎                        | 466/681 [32:26<09:27,  2.64s/it] 69%|█████████████████████████████████████████████████████▍                        | 467/681 [32:29<09:26,  2.65s/it]                                                                                                                     {'loss': 1.292, 'grad_norm': 9.571708679199219, 'learning_rate': 1.3741809409947729e-07, 'beta_dpo/gap_mean': 137.7141571044922, 'beta_dpo/gap_std': 169.05447387695312, 'beta_dpo/beta_used_raw': -1.9833605289459229, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.31644725799560547, 'logits/rejected': -0.29425540566444397, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 125.64309692382812, 'beta_dpo/beta_margin_mean': 0.12564310431480408, 'beta_dpo/beta_margin_std': 0.21079717576503754, 'beta_dpo/beta_margin_grad_mean': -0.4690595865249634, 'beta_dpo/beta_margin_grad_std': 0.05179882049560547, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████▍                        | 467/681 [32:29<09:26,  2.65s/it] 69%|█████████████████████████████████████████████████████▌                        | 468/681 [32:31<09:24,  2.65s/it]                                                                                                                     {'loss': 1.9544, 'grad_norm': 2363.861083984375, 'learning_rate': 1.362737437810114e-07, 'beta_dpo/gap_mean': 136.60678100585938, 'beta_dpo/gap_std': 168.23411560058594, 'beta_dpo/beta_used_raw': 0.5442880988121033, 'beta_dpo/beta_used': 0.5442880988121033, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3771149516105652, 'logits/rejected': -0.3516891598701477, 'beta_dpo/beta': 0.5442880988121033, 'beta_dpo/loss_margin_mean': 139.57421875, 'beta_dpo/beta_margin_mean': 83.84257507324219, 'beta_dpo/beta_margin_std': 139.0602569580078, 'beta_dpo/beta_margin_grad_mean': -0.17244772613048553, 'beta_dpo/beta_margin_grad_std': 0.3269096910953522, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████▌                        | 468/681 [32:31<09:24,  2.65s/it] 69%|█████████████████████████████████████████████████████▋                        | 469/681 [32:34<09:29,  2.69s/it]                                                                                                                     {'loss': 5.6201, 'grad_norm': 4023.0234375, 'learning_rate': 1.351323902551631e-07, 'beta_dpo/gap_mean': 139.35459899902344, 'beta_dpo/gap_std': 167.7623291015625, 'beta_dpo/beta_used_raw': 0.13212749361991882, 'beta_dpo/beta_used': 0.5691275596618652, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3229216933250427, 'logits/rejected': -0.2937919497489929, 'beta_dpo/beta': 0.5691275596618652, 'beta_dpo/loss_margin_mean': 148.57752990722656, 'beta_dpo/beta_margin_mean': 104.36015319824219, 'beta_dpo/beta_margin_std': 166.2760467529297, 'beta_dpo/beta_margin_grad_mean': -0.2979428172111511, 'beta_dpo/beta_margin_grad_std': 0.2913264036178589, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████▋                        | 469/681 [32:34<09:29,  2.69s/it] 69%|█████████████████████████████████████████████████████▊                        | 470/681 [32:37<09:07,  2.60s/it]                                                                                                                     {'loss': 1.8137, 'grad_norm': 635.5731201171875, 'learning_rate': 1.339940635976592e-07, 'beta_dpo/gap_mean': 140.06040954589844, 'beta_dpo/gap_std': 169.35638427734375, 'beta_dpo/beta_used_raw': -0.260947585105896, 'beta_dpo/beta_used': 0.058329131454229355, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2994263470172882, 'logits/rejected': -0.2865986227989197, 'beta_dpo/beta': 0.058329131454229355, 'beta_dpo/loss_margin_mean': 151.863525390625, 'beta_dpo/beta_margin_mean': 8.915841102600098, 'beta_dpo/beta_margin_std': 17.628265380859375, 'beta_dpo/beta_margin_grad_mean': -0.30150657892227173, 'beta_dpo/beta_margin_grad_std': 0.2844862639904022, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████▊                        | 470/681 [32:37<09:07,  2.60s/it] 69%|█████████████████████████████████████████████████████▉                        | 471/681 [32:39<08:50,  2.52s/it]                                                                                                                     {'loss': 1.5718, 'grad_norm': 660.4382934570312, 'learning_rate': 1.3285879380446563e-07, 'beta_dpo/gap_mean': 141.4301300048828, 'beta_dpo/gap_std': 166.99551391601562, 'beta_dpo/beta_used_raw': -1.259301781654358, 'beta_dpo/beta_used': 0.14344525337219238, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3323206603527069, 'logits/rejected': -0.301265686750412, 'beta_dpo/beta': 0.14344525337219238, 'beta_dpo/loss_margin_mean': 137.1492462158203, 'beta_dpo/beta_margin_mean': 23.80760955810547, 'beta_dpo/beta_margin_std': 40.966461181640625, 'beta_dpo/beta_margin_grad_mean': -0.32090723514556885, 'beta_dpo/beta_margin_grad_std': 0.296132355928421, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████▉                        | 471/681 [32:39<08:50,  2.52s/it] 69%|██████████████████████████████████████████████████████                        | 472/681 [32:42<09:08,  2.62s/it]                                                                                                                     {'loss': 1.2787, 'grad_norm': 9.515340805053711, 'learning_rate': 1.317266107909975e-07, 'beta_dpo/gap_mean': 141.42642211914062, 'beta_dpo/gap_std': 171.97683715820312, 'beta_dpo/beta_used_raw': -1.5177662372589111, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46395474672317505, 'logits/rejected': -0.4258913993835449, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 153.0021514892578, 'beta_dpo/beta_margin_mean': 0.15300215780735016, 'beta_dpo/beta_margin_std': 0.2004023641347885, 'beta_dpo/beta_margin_grad_mean': -0.46238476037979126, 'beta_dpo/beta_margin_grad_std': 0.048712510615587234, 'epoch': 0.69}
+ 69%|██████████████████████████████████████████████████████                        | 472/681 [32:42<09:08,  2.62s/it] 69%|██████████████████████████████████████████████████████▏                       | 473/681 [32:44<09:10,  2.65s/it]                                                                                                                     {'loss': 2.9427, 'grad_norm': 874.2503051757812, 'learning_rate': 1.3059754439133002e-07, 'beta_dpo/gap_mean': 136.3826141357422, 'beta_dpo/gap_std': 172.83595275878906, 'beta_dpo/beta_used_raw': -2.1221091747283936, 'beta_dpo/beta_used': 0.12622235715389252, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3121126890182495, 'logits/rejected': -0.27456527948379517, 'beta_dpo/beta': 0.12622235715389252, 'beta_dpo/loss_margin_mean': 98.95618438720703, 'beta_dpo/beta_margin_mean': 11.348122596740723, 'beta_dpo/beta_margin_std': 32.52213668823242, 'beta_dpo/beta_margin_grad_mean': -0.3606536090373993, 'beta_dpo/beta_margin_grad_std': 0.32541587948799133, 'epoch': 0.69}
+ 69%|██████████████████████████████████████████████████████▏                       | 473/681 [32:44<09:10,  2.65s/it] 70%|██████████████████████████████████████████████████████▎                       | 474/681 [32:47<09:14,  2.68s/it]                                                                                                                     {'loss': 1.019, 'grad_norm': 241.4309539794922, 'learning_rate': 1.2947162435741277e-07, 'beta_dpo/gap_mean': 128.73321533203125, 'beta_dpo/gap_std': 170.72265625, 'beta_dpo/beta_used_raw': -1.1924772262573242, 'beta_dpo/beta_used': 0.03025379776954651, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3187577426433563, 'logits/rejected': -0.31267520785331726, 'beta_dpo/beta': 0.03025379776954651, 'beta_dpo/loss_margin_mean': 102.19025421142578, 'beta_dpo/beta_margin_mean': 3.4796054363250732, 'beta_dpo/beta_margin_std': 7.700491428375244, 'beta_dpo/beta_margin_grad_mean': -0.3477736711502075, 'beta_dpo/beta_margin_grad_std': 0.26919984817504883, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████▎                       | 474/681 [32:47<09:14,  2.68s/it] 70%|██████████████████████████████████████████████████████▍                       | 475/681 [32:50<08:58,  2.62s/it]                                                                                                                     {'loss': 1.2878, 'grad_norm': 7.302783966064453, 'learning_rate': 1.2834888035828596e-07, 'beta_dpo/gap_mean': 130.75253295898438, 'beta_dpo/gap_std': 168.95263671875, 'beta_dpo/beta_used_raw': -1.4561372995376587, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3118668496608734, 'logits/rejected': -0.32232552766799927, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 145.15594482421875, 'beta_dpo/beta_margin_mean': 0.14515595138072968, 'beta_dpo/beta_margin_std': 0.1593308448791504, 'beta_dpo/beta_margin_grad_mean': -0.4640824496746063, 'beta_dpo/beta_margin_grad_std': 0.03909669071435928, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████▍                       | 475/681 [32:50<08:58,  2.62s/it] 70%|██████████████████████████████████████████████████████▌                       | 476/681 [32:52<08:52,  2.60s/it]                                                                                                                     {'loss': 1.2757, 'grad_norm': 10.900651931762695, 'learning_rate': 1.2722934197929802e-07, 'beta_dpo/gap_mean': 130.04847717285156, 'beta_dpo/gap_std': 165.11314392089844, 'beta_dpo/beta_used_raw': -0.6184031367301941, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32981306314468384, 'logits/rejected': -0.3277033567428589, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 123.46017456054688, 'beta_dpo/beta_margin_mean': 0.12346017360687256, 'beta_dpo/beta_margin_std': 0.13980108499526978, 'beta_dpo/beta_margin_grad_mean': -0.4693569839000702, 'beta_dpo/beta_margin_grad_std': 0.03457416966557503, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████▌                       | 476/681 [32:52<08:52,  2.60s/it] 70%|██████████████████████████████████████████████████████▋                       | 477/681 [32:55<08:47,  2.59s/it]                                                                                                                     {'loss': 1.9278, 'grad_norm': 881.2789306640625, 'learning_rate': 1.2611303872132631e-07, 'beta_dpo/gap_mean': 129.47628784179688, 'beta_dpo/gap_std': 165.23104858398438, 'beta_dpo/beta_used_raw': -0.9268441200256348, 'beta_dpo/beta_used': 0.08377163857221603, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34101468324661255, 'logits/rejected': -0.27440470457077026, 'beta_dpo/beta': 0.08377163857221603, 'beta_dpo/loss_margin_mean': 131.6189727783203, 'beta_dpo/beta_margin_mean': 9.991097450256348, 'beta_dpo/beta_margin_std': 23.768993377685547, 'beta_dpo/beta_margin_grad_mean': -0.3329217731952667, 'beta_dpo/beta_margin_grad_std': 0.2996887266635895, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████▋                       | 477/681 [32:55<08:47,  2.59s/it] 70%|██████████████████████████████████████████████████████▋                       | 478/681 [32:58<09:10,  2.71s/it]                                                                                                                     {'loss': 1.2777, 'grad_norm': 8.391778945922852, 'learning_rate': 1.2500000000000005e-07, 'beta_dpo/gap_mean': 131.2724609375, 'beta_dpo/gap_std': 162.33258056640625, 'beta_dpo/beta_used_raw': -0.9066869616508484, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3239785432815552, 'logits/rejected': -0.3198069930076599, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 147.8665771484375, 'beta_dpo/beta_margin_mean': 0.14786657691001892, 'beta_dpo/beta_margin_std': 0.16245287656784058, 'beta_dpo/beta_margin_grad_mean': -0.46343475580215454, 'beta_dpo/beta_margin_grad_std': 0.039767127484083176, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████▋                       | 478/681 [32:58<09:10,  2.71s/it] 70%|██████████████████████████████████████████████████████▊                       | 479/681 [33:00<08:59,  2.67s/it]                                                                                                                     {'loss': 1.2909, 'grad_norm': 9.221752166748047, 'learning_rate': 1.2389025514492456e-07, 'beta_dpo/gap_mean': 130.87498474121094, 'beta_dpo/gap_std': 161.7484893798828, 'beta_dpo/beta_used_raw': -1.6241159439086914, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3099960684776306, 'logits/rejected': -0.3118622601032257, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 130.71371459960938, 'beta_dpo/beta_margin_mean': 0.13071373105049133, 'beta_dpo/beta_margin_std': 0.16454558074474335, 'beta_dpo/beta_margin_grad_mean': -0.4676341712474823, 'beta_dpo/beta_margin_grad_std': 0.04058250039815903, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████▊                       | 479/681 [33:00<08:59,  2.67s/it] 70%|██████████████████████████████████████████████████████▉                       | 480/681 [33:03<08:48,  2.63s/it]                                                                                                                     {'loss': 4.3921, 'grad_norm': 1865.645751953125, 'learning_rate': 1.227838333989088e-07, 'beta_dpo/gap_mean': 128.6205596923828, 'beta_dpo/gap_std': 162.02749633789062, 'beta_dpo/beta_used_raw': -1.191691517829895, 'beta_dpo/beta_used': 0.13506542146205902, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2958667278289795, 'logits/rejected': -0.261913537979126, 'beta_dpo/beta': 0.13506542146205902, 'beta_dpo/loss_margin_mean': 111.26964569091797, 'beta_dpo/beta_margin_mean': 20.978227615356445, 'beta_dpo/beta_margin_std': 46.153724670410156, 'beta_dpo/beta_margin_grad_mean': -0.3352108895778656, 'beta_dpo/beta_margin_grad_std': 0.31329280138015747, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████▉                       | 480/681 [33:03<08:48,  2.63s/it] 71%|███████████████████████████████████████████████████████                       | 481/681 [33:05<08:37,  2.59s/it]                                                                                                                     {'loss': 10.966, 'grad_norm': 6225.22705078125, 'learning_rate': 1.2168076391719489e-07, 'beta_dpo/gap_mean': 132.35614013671875, 'beta_dpo/gap_std': 165.59747314453125, 'beta_dpo/beta_used_raw': -0.41111305356025696, 'beta_dpo/beta_used': 0.4420124888420105, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29309454560279846, 'logits/rejected': -0.2821449935436249, 'beta_dpo/beta': 0.4420124888420105, 'beta_dpo/loss_margin_mean': 140.51625061035156, 'beta_dpo/beta_margin_mean': 69.89620208740234, 'beta_dpo/beta_margin_std': 127.26205444335938, 'beta_dpo/beta_margin_grad_mean': -0.32656970620155334, 'beta_dpo/beta_margin_grad_std': 0.3070107102394104, 'epoch': 0.71}
+ 71%|███████████████████████████████████████████████████████                       | 481/681 [33:05<08:37,  2.59s/it] 71%|███████████████████████████████████████████████████████▏                      | 482/681 [33:08<08:40,  2.61s/it]                                                                                                                     {'loss': 1.2958, 'grad_norm': 7.6943440437316895, 'learning_rate': 1.2058107576668938e-07, 'beta_dpo/gap_mean': 127.62977600097656, 'beta_dpo/gap_std': 167.57472229003906, 'beta_dpo/beta_used_raw': -1.7888857126235962, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33630889654159546, 'logits/rejected': -0.3210619390010834, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 99.38764190673828, 'beta_dpo/beta_margin_mean': 0.09938764572143555, 'beta_dpo/beta_margin_std': 0.172020822763443, 'beta_dpo/beta_margin_grad_mean': -0.47538548707962036, 'beta_dpo/beta_margin_grad_std': 0.0424528568983078, 'epoch': 0.71}
+ 71%|███████████████████████████████████████████████████████▏                      | 482/681 [33:08<08:40,  2.61s/it] 71%|███████████████████████████████████████████████████████▎                      | 483/681 [33:11<08:31,  2.58s/it]                                                                                                                     {'loss': 1.3205, 'grad_norm': 1278.6922607421875, 'learning_rate': 1.194847979251979e-07, 'beta_dpo/gap_mean': 130.0849151611328, 'beta_dpo/gap_std': 171.31443786621094, 'beta_dpo/beta_used_raw': 0.08599334955215454, 'beta_dpo/beta_used': 0.26435208320617676, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3326480984687805, 'logits/rejected': -0.2999170124530792, 'beta_dpo/beta': 0.26435208320617676, 'beta_dpo/loss_margin_mean': 154.75323486328125, 'beta_dpo/beta_margin_mean': 39.302825927734375, 'beta_dpo/beta_margin_std': 61.75477981567383, 'beta_dpo/beta_margin_grad_mean': -0.2773337662220001, 'beta_dpo/beta_margin_grad_std': 0.2783583700656891, 'epoch': 0.71}
+ 71%|███████████████████████████████████████████████████████▎                      | 483/681 [33:11<08:31,  2.58s/it] 71%|███████████████████████████████████████████████████████▍                      | 484/681 [33:13<08:12,  2.50s/it]                                                                                                                     {'loss': 1.2859, 'grad_norm': 10.355823516845703, 'learning_rate': 1.1839195928066101e-07, 'beta_dpo/gap_mean': 129.75552368164062, 'beta_dpo/gap_std': 164.25143432617188, 'beta_dpo/beta_used_raw': -1.3041430711746216, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3226221203804016, 'logits/rejected': -0.2984588146209717, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 130.5736541748047, 'beta_dpo/beta_margin_mean': 0.13057366013526917, 'beta_dpo/beta_margin_std': 0.1456281840801239, 'beta_dpo/beta_margin_grad_mean': -0.46763938665390015, 'beta_dpo/beta_margin_grad_std': 0.035770609974861145, 'epoch': 0.71}
+ 71%|███████████████████████████████████████████████████████▍                      | 484/681 [33:13<08:12,  2.50s/it] 71%|███████████████████████████████████████████████████████▌                      | 485/681 [33:15<08:10,  2.50s/it]                                                                                                                     {'loss': 17.9925, 'grad_norm': 9029.59765625, 'learning_rate': 1.1730258863039347e-07, 'beta_dpo/gap_mean': 135.1558837890625, 'beta_dpo/gap_std': 167.03604125976562, 'beta_dpo/beta_used_raw': 0.09787964820861816, 'beta_dpo/beta_used': 0.5772560238838196, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3165690302848816, 'logits/rejected': -0.30851900577545166, 'beta_dpo/beta': 0.5772560238838196, 'beta_dpo/loss_margin_mean': 159.67459106445312, 'beta_dpo/beta_margin_mean': 89.47730255126953, 'beta_dpo/beta_margin_std': 172.3997344970703, 'beta_dpo/beta_margin_grad_mean': -0.33905330300331116, 'beta_dpo/beta_margin_grad_std': 0.3175105154514313, 'epoch': 0.71}
+ 71%|███████████████████████████████████████████████████████▌                      | 485/681 [33:15<08:10,  2.50s/it] 71%|███████████████████████████████████████████████████████▋                      | 486/681 [33:17<07:42,  2.37s/it]                                                                                                                     {'loss': 24.9742, 'grad_norm': 8708.306640625, 'learning_rate': 1.1621671468032493e-07, 'beta_dpo/gap_mean': 137.73037719726562, 'beta_dpo/gap_std': 171.21456909179688, 'beta_dpo/beta_used_raw': 0.35201627016067505, 'beta_dpo/beta_used': 0.5253121852874756, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3039623498916626, 'logits/rejected': -0.28515172004699707, 'beta_dpo/beta': 0.5253121852874756, 'beta_dpo/loss_margin_mean': 145.63682556152344, 'beta_dpo/beta_margin_mean': 79.52362823486328, 'beta_dpo/beta_margin_std': 165.96304321289062, 'beta_dpo/beta_margin_grad_mean': -0.3582148551940918, 'beta_dpo/beta_margin_grad_std': 0.32531389594078064, 'epoch': 0.71}
+ 71%|███████████████████████████████████████████████████████▋                      | 486/681 [33:17<07:42,  2.37s/it] 72%|███████████████████████████████████████████████████████▊                      | 487/681 [33:20<07:54,  2.45s/it]                                                                                                                     {'loss': 7.4951, 'grad_norm': 4539.7001953125, 'learning_rate': 1.1513436604424378e-07, 'beta_dpo/gap_mean': 138.84857177734375, 'beta_dpo/gap_std': 166.0025634765625, 'beta_dpo/beta_used_raw': 0.6316623091697693, 'beta_dpo/beta_used': 0.6316623091697693, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3175516128540039, 'logits/rejected': -0.30147281289100647, 'beta_dpo/beta': 0.6316623091697693, 'beta_dpo/loss_margin_mean': 136.31451416015625, 'beta_dpo/beta_margin_mean': 86.09791564941406, 'beta_dpo/beta_margin_std': 80.9069595336914, 'beta_dpo/beta_margin_grad_mean': -0.15689758956432343, 'beta_dpo/beta_margin_grad_std': 0.36151018738746643, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████▊                      | 487/681 [33:20<07:54,  2.45s/it] 72%|███████████████████████████████████████████████████████▉                      | 488/681 [33:23<08:02,  2.50s/it]                                                                                                                     {'loss': 1.2797, 'grad_norm': 10.171424865722656, 'learning_rate': 1.1405557124304335e-07, 'beta_dpo/gap_mean': 134.59036254882812, 'beta_dpo/gap_std': 155.66152954101562, 'beta_dpo/beta_used_raw': -1.245683193206787, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3197871446609497, 'logits/rejected': -0.2931329607963562, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 118.42108917236328, 'beta_dpo/beta_margin_mean': 0.11842110008001328, 'beta_dpo/beta_margin_std': 0.10160267353057861, 'beta_dpo/beta_margin_grad_mean': -0.4705146551132202, 'beta_dpo/beta_margin_grad_std': 0.025216443464159966, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████▉                      | 488/681 [33:23<08:02,  2.50s/it] 72%|████████████████████████████████████████████████████████                      | 489/681 [33:25<07:58,  2.49s/it]                                                                                                                     {'loss': 1.3069, 'grad_norm': 7.416528701782227, 'learning_rate': 1.1298035870396985e-07, 'beta_dpo/gap_mean': 132.25436401367188, 'beta_dpo/gap_std': 150.97909545898438, 'beta_dpo/beta_used_raw': -2.862081527709961, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39010077714920044, 'logits/rejected': -0.36551567912101746, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 118.88796997070312, 'beta_dpo/beta_margin_mean': 0.11888797581195831, 'beta_dpo/beta_margin_std': 0.13958628475666046, 'beta_dpo/beta_margin_grad_mean': -0.47052738070487976, 'beta_dpo/beta_margin_grad_std': 0.03435816988348961, 'epoch': 0.72}
+ 72%|████████████████████████████████████████████████████████                      | 489/681 [33:25<07:58,  2.49s/it] 72%|████████████████████████████████████████████████████████                      | 490/681 [33:28<08:19,  2.62s/it]                                                                                                                     {'loss': 2.6273, 'grad_norm': 638.021728515625, 'learning_rate': 1.1190875675987355e-07, 'beta_dpo/gap_mean': 131.10269165039062, 'beta_dpo/gap_std': 152.6240692138672, 'beta_dpo/beta_used_raw': -0.9930161833763123, 'beta_dpo/beta_used': 0.058361634612083435, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40140801668167114, 'logits/rejected': -0.4072290062904358, 'beta_dpo/beta': 0.058361634612083435, 'beta_dpo/loss_margin_mean': 133.6477813720703, 'beta_dpo/beta_margin_mean': 8.510327339172363, 'beta_dpo/beta_margin_std': 16.38105583190918, 'beta_dpo/beta_margin_grad_mean': -0.35114118456840515, 'beta_dpo/beta_margin_grad_std': 0.3123593032360077, 'epoch': 0.72}
+ 72%|████████████████████████████████████████████████████████                      | 490/681 [33:28<08:19,  2.62s/it] 72%|████████████████████████████████████████████████████████▏                     | 491/681 [33:31<08:20,  2.64s/it]                                                                                                                     {'loss': 1.2841, 'grad_norm': 8.015692710876465, 'learning_rate': 1.1084079364846241e-07, 'beta_dpo/gap_mean': 128.78497314453125, 'beta_dpo/gap_std': 152.2926025390625, 'beta_dpo/beta_used_raw': -1.122982144355774, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3382050395011902, 'logits/rejected': -0.30560484528541565, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 108.52165985107422, 'beta_dpo/beta_margin_mean': 0.10852167010307312, 'beta_dpo/beta_margin_std': 0.14018140733242035, 'beta_dpo/beta_margin_grad_mean': -0.47306498885154724, 'beta_dpo/beta_margin_grad_std': 0.03465822711586952, 'epoch': 0.72}
+ 72%|████████████████████████████████████████████████████████▏                     | 491/681 [33:31<08:20,  2.64s/it] 72%|████████████████████████████████████████████████████████▎                     | 492/681 [33:33<08:21,  2.66s/it]                                                                                                                     {'loss': 1.3048, 'grad_norm': 7.962594509124756, 'learning_rate': 1.097764975115576e-07, 'beta_dpo/gap_mean': 120.65419006347656, 'beta_dpo/gap_std': 151.2496337890625, 'beta_dpo/beta_used_raw': -1.9428200721740723, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32057705521583557, 'logits/rejected': -0.30018332600593567, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 79.98442840576172, 'beta_dpo/beta_margin_mean': 0.07998443394899368, 'beta_dpo/beta_margin_std': 0.14913584291934967, 'beta_dpo/beta_margin_grad_mean': -0.4801286458969116, 'beta_dpo/beta_margin_grad_std': 0.03697565570473671, 'epoch': 0.72}
+ 72%|████████████████████████████████████████████████████████▎                     | 492/681 [33:33<08:21,  2.66s/it] 72%|████████████████████████████████████████████████████████▍                     | 493/681 [33:36<08:24,  2.68s/it]                                                                                                                     {'loss': 1.3088, 'grad_norm': 8.332205772399902, 'learning_rate': 1.0871589639435203e-07, 'beta_dpo/gap_mean': 116.27113342285156, 'beta_dpo/gap_std': 149.367431640625, 'beta_dpo/beta_used_raw': -1.9641090631484985, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3866749703884125, 'logits/rejected': -0.3490540385246277, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 98.75540924072266, 'beta_dpo/beta_margin_mean': 0.09875541180372238, 'beta_dpo/beta_margin_std': 0.13388586044311523, 'beta_dpo/beta_margin_grad_mean': -0.4754677712917328, 'beta_dpo/beta_margin_grad_std': 0.03316526114940643, 'epoch': 0.72}
+ 72%|████████████████████████████████████████████████████████▍                     | 493/681 [33:36<08:24,  2.68s/it] 73%|████████████████████████████████████████████████████████▌                     | 494/681 [33:39<08:10,  2.62s/it]                                                                                                                     {'loss': 4.6034, 'grad_norm': 6623.4462890625, 'learning_rate': 1.0765901824467166e-07, 'beta_dpo/gap_mean': 119.46544647216797, 'beta_dpo/gap_std': 148.60195922851562, 'beta_dpo/beta_used_raw': 1.4735260009765625, 'beta_dpo/beta_used': 1.4735260009765625, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2984636425971985, 'logits/rejected': -0.31005731225013733, 'beta_dpo/beta': 1.4735260009765625, 'beta_dpo/loss_margin_mean': 145.59498596191406, 'beta_dpo/beta_margin_mean': 210.98004150390625, 'beta_dpo/beta_margin_std': 204.13458251953125, 'beta_dpo/beta_margin_grad_mean': -0.15571968257427216, 'beta_dpo/beta_margin_grad_std': 0.3583217263221741, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████▌                     | 494/681 [33:39<08:10,  2.62s/it] 73%|████████████████████████████████████████████████████████▋                     | 495/681 [33:41<08:06,  2.62s/it]                                                                                                                     {'loss': 0.6957, 'grad_norm': 1850.2857666015625, 'learning_rate': 1.0660589091223854e-07, 'beta_dpo/gap_mean': 119.32475280761719, 'beta_dpo/gap_std': 148.88406372070312, 'beta_dpo/beta_used_raw': -0.09175539016723633, 'beta_dpo/beta_used': 0.5986773371696472, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3925628662109375, 'logits/rejected': -0.37049469351768494, 'beta_dpo/beta': 0.5986773371696472, 'beta_dpo/loss_margin_mean': 118.74334716796875, 'beta_dpo/beta_margin_mean': 80.61207580566406, 'beta_dpo/beta_margin_std': 141.1808624267578, 'beta_dpo/beta_margin_grad_mean': -0.2792108356952667, 'beta_dpo/beta_margin_grad_std': 0.2721221148967743, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████▋                     | 495/681 [33:41<08:06,  2.62s/it] 73%|████████████████████████████████████████████████████████▊                     | 496/681 [33:44<08:05,  2.63s/it]                                                                                                                     {'loss': 1.3074, 'grad_norm': 7.529769420623779, 'learning_rate': 1.0555654214793722e-07, 'beta_dpo/gap_mean': 116.95680236816406, 'beta_dpo/gap_std': 145.31634521484375, 'beta_dpo/beta_used_raw': -1.945371389389038, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3815876245498657, 'logits/rejected': -0.34360769391059875, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 97.60633850097656, 'beta_dpo/beta_margin_mean': 0.09760633856058121, 'beta_dpo/beta_margin_std': 0.12117937952280045, 'beta_dpo/beta_margin_grad_mean': -0.4757267236709595, 'beta_dpo/beta_margin_grad_std': 0.030057376250624657, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████▊                     | 496/681 [33:44<08:05,  2.63s/it] 73%|████████████████████████████████████████████████████████▉                     | 497/681 [33:47<08:03,  2.63s/it]                                                                                                                     {'loss': 2.3877, 'grad_norm': 2982.553955078125, 'learning_rate': 1.0451099960308374e-07, 'beta_dpo/gap_mean': 115.927490234375, 'beta_dpo/gap_std': 140.37762451171875, 'beta_dpo/beta_used_raw': -0.907131552696228, 'beta_dpo/beta_used': 0.8181713223457336, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3127893805503845, 'logits/rejected': -0.2815262973308563, 'beta_dpo/beta': 0.8181713223457336, 'beta_dpo/loss_margin_mean': 105.21829986572266, 'beta_dpo/beta_margin_mean': 115.75753021240234, 'beta_dpo/beta_margin_std': 177.8175506591797, 'beta_dpo/beta_margin_grad_mean': -0.27269458770751953, 'beta_dpo/beta_margin_grad_std': 0.2720523774623871, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████▉                     | 497/681 [33:47<08:03,  2.63s/it] 73%|█████████████████████████████████████████████████████████                     | 498/681 [33:49<08:06,  2.66s/it]                                                                                                                     {'loss': 1.2907, 'grad_norm': 8.269208908081055, 'learning_rate': 1.0346929082869641e-07, 'beta_dpo/gap_mean': 111.99593353271484, 'beta_dpo/gap_std': 142.203369140625, 'beta_dpo/beta_used_raw': -0.5454678535461426, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3560227155685425, 'logits/rejected': -0.323871910572052, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 105.87074279785156, 'beta_dpo/beta_margin_mean': 0.10587074607610703, 'beta_dpo/beta_margin_std': 0.15012362599372864, 'beta_dpo/beta_margin_grad_mean': -0.4737287759780884, 'beta_dpo/beta_margin_grad_std': 0.037132780998945236, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████                     | 498/681 [33:49<08:06,  2.66s/it] 73%|█████████████████████████████████████████████████████████▏                    | 499/681 [33:52<07:54,  2.61s/it]                                                                                                                     {'loss': 1.0329, 'grad_norm': 825.9117431640625, 'learning_rate': 1.0243144327477013e-07, 'beta_dpo/gap_mean': 114.74722290039062, 'beta_dpo/gap_std': 141.5767822265625, 'beta_dpo/beta_used_raw': 0.6870215535163879, 'beta_dpo/beta_used': 0.6870215535163879, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30797550082206726, 'logits/rejected': -0.313708633184433, 'beta_dpo/beta': 0.6870215535163879, 'beta_dpo/loss_margin_mean': 125.64728546142578, 'beta_dpo/beta_margin_mean': 93.55929565429688, 'beta_dpo/beta_margin_std': 131.30792236328125, 'beta_dpo/beta_margin_grad_mean': -0.1571728140115738, 'beta_dpo/beta_margin_grad_std': 0.35055309534072876, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████▏                    | 499/681 [33:52<07:54,  2.61s/it] 73%|█████████████████████████████████████████████████████████▎                    | 500/681 [33:54<07:43,  2.56s/it]                                                                                                                     {'loss': 1.1587, 'grad_norm': 940.185546875, 'learning_rate': 1.0139748428955333e-07, 'beta_dpo/gap_mean': 117.69755554199219, 'beta_dpo/gap_std': 142.67498779296875, 'beta_dpo/beta_used_raw': 0.49765706062316895, 'beta_dpo/beta_used': 0.7255595922470093, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30566155910491943, 'logits/rejected': -0.30621030926704407, 'beta_dpo/beta': 0.7255595922470093, 'beta_dpo/loss_margin_mean': 134.94979858398438, 'beta_dpo/beta_margin_mean': 94.36482238769531, 'beta_dpo/beta_margin_std': 166.26669311523438, 'beta_dpo/beta_margin_grad_mean': -0.3108097314834595, 'beta_dpo/beta_margin_grad_std': 0.3008542060852051, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████▎                    | 500/681 [33:54<07:43,  2.56s/it][INFO|trainer.py:4307] 2026-04-17 23:57:26,744 >> 
+***** Running Evaluation *****
+[INFO|trainer.py:4309] 2026-04-17 23:57:26,744 >>   Num examples = 2339
+[INFO|trainer.py:4312] 2026-04-17 23:57:26,744 >>   Batch size = 8
+
+  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A
+  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.64it/s][A
+  4%|███▎                                                                             | 3/73 [00:01<00:27,  2.57it/s][A
+  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.26it/s][A
+  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.11it/s][A
+  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.00it/s][A
+ 10%|███████▊                                                                         | 7/73 [00:03<00:31,  2.07it/s][A
+ 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.93it/s][A
+ 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.87it/s][A
+ 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.85it/s][A
+ 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A
+ 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.81it/s][A
+ 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.86it/s][A
+ 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.82it/s][A
+ 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.82it/s][A
+ 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.75it/s][A
+ 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.74it/s][A
+ 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.72it/s][A
+ 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.70it/s][A
+ 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.69it/s][A
+ 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.69it/s][A
+ 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.69it/s][A
+ 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:28,  1.73it/s][A
+ 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.74it/s][A
+ 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:27,  1.73it/s][A
+ 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.74it/s][A
+ 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s][A
+ 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.90it/s][A
+ 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:23,  1.91it/s][A
+ 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.93it/s][A
+ 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.85it/s][A
+ 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s][A
+ 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:20,  1.91it/s][A
+ 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.88it/s][A
+ 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.81it/s][A
+ 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.82it/s][A
+ 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.80it/s][A
+ 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.88it/s][A
+ 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:18,  1.79it/s][A
+ 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.81it/s][A
+ 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.87it/s][A
+ 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:17,  1.82it/s][A
+ 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s][A
+ 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.84it/s][A
+ 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s][A
+ 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.85it/s][A
+ 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s][A
+ 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:25<00:13,  1.80it/s][A
+ 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.78it/s][A
+ 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.80it/s][A
+ 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.78it/s][A
+ 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.74it/s][A
+ 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s][A
+ 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.81it/s][A
+ 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.81it/s][A
+ 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.84it/s][A
+ 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.76it/s][A
+ 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s][A
+ 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.85it/s][A
+ 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s][A
+ 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A
+ 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.76it/s][A
+ 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s][A
+ 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.95it/s][A
+ 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.92it/s][A
+ 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.84it/s][A
+ 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.88it/s][A
+ 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.83it/s][A
+ 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s][A
+ 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A
+ 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.80it/s][A
+ 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.79it/s][A
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.93it/s][A                                                                                                                     
+                                                                                                                     [A{'eval_loss': 1.3023549318313599, 'eval_runtime': 40.1743, 'eval_samples_per_second': 58.221, 'eval_steps_per_second': 1.842, 'eval_beta_dpo/beta': 0.0540650337934494, 'eval_beta_dpo/loss_margin_mean': 78.1020736694336, 'eval_beta_dpo/beta_margin_mean': 7.248837947845459, 'eval_beta_dpo/beta_margin_std': 9.07664680480957, 'eval_beta_dpo/beta_margin_grad_mean': -0.4557286202907562, 'eval_beta_dpo/beta_margin_grad_std': 0.06789226830005646, 'eval_beta_dpo/gap_mean': 118.34776306152344, 'eval_beta_dpo/gap_std': 142.3097686767578, 'eval_beta_dpo/beta_used_raw': -2.3147406578063965, 'eval_beta_dpo/beta_used': 0.0540650337934494, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.35900095105171204, 'eval_logits/rejected': -0.3353206515312195, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████▎                    | 500/681 [34:34<07:43,  2.56s/it]
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.93it/s][A
+                                                                                                                     [A 74%|█████████████████████████████████████████████████████████▍                    | 501/681 [34:37<43:54, 14.64s/it]                                                                                                                     {'loss': 1.1495, 'grad_norm': 516.4696044921875, 'learning_rate': 1.0036744111882672e-07, 'beta_dpo/gap_mean': 119.19757843017578, 'beta_dpo/gap_std': 144.50363159179688, 'beta_dpo/beta_used_raw': -1.208457112312317, 'beta_dpo/beta_used': 0.08518475294113159, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2940847873687744, 'logits/rejected': -0.2648616433143616, 'beta_dpo/beta': 0.08518475294113159, 'beta_dpo/loss_margin_mean': 131.8070068359375, 'beta_dpo/beta_margin_mean': 13.289090156555176, 'beta_dpo/beta_margin_std': 21.948522567749023, 'beta_dpo/beta_margin_grad_mean': -0.31711265444755554, 'beta_dpo/beta_margin_grad_std': 0.289605975151062, 'epoch': 0.74}
+ 74%|█████████████████████████████████████████████████████████▍                    | 501/681 [34:37<43:54, 14.64s/it] 74%|█████████████████████████████████████████████████████████▍                    | 502/681 [34:40<33:02, 11.08s/it]                                                                                                                     {'loss': 0.6492, 'grad_norm': 124.2741928100586, 'learning_rate': 9.934134090518592e-08, 'beta_dpo/gap_mean': 120.6997299194336, 'beta_dpo/gap_std': 140.1085205078125, 'beta_dpo/beta_used_raw': -0.02544143795967102, 'beta_dpo/beta_used': 0.3071337640285492, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34868794679641724, 'logits/rejected': -0.3092746138572693, 'beta_dpo/beta': 0.3071337640285492, 'beta_dpo/loss_margin_mean': 124.3865966796875, 'beta_dpo/beta_margin_mean': 44.45820617675781, 'beta_dpo/beta_margin_std': 64.65328979492188, 'beta_dpo/beta_margin_grad_mean': -0.239473357796669, 'beta_dpo/beta_margin_grad_std': 0.23620876669883728, 'epoch': 0.74}
+ 74%|█████████████████████████████████████████████████████████▍                    | 502/681 [34:40<33:02, 11.08s/it] 74%|█████████████████████████████████████████████████████████▌                    | 503/681 [34:43<25:24,  8.57s/it]                                                                                                                     {'loss': 1.7133, 'grad_norm': 1218.5517578125, 'learning_rate': 9.831921068732571e-08, 'beta_dpo/gap_mean': 121.5184326171875, 'beta_dpo/gap_std': 136.5009765625, 'beta_dpo/beta_used_raw': -0.3279840648174286, 'beta_dpo/beta_used': 0.408588171005249, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2874418795108795, 'logits/rejected': -0.2468714714050293, 'beta_dpo/beta': 0.408588171005249, 'beta_dpo/loss_margin_mean': 114.87471008300781, 'beta_dpo/beta_margin_mean': 52.1716423034668, 'beta_dpo/beta_margin_std': 84.77537536621094, 'beta_dpo/beta_margin_grad_mean': -0.28420010209083557, 'beta_dpo/beta_margin_grad_std': 0.28162574768066406, 'epoch': 0.74}
+ 74%|█████████████████████████████████████████████████████████▌                    | 503/681 [34:43<25:24,  8.57s/it] 74%|█████████████████████████████████████████████████████████▋                    | 504/681 [34:45<20:11,  6.85s/it]                                                                                                                     {'loss': 3.7457, 'grad_norm': 6307.01123046875, 'learning_rate': 9.730107739932805e-08, 'beta_dpo/gap_mean': 126.13829040527344, 'beta_dpo/gap_std': 136.19711303710938, 'beta_dpo/beta_used_raw': 0.7455565929412842, 'beta_dpo/beta_used': 1.1715275049209595, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.31520044803619385, 'logits/rejected': -0.31102991104125977, 'beta_dpo/beta': 1.1715275049209595, 'beta_dpo/loss_margin_mean': 154.6195526123047, 'beta_dpo/beta_margin_mean': 199.27561950683594, 'beta_dpo/beta_margin_std': 273.30157470703125, 'beta_dpo/beta_margin_grad_mean': -0.27964290976524353, 'beta_dpo/beta_margin_grad_std': 0.27907973527908325, 'epoch': 0.74}
+ 74%|█████████████████████████████████████████████████████████▋                    | 504/681 [34:45<20:11,  6.85s/it] 74%|█████████████████████████████████████████████████████████▊                    | 505/681 [34:48<16:20,  5.57s/it]                                                                                                                     {'loss': 1.3002, 'grad_norm': 8.723043441772461, 'learning_rate': 9.628696786995188e-08, 'beta_dpo/gap_mean': 122.90274047851562, 'beta_dpo/gap_std': 139.72247314453125, 'beta_dpo/beta_used_raw': -1.7212300300598145, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3765321969985962, 'logits/rejected': -0.3430270552635193, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 99.25924682617188, 'beta_dpo/beta_margin_mean': 0.09925924986600876, 'beta_dpo/beta_margin_std': 0.1482783406972885, 'beta_dpo/beta_margin_grad_mean': -0.47535502910614014, 'beta_dpo/beta_margin_grad_std': 0.03676827251911163, 'epoch': 0.74}
+ 74%|█████████████████████████████████████████████████████████▊                    | 505/681 [34:48<16:20,  5.57s/it] 74%|█████████████████████████████████████████████████████████▉                    | 506/681 [34:50<13:28,  4.62s/it]                                                                                                                     {'loss': 4.1001, 'grad_norm': 916.702880859375, 'learning_rate': 9.527690882192635e-08, 'beta_dpo/gap_mean': 124.59944915771484, 'beta_dpo/gap_std': 140.55581665039062, 'beta_dpo/beta_used_raw': 0.20597346127033234, 'beta_dpo/beta_used': 0.41072434186935425, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3146125376224518, 'logits/rejected': -0.2966008186340332, 'beta_dpo/beta': 0.41072434186935425, 'beta_dpo/loss_margin_mean': 139.48028564453125, 'beta_dpo/beta_margin_mean': 61.24283218383789, 'beta_dpo/beta_margin_std': 103.88602447509766, 'beta_dpo/beta_margin_grad_mean': -0.2921498417854309, 'beta_dpo/beta_margin_grad_std': 0.27914443612098694, 'epoch': 0.74}
+ 74%|█████████████████████████████████████████████████████████▉                    | 506/681 [34:50<13:28,  4.62s/it] 74%|██████████████████████████████████████████████████████████                    | 507/681 [34:53<11:32,  3.98s/it]                                                                                                                     {'loss': 1.2946, 'grad_norm': 11.176294326782227, 'learning_rate': 9.427092687124691e-08, 'beta_dpo/gap_mean': 123.23077392578125, 'beta_dpo/gap_std': 141.94122314453125, 'beta_dpo/beta_used_raw': -1.4757391214370728, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3175603449344635, 'logits/rejected': -0.2914998531341553, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 110.91170501708984, 'beta_dpo/beta_margin_mean': 0.11091171205043793, 'beta_dpo/beta_margin_std': 0.14667391777038574, 'beta_dpo/beta_margin_grad_mean': -0.47250908613204956, 'beta_dpo/beta_margin_grad_std': 0.03613479807972908, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████                    | 507/681 [34:53<11:32,  3.98s/it] 75%|██████████████████████████████████████████████████████████▏                   | 508/681 [34:56<10:21,  3.59s/it]                                                                                                                     {'loss': 1.3101, 'grad_norm': 8.980006217956543, 'learning_rate': 9.326904852647344e-08, 'beta_dpo/gap_mean': 119.46562957763672, 'beta_dpo/gap_std': 144.94464111328125, 'beta_dpo/beta_used_raw': -2.256690502166748, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3461516499519348, 'logits/rejected': -0.3254041373729706, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 106.15621948242188, 'beta_dpo/beta_margin_mean': 0.10615622252225876, 'beta_dpo/beta_margin_std': 0.15725988149642944, 'beta_dpo/beta_margin_grad_mean': -0.4737025201320648, 'beta_dpo/beta_margin_grad_std': 0.038725487887859344, 'epoch': 0.75}
+ 75%|██████████████████████████████████████████████████████████▏                   | 508/681 [34:56<10:21,  3.59s/it] 75%|██████████████████████████████████████████████████████████▎                   | 509/681 [34:58<09:31,  3.32s/it]                                                                                                                     {'loss': 0.8276, 'grad_norm': 281.12945556640625, 'learning_rate': 9.227130018803195e-08, 'beta_dpo/gap_mean': 117.4862060546875, 'beta_dpo/gap_std': 143.86575317382812, 'beta_dpo/beta_used_raw': -0.7437249422073364, 'beta_dpo/beta_used': 0.034919556230306625, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3934116065502167, 'logits/rejected': -0.3660675883293152, 'beta_dpo/beta': 0.034919556230306625, 'beta_dpo/loss_margin_mean': 112.33943176269531, 'beta_dpo/beta_margin_mean': 4.45152473449707, 'beta_dpo/beta_margin_std': 6.8051252365112305, 'beta_dpo/beta_margin_grad_mean': -0.29076310992240906, 'beta_dpo/beta_margin_grad_std': 0.26489248871803284, 'epoch': 0.75}
+ 75%|██████████████████████████████████████████████████████████▎                   | 509/681 [34:58<09:31,  3.32s/it] 75%|██████████████████████████████████████████████████████████▍                   | 510/681 [35:01<08:54,  3.12s/it]                                                                                                                     {'loss': 5.2172, 'grad_norm': 7391.86083984375, 'learning_rate': 9.127770814751932e-08, 'beta_dpo/gap_mean': 120.94603729248047, 'beta_dpo/gap_std': 143.10879516601562, 'beta_dpo/beta_used_raw': 0.5919451713562012, 'beta_dpo/beta_used': 0.6322641372680664, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3361413776874542, 'logits/rejected': -0.3392980992794037, 'beta_dpo/beta': 0.6322641372680664, 'beta_dpo/loss_margin_mean': 138.92527770996094, 'beta_dpo/beta_margin_mean': 86.17361450195312, 'beta_dpo/beta_margin_std': 161.67727661132812, 'beta_dpo/beta_margin_grad_mean': -0.32574018836021423, 'beta_dpo/beta_margin_grad_std': 0.3087122440338135, 'epoch': 0.75}
+ 75%|██████████████████████████████████████████████████████████▍                   | 510/681 [35:01<08:54,  3.12s/it] 75%|██████████████████████████████████████████████████████████▌                   | 511/681 [35:03<08:24,  2.97s/it]                                                                                                                     {'loss': 1.287, 'grad_norm': 14.153034210205078, 'learning_rate': 9.028829858700973e-08, 'beta_dpo/gap_mean': 122.11959838867188, 'beta_dpo/gap_std': 146.7066192626953, 'beta_dpo/beta_used_raw': -0.9141647815704346, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3057625889778137, 'logits/rejected': -0.2901447117328644, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 125.42748260498047, 'beta_dpo/beta_margin_mean': 0.1254274845123291, 'beta_dpo/beta_margin_std': 0.16929617524147034, 'beta_dpo/beta_margin_grad_mean': -0.4689362347126007, 'beta_dpo/beta_margin_grad_std': 0.041758738458156586, 'epoch': 0.75}
+ 75%|██████████████████████████████████████████████████████████▌                   | 511/681 [35:04<08:24,  2.97s/it] 75%|██████████████████████████████████████████████████████████▋                   | 512/681 [35:06<07:44,  2.75s/it]                                                                                                                     {'loss': 2.0045, 'grad_norm': 1204.3978271484375, 'learning_rate': 8.930309757836516e-08, 'beta_dpo/gap_mean': 125.70597839355469, 'beta_dpo/gap_std': 147.9683837890625, 'beta_dpo/beta_used_raw': -0.11738580465316772, 'beta_dpo/beta_used': 0.12954731285572052, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2575787305831909, 'logits/rejected': -0.2278975248336792, 'beta_dpo/beta': 0.12954731285572052, 'beta_dpo/loss_margin_mean': 142.68536376953125, 'beta_dpo/beta_margin_mean': 18.631834030151367, 'beta_dpo/beta_margin_std': 31.87902069091797, 'beta_dpo/beta_margin_grad_mean': -0.32700619101524353, 'beta_dpo/beta_margin_grad_std': 0.3073154091835022, 'epoch': 0.75}
+ 75%|██████████████████████████████████████████████████████████▋                   | 512/681 [35:06<07:44,  2.75s/it] 75%|██████████████████████████████████████████████████████████▊                   | 513/681 [35:08<07:39,  2.74s/it]                                                                                                                     {'loss': 1.4199, 'grad_norm': 278.9576416015625, 'learning_rate': 8.832213108254863e-08, 'beta_dpo/gap_mean': 124.45533752441406, 'beta_dpo/gap_std': 146.31292724609375, 'beta_dpo/beta_used_raw': -1.4216735363006592, 'beta_dpo/beta_used': 0.044924668967723846, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.28937166929244995, 'logits/rejected': -0.23899608850479126, 'beta_dpo/beta': 0.044924668967723846, 'beta_dpo/loss_margin_mean': 99.97219848632812, 'beta_dpo/beta_margin_mean': 6.217226982116699, 'beta_dpo/beta_margin_std': 10.354048728942871, 'beta_dpo/beta_margin_grad_mean': -0.32202252745628357, 'beta_dpo/beta_margin_grad_std': 0.2846587002277374, 'epoch': 0.75}
+ 75%|██████████████████████████████████████████████████████████▊                   | 513/681 [35:08<07:39,  2.74s/it] 75%|██████████████████████████████████████████████████████████▊                   | 514/681 [35:11<07:39,  2.75s/it]                                                                                                                     {'loss': 1.2968, 'grad_norm': 8.001137733459473, 'learning_rate': 8.734542494893954e-08, 'beta_dpo/gap_mean': 119.46575927734375, 'beta_dpo/gap_std': 149.45828247070312, 'beta_dpo/beta_used_raw': -1.3583461046218872, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33942490816116333, 'logits/rejected': -0.3081890940666199, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 109.18538665771484, 'beta_dpo/beta_margin_mean': 0.10918539017438889, 'beta_dpo/beta_margin_std': 0.1675841063261032, 'beta_dpo/beta_margin_grad_mean': -0.47301986813545227, 'beta_dpo/beta_margin_grad_std': 0.04115281254053116, 'epoch': 0.75}
+ 75%|██████████████████████████████████████████████████████████▊                   | 514/681 [35:11<07:39,  2.75s/it] 76%|██████████████████████████████████████████████████████████▉                   | 515/681 [35:14<07:34,  2.74s/it]                                                                                                                     {'loss': 2.2661, 'grad_norm': 2712.74951171875, 'learning_rate': 8.637300491465272e-08, 'beta_dpo/gap_mean': 117.94536590576172, 'beta_dpo/gap_std': 149.05044555664062, 'beta_dpo/beta_used_raw': 0.6376501321792603, 'beta_dpo/beta_used': 0.7366660833358765, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33565250039100647, 'logits/rejected': -0.32709378004074097, 'beta_dpo/beta': 0.7366660833358765, 'beta_dpo/loss_margin_mean': 110.93781280517578, 'beta_dpo/beta_margin_mean': 86.19298553466797, 'beta_dpo/beta_margin_std': 163.50563049316406, 'beta_dpo/beta_margin_grad_mean': -0.2994893789291382, 'beta_dpo/beta_margin_grad_std': 0.2928798794746399, 'epoch': 0.76}
+ 76%|██████████████████████████████████████████████████████████▉                   | 515/681 [35:14<07:34,  2.74s/it] 76%|███████████████████████████████████████████████████████████                   | 516/681 [35:16<07:11,  2.62s/it]                                                                                                                     {'loss': 3.9909, 'grad_norm': 2482.775634765625, 'learning_rate': 8.540489660386064e-08, 'beta_dpo/gap_mean': 120.83750915527344, 'beta_dpo/gap_std': 148.33566284179688, 'beta_dpo/beta_used_raw': 0.3256189227104187, 'beta_dpo/beta_used': 0.3256189227104187, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30348920822143555, 'logits/rejected': -0.30661916732788086, 'beta_dpo/beta': 0.3256189227104187, 'beta_dpo/loss_margin_mean': 144.36268615722656, 'beta_dpo/beta_margin_mean': 44.762569427490234, 'beta_dpo/beta_margin_std': 72.75740814208984, 'beta_dpo/beta_margin_grad_mean': -0.17041105031967163, 'beta_dpo/beta_margin_grad_std': 0.32598721981048584, 'epoch': 0.76}
+ 76%|███████████████████████████████████████████████████████████                   | 516/681 [35:16<07:11,  2.62s/it] 76%|███████████████████████████████████████████████████████████▏                  | 517/681 [35:19<07:08,  2.61s/it]                                                                                                                     {'loss': 9.232, 'grad_norm': 4063.2880859375, 'learning_rate': 8.444112552711752e-08, 'beta_dpo/gap_mean': 124.02101135253906, 'beta_dpo/gap_std': 147.56996154785156, 'beta_dpo/beta_used_raw': -0.8146347403526306, 'beta_dpo/beta_used': 0.3787996470928192, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34874552488327026, 'logits/rejected': -0.3211863934993744, 'beta_dpo/beta': 0.3787996470928192, 'beta_dpo/loss_margin_mean': 129.0400848388672, 'beta_dpo/beta_margin_mean': 53.798763275146484, 'beta_dpo/beta_margin_std': 91.0955581665039, 'beta_dpo/beta_margin_grad_mean': -0.3142106235027313, 'beta_dpo/beta_margin_grad_std': 0.3018515706062317, 'epoch': 0.76}
+ 76%|███████████████████████████████████████████████████████████▏                  | 517/681 [35:19<07:08,  2.61s/it] 76%|███████████████████████████████████████████████████████████▎                  | 518/681 [35:22<07:13,  2.66s/it]                                                                                                                     {'loss': 1.2903, 'grad_norm': 9.67983627319336, 'learning_rate': 8.348171708068747e-08, 'beta_dpo/gap_mean': 123.86222839355469, 'beta_dpo/gap_std': 149.8852081298828, 'beta_dpo/beta_used_raw': -1.2156920433044434, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33817270398139954, 'logits/rejected': -0.3306800425052643, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 119.89690399169922, 'beta_dpo/beta_margin_mean': 0.11989691108465195, 'beta_dpo/beta_margin_std': 0.16114358603954315, 'beta_dpo/beta_margin_grad_mean': -0.47028571367263794, 'beta_dpo/beta_margin_grad_std': 0.03980425372719765, 'epoch': 0.76}
+ 76%|███████████████████████████████████████████████████████████▎                  | 518/681 [35:22<07:13,  2.66s/it] 76%|███████████████████████████████████████████████████████████▍                  | 519/681 [35:24<07:12,  2.67s/it]                                                                                                                     {'loss': 1.3054, 'grad_norm': 11.328512191772461, 'learning_rate': 8.25266965458755e-08, 'beta_dpo/gap_mean': 120.50178527832031, 'beta_dpo/gap_std': 149.90951538085938, 'beta_dpo/beta_used_raw': -1.990078091621399, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38129687309265137, 'logits/rejected': -0.3619292974472046, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 110.23342895507812, 'beta_dpo/beta_margin_mean': 0.11023343354463577, 'beta_dpo/beta_margin_std': 0.14520837366580963, 'beta_dpo/beta_margin_grad_mean': -0.4726635813713074, 'beta_dpo/beta_margin_grad_std': 0.035860326141119, 'epoch': 0.76}
+ 76%|███████████████████████████████████████████████████████████▍                  | 519/681 [35:24<07:12,  2.67s/it] 76%|███████████████████████████████████████████████████████████▌                  | 520/681 [35:27<07:08,  2.66s/it]                                                                                                                     {'loss': 3.5396, 'grad_norm': 3035.5087890625, 'learning_rate': 8.15760890883607e-08, 'beta_dpo/gap_mean': 121.2685775756836, 'beta_dpo/gap_std': 148.63670349121094, 'beta_dpo/beta_used_raw': -1.0785763263702393, 'beta_dpo/beta_used': 0.3380447328090668, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3086138069629669, 'logits/rejected': -0.29337257146835327, 'beta_dpo/beta': 0.3380447328090668, 'beta_dpo/loss_margin_mean': 116.98388671875, 'beta_dpo/beta_margin_mean': 49.52477264404297, 'beta_dpo/beta_margin_std': 87.04480743408203, 'beta_dpo/beta_margin_grad_mean': -0.2715797424316406, 'beta_dpo/beta_margin_grad_std': 0.26895225048065186, 'epoch': 0.76}
+ 76%|███████████████████████████████████████████████████████████▌                  | 520/681 [35:27<07:08,  2.66s/it] 77%|███████████████████████████████████████████████████████████▋                  | 521/681 [35:30<07:03,  2.65s/it]                                                                                                                     {'loss': 5.6064, 'grad_norm': 2916.091552734375, 'learning_rate': 8.062991975753378e-08, 'beta_dpo/gap_mean': 117.24072265625, 'beta_dpo/gap_std': 145.8902587890625, 'beta_dpo/beta_used_raw': -0.11128360033035278, 'beta_dpo/beta_used': 0.7759643793106079, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26582300662994385, 'logits/rejected': -0.24365702271461487, 'beta_dpo/beta': 0.7759643793106079, 'beta_dpo/loss_margin_mean': 116.25064086914062, 'beta_dpo/beta_margin_mean': 120.77637481689453, 'beta_dpo/beta_margin_std': 199.4180450439453, 'beta_dpo/beta_margin_grad_mean': -0.30295756459236145, 'beta_dpo/beta_margin_grad_std': 0.2947865128517151, 'epoch': 0.77}
+ 77%|███████████████████████████████████████████████████████████▋                  | 521/681 [35:30<07:03,  2.65s/it] 77%|███████████████████████████████████████████████████████████▊                  | 522/681 [35:32<06:58,  2.63s/it]                                                                                                                     {'loss': 1.2971, 'grad_norm': 11.408084869384766, 'learning_rate': 7.968821348583643e-08, 'beta_dpo/gap_mean': 115.89306640625, 'beta_dpo/gap_std': 145.66278076171875, 'beta_dpo/beta_used_raw': -1.123004674911499, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26223623752593994, 'logits/rejected': -0.2491573542356491, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 99.80866241455078, 'beta_dpo/beta_margin_mean': 0.09980867058038712, 'beta_dpo/beta_margin_std': 0.1410750299692154, 'beta_dpo/beta_margin_grad_mean': -0.4751797318458557, 'beta_dpo/beta_margin_grad_std': 0.03499903902411461, 'epoch': 0.77}
+ 77%|███████████████████████████████████████████████████████████▊                  | 522/681 [35:32<06:58,  2.63s/it] 77%|███████████████████████████████████████████████████████████▉                  | 523/681 [35:35<07:02,  2.68s/it]                                                                                                                     {'loss': 1.2905, 'grad_norm': 12.761443138122559, 'learning_rate': 7.875099508810484e-08, 'beta_dpo/gap_mean': 114.94084167480469, 'beta_dpo/gap_std': 144.96939086914062, 'beta_dpo/beta_used_raw': -0.7056801319122314, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35182422399520874, 'logits/rejected': -0.3160788416862488, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 110.72482299804688, 'beta_dpo/beta_margin_mean': 0.11072482913732529, 'beta_dpo/beta_margin_std': 0.13797280192375183, 'beta_dpo/beta_margin_grad_mean': -0.4724850058555603, 'beta_dpo/beta_margin_grad_std': 0.03419146686792374, 'epoch': 0.77}
+ 77%|███████████████████████████████████████████████████████████▉                  | 523/681 [35:35<07:02,  2.68s/it] 77%|████████████████████████████████████████████████████████████                  | 524/681 [35:38<06:57,  2.66s/it]                                                                                                                     {'loss': 0.7133, 'grad_norm': 1415.0672607421875, 'learning_rate': 7.781828926091535e-08, 'beta_dpo/gap_mean': 113.64476013183594, 'beta_dpo/gap_std': 142.83682250976562, 'beta_dpo/beta_used_raw': -0.35857832431793213, 'beta_dpo/beta_used': 0.34091123938560486, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3773775100708008, 'logits/rejected': -0.3307211399078369, 'beta_dpo/beta': 0.34091123938560486, 'beta_dpo/loss_margin_mean': 103.63865661621094, 'beta_dpo/beta_margin_mean': 39.1301383972168, 'beta_dpo/beta_margin_std': 78.40217590332031, 'beta_dpo/beta_margin_grad_mean': -0.28588905930519104, 'beta_dpo/beta_margin_grad_std': 0.26944512128829956, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████                  | 524/681 [35:38<06:57,  2.66s/it] 77%|████████████████████████████████████████████████████████████▏                 | 525/681 [35:40<06:59,  2.69s/it]                                                                                                                     {'loss': 1.2884, 'grad_norm': 11.353320121765137, 'learning_rate': 7.689012058193384e-08, 'beta_dpo/gap_mean': 116.8314208984375, 'beta_dpo/gap_std': 139.02029418945312, 'beta_dpo/beta_used_raw': -0.7509552240371704, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29079174995422363, 'logits/rejected': -0.29601868987083435, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 136.83470153808594, 'beta_dpo/beta_margin_mean': 0.13683471083641052, 'beta_dpo/beta_margin_std': 0.12389042973518372, 'beta_dpo/beta_margin_grad_mean': -0.46599993109703064, 'beta_dpo/beta_margin_grad_std': 0.03062298335134983, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████▏                 | 525/681 [35:40<06:59,  2.69s/it] 77%|████████████████████████████████████████████████████████████▏                 | 526/681 [35:43<06:53,  2.67s/it]                                                                                                                     {'loss': 4.632, 'grad_norm': 10179.40234375, 'learning_rate': 7.596651350926836e-08, 'beta_dpo/gap_mean': 118.87196350097656, 'beta_dpo/gap_std': 137.54379272460938, 'beta_dpo/beta_used_raw': 0.724345326423645, 'beta_dpo/beta_used': 1.2091269493103027, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37073665857315063, 'logits/rejected': -0.33339107036590576, 'beta_dpo/beta': 1.2091269493103027, 'beta_dpo/loss_margin_mean': 136.27288818359375, 'beta_dpo/beta_margin_mean': 188.9692840576172, 'beta_dpo/beta_margin_std': 288.71917724609375, 'beta_dpo/beta_margin_grad_mean': -0.2980670630931854, 'beta_dpo/beta_margin_grad_std': 0.2918414771556854, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████▏                 | 526/681 [35:43<06:53,  2.67s/it] 77%|████████████████████████████████████████████████████████████▎                 | 527/681 [35:46<06:55,  2.70s/it]                                                                                                                     {'loss': 0.8418, 'grad_norm': 997.8250122070312, 'learning_rate': 7.504749238082414e-08, 'beta_dpo/gap_mean': 119.21248626708984, 'beta_dpo/gap_std': 135.69989013671875, 'beta_dpo/beta_used_raw': -0.9867266416549683, 'beta_dpo/beta_used': 0.31047749519348145, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32467547059059143, 'logits/rejected': -0.28431421518325806, 'beta_dpo/beta': 0.31047749519348145, 'beta_dpo/loss_margin_mean': 104.62269592285156, 'beta_dpo/beta_margin_mean': 37.45048522949219, 'beta_dpo/beta_margin_std': 69.46243286132812, 'beta_dpo/beta_margin_grad_mean': -0.31394025683403015, 'beta_dpo/beta_margin_grad_std': 0.2968938946723938, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████▎                 | 527/681 [35:46<06:55,  2.70s/it] 78%|████████████████████████████████████████████████████████████▍                 | 528/681 [35:48<06:53,  2.70s/it]                                                                                                                     {'loss': 1.2992, 'grad_norm': 9.15918254852295, 'learning_rate': 7.413308141366254e-08, 'beta_dpo/gap_mean': 117.36293029785156, 'beta_dpo/gap_std': 136.00509643554688, 'beta_dpo/beta_used_raw': -1.420975685119629, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34611016511917114, 'logits/rejected': -0.3225988745689392, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 112.28987121582031, 'beta_dpo/beta_margin_mean': 0.11228987574577332, 'beta_dpo/beta_margin_std': 0.1448754370212555, 'beta_dpo/beta_margin_grad_mean': -0.47215956449508667, 'beta_dpo/beta_margin_grad_std': 0.03576524555683136, 'epoch': 0.78}
+ 78%|████████████████████████████████████████████████████████████▍                 | 528/681 [35:48<06:53,  2.70s/it] 78%|████████████████████████████████████████████████████████████▌                 | 529/681 [35:51<06:49,  2.70s/it]                                                                                                                     {'loss': 1.3025, 'grad_norm': 8.978301048278809, 'learning_rate': 7.322330470336313e-08, 'beta_dpo/gap_mean': 112.62429809570312, 'beta_dpo/gap_std': 133.21206665039062, 'beta_dpo/beta_used_raw': -1.3918501138687134, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29925012588500977, 'logits/rejected': -0.2968965470790863, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 88.21768951416016, 'beta_dpo/beta_margin_mean': 0.08821769058704376, 'beta_dpo/beta_margin_std': 0.12073423713445663, 'beta_dpo/beta_margin_grad_mean': -0.47805625200271606, 'beta_dpo/beta_margin_grad_std': 0.02993660233914852, 'epoch': 0.78}
+ 78%|████████████████████████████████████████████████████████████▌                 | 529/681 [35:51<06:49,  2.70s/it] 78%|████████████████████████████████████████████████████████████▋                 | 530/681 [35:54<06:47,  2.70s/it]                                                                                                                     {'loss': 6.8965, 'grad_norm': 5670.451171875, 'learning_rate': 7.231818622338822e-08, 'beta_dpo/gap_mean': 116.62379455566406, 'beta_dpo/gap_std': 139.05780029296875, 'beta_dpo/beta_used_raw': 0.8118060231208801, 'beta_dpo/beta_used': 0.8380435109138489, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29417866468429565, 'logits/rejected': -0.28473860025405884, 'beta_dpo/beta': 0.8380435109138489, 'beta_dpo/loss_margin_mean': 146.89210510253906, 'beta_dpo/beta_margin_mean': 130.1285858154297, 'beta_dpo/beta_margin_std': 249.0910186767578, 'beta_dpo/beta_margin_grad_mean': -0.29539409279823303, 'beta_dpo/beta_margin_grad_std': 0.29032719135284424, 'epoch': 0.78}
+ 78%|████████████████████████████████████████████████████████████▋                 | 530/681 [35:54<06:47,  2.70s/it] 78%|████████████████████████████████████████████████████████████▊                 | 531/681 [35:56<06:21,  2.54s/it]                                                                                                                     {'loss': 4.4606, 'grad_norm': 3328.2119140625, 'learning_rate': 7.141774982445147e-08, 'beta_dpo/gap_mean': 118.85505676269531, 'beta_dpo/gap_std': 137.6885986328125, 'beta_dpo/beta_used_raw': -0.38052642345428467, 'beta_dpo/beta_used': 0.3860895335674286, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30007681250572205, 'logits/rejected': -0.2692079246044159, 'beta_dpo/beta': 0.3860895335674286, 'beta_dpo/loss_margin_mean': 125.42870330810547, 'beta_dpo/beta_margin_mean': 48.6815071105957, 'beta_dpo/beta_margin_std': 90.59869384765625, 'beta_dpo/beta_margin_grad_mean': -0.3058871030807495, 'beta_dpo/beta_margin_grad_std': 0.29022565484046936, 'epoch': 0.78}
+ 78%|████████████████████████████████████████████████████████████▊                 | 531/681 [35:56<06:21,  2.54s/it] 78%|████████████████████████████████████████████████████████████▉                 | 532/681 [35:59<06:21,  2.56s/it]                                                                                                                     {'loss': 6.5028, 'grad_norm': 6387.31787109375, 'learning_rate': 7.052201923388953e-08, 'beta_dpo/gap_mean': 122.90603637695312, 'beta_dpo/gap_std': 142.55856323242188, 'beta_dpo/beta_used_raw': -0.626258373260498, 'beta_dpo/beta_used': 0.25227928161621094, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3237287104129791, 'logits/rejected': -0.28502288460731506, 'beta_dpo/beta': 0.25227928161621094, 'beta_dpo/loss_margin_mean': 125.72514343261719, 'beta_dpo/beta_margin_mean': 46.9578742980957, 'beta_dpo/beta_margin_std': 80.62285614013672, 'beta_dpo/beta_margin_grad_mean': -0.3480188250541687, 'beta_dpo/beta_margin_grad_std': 0.31572601199150085, 'epoch': 0.78}
+ 78%|████████████████████████████████████████████████████████████▉                 | 532/681 [35:59<06:21,  2.56s/it] 78%|█████████████████████████████████████████████████████████████                 | 533/681 [36:01<06:18,  2.56s/it]                                                                                                                     {'loss': 2.1474, 'grad_norm': 854.921630859375, 'learning_rate': 6.963101805503646e-08, 'beta_dpo/gap_mean': 116.83836364746094, 'beta_dpo/gap_std': 140.88243103027344, 'beta_dpo/beta_used_raw': -1.7720496654510498, 'beta_dpo/beta_used': 0.10688778758049011, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32803478837013245, 'logits/rejected': -0.2940494418144226, 'beta_dpo/beta': 0.10688778758049011, 'beta_dpo/loss_margin_mean': 107.61312103271484, 'beta_dpo/beta_margin_mean': 14.438727378845215, 'beta_dpo/beta_margin_std': 29.17506217956543, 'beta_dpo/beta_margin_grad_mean': -0.36453330516815186, 'beta_dpo/beta_margin_grad_std': 0.31307417154312134, 'epoch': 0.78}
+ 78%|█████████████████████████████████████████████████████████████                 | 533/681 [36:01<06:18,  2.56s/it] 78%|█████████████████████████████████████████████████████████████▏                | 534/681 [36:04<06:16,  2.56s/it]                                                                                                                     {'loss': 7.1215, 'grad_norm': 2596.990478515625, 'learning_rate': 6.874476976660184e-08, 'beta_dpo/gap_mean': 119.16416931152344, 'beta_dpo/gap_std': 142.51844787597656, 'beta_dpo/beta_used_raw': -0.25012335181236267, 'beta_dpo/beta_used': 0.4838470220565796, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3111898899078369, 'logits/rejected': -0.2915695905685425, 'beta_dpo/beta': 0.4838470220565796, 'beta_dpo/loss_margin_mean': 127.46477508544922, 'beta_dpo/beta_margin_mean': 61.1616096496582, 'beta_dpo/beta_margin_std': 110.03469848632812, 'beta_dpo/beta_margin_grad_mean': -0.3121793866157532, 'beta_dpo/beta_margin_grad_std': 0.30149754881858826, 'epoch': 0.78}
+ 78%|█████████████████████████████████████████████████████████████▏                | 534/681 [36:04<06:16,  2.56s/it] 79%|█████████████████████████████████████████████████████████████▎                | 535/681 [36:06<06:16,  2.58s/it]                                                                                                                     {'loss': 0.6606, 'grad_norm': 5.533578395843506, 'learning_rate': 6.786329772205246e-08, 'beta_dpo/gap_mean': 118.63661193847656, 'beta_dpo/gap_std': 141.1715087890625, 'beta_dpo/beta_used_raw': -0.8804515600204468, 'beta_dpo/beta_used': 0.4798532724380493, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34731101989746094, 'logits/rejected': -0.340278685092926, 'beta_dpo/beta': 0.4798532724380493, 'beta_dpo/loss_margin_mean': 122.73117065429688, 'beta_dpo/beta_margin_mean': 74.49298858642578, 'beta_dpo/beta_margin_std': 107.83834075927734, 'beta_dpo/beta_margin_grad_mean': -0.25442755222320557, 'beta_dpo/beta_margin_grad_std': 0.2559193968772888, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████▎                | 535/681 [36:06<06:16,  2.58s/it] 79%|█████████████████████████████████████████████████████████████▍                | 536/681 [36:09<06:17,  2.60s/it]                                                                                                                     {'loss': 1.2712, 'grad_norm': 7.822637557983398, 'learning_rate': 6.698662514899638e-08, 'beta_dpo/gap_mean': 126.47843933105469, 'beta_dpo/gap_std': 143.17359924316406, 'beta_dpo/beta_used_raw': -0.219361811876297, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.28798243403434753, 'logits/rejected': -0.27560853958129883, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 157.9839630126953, 'beta_dpo/beta_margin_mean': 0.1579839587211609, 'beta_dpo/beta_margin_std': 0.16417579352855682, 'beta_dpo/beta_margin_grad_mean': -0.46096980571746826, 'beta_dpo/beta_margin_grad_std': 0.03988654166460037, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████▍                | 536/681 [36:09<06:17,  2.60s/it] 79%|█████████████████████████████████████████████████████████████▌                | 537/681 [36:12<06:20,  2.64s/it]                                                                                                                     {'loss': 1.2903, 'grad_norm': 11.444367408752441, 'learning_rate': 6.611477514857114e-08, 'beta_dpo/gap_mean': 127.0035400390625, 'beta_dpo/gap_std': 146.7835693359375, 'beta_dpo/beta_used_raw': -1.374413013458252, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24693317711353302, 'logits/rejected': -0.20856288075447083, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 127.98716735839844, 'beta_dpo/beta_margin_mean': 0.12798717617988586, 'beta_dpo/beta_margin_std': 0.15467973053455353, 'beta_dpo/beta_margin_grad_mean': -0.4682691991329193, 'beta_dpo/beta_margin_grad_std': 0.03821183741092682, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████▌                | 537/681 [36:12<06:20,  2.64s/it] 79%|█████████████████████████████████████████████████████████████▌                | 538/681 [36:15<06:27,  2.71s/it]                                                                                                                     {'loss': 1.2737, 'grad_norm': 8.882081031799316, 'learning_rate': 6.524777069483525e-08, 'beta_dpo/gap_mean': 128.6876983642578, 'beta_dpo/gap_std': 145.996826171875, 'beta_dpo/beta_used_raw': -0.4291920065879822, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34462568163871765, 'logits/rejected': -0.31714940071105957, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 133.93215942382812, 'beta_dpo/beta_margin_mean': 0.1339321732521057, 'beta_dpo/beta_margin_std': 0.1410028487443924, 'beta_dpo/beta_margin_grad_mean': -0.46676576137542725, 'beta_dpo/beta_margin_grad_std': 0.03483714163303375, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████▌                | 538/681 [36:15<06:27,  2.71s/it] 79%|█████████████████████████████████████████████████████████████▋                | 539/681 [36:17<06:28,  2.74s/it]                                                                                                                     {'loss': 2.8284, 'grad_norm': 1186.32177734375, 'learning_rate': 6.438563463416221e-08, 'beta_dpo/gap_mean': 126.75646209716797, 'beta_dpo/gap_std': 144.74050903320312, 'beta_dpo/beta_used_raw': -1.4830609560012817, 'beta_dpo/beta_used': 0.25301647186279297, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30251675844192505, 'logits/rejected': -0.269988089799881, 'beta_dpo/beta': 0.25301647186279297, 'beta_dpo/loss_margin_mean': 107.55413818359375, 'beta_dpo/beta_margin_mean': 32.2935676574707, 'beta_dpo/beta_margin_std': 58.6886100769043, 'beta_dpo/beta_margin_grad_mean': -0.3016367256641388, 'beta_dpo/beta_margin_grad_std': 0.29386886954307556, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████▋                | 539/681 [36:17<06:28,  2.74s/it] 79%|█████████████████████████████████████████████████████████████▊                | 540/681 [36:20<06:21,  2.70s/it]                                                                                                                     {'loss': 1.2796, 'grad_norm': 11.150030136108398, 'learning_rate': 6.352838968463919e-08, 'beta_dpo/gap_mean': 128.5769805908203, 'beta_dpo/gap_std': 145.3531036376953, 'beta_dpo/beta_used_raw': -0.767475962638855, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32399916648864746, 'logits/rejected': -0.3120352029800415, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 158.32501220703125, 'beta_dpo/beta_margin_mean': 0.15832501649856567, 'beta_dpo/beta_margin_std': 0.17094068229198456, 'beta_dpo/beta_margin_grad_mean': -0.4608391523361206, 'beta_dpo/beta_margin_grad_std': 0.041996635496616364, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████▊                | 540/681 [36:20<06:21,  2.70s/it] 79%|█████████████████████████████████████████████████████████████▉                | 541/681 [36:22<06:08,  2.63s/it]                                                                                                                     {'loss': 0.6651, 'grad_norm': 7.361756324768066, 'learning_rate': 6.267605843546767e-08, 'beta_dpo/gap_mean': 130.40518188476562, 'beta_dpo/gap_std': 148.4336395263672, 'beta_dpo/beta_used_raw': -1.5122350454330444, 'beta_dpo/beta_used': 0.4254739284515381, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34003913402557373, 'logits/rejected': -0.32215964794158936, 'beta_dpo/beta': 0.4254739284515381, 'beta_dpo/loss_margin_mean': 109.54701232910156, 'beta_dpo/beta_margin_mean': 67.95819091796875, 'beta_dpo/beta_margin_std': 111.18570709228516, 'beta_dpo/beta_margin_grad_mean': -0.27390703558921814, 'beta_dpo/beta_margin_grad_std': 0.2731405198574066, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████▉                | 541/681 [36:23<06:08,  2.63s/it] 80%|██████████████████████████████████████████████████████████████                | 542/681 [36:25<06:06,  2.64s/it]                                                                                                                     {'loss': 1.3005, 'grad_norm': 8.798036575317383, 'learning_rate': 6.182866334636888e-08, 'beta_dpo/gap_mean': 129.5877227783203, 'beta_dpo/gap_std': 152.70767211914062, 'beta_dpo/beta_used_raw': -2.1535425186157227, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2917734980583191, 'logits/rejected': -0.28750523924827576, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 138.42153930664062, 'beta_dpo/beta_margin_mean': 0.13842153549194336, 'beta_dpo/beta_margin_std': 0.17371715605258942, 'beta_dpo/beta_margin_grad_mean': -0.46578720211982727, 'beta_dpo/beta_margin_grad_std': 0.04261607676744461, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████                | 542/681 [36:25<06:06,  2.64s/it] 80%|██████████████████████████████████████████████████████████████▏               | 543/681 [36:28<05:57,  2.59s/it]                                                                                                                     {'loss': 1.2969, 'grad_norm': 10.619677543640137, 'learning_rate': 6.098622674699147e-08, 'beta_dpo/gap_mean': 126.10411071777344, 'beta_dpo/gap_std': 155.04043579101562, 'beta_dpo/beta_used_raw': -1.7853881120681763, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3245403468608856, 'logits/rejected': -0.3284730315208435, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 111.25183868408203, 'beta_dpo/beta_margin_mean': 0.1112518459558487, 'beta_dpo/beta_margin_std': 0.1615283042192459, 'beta_dpo/beta_margin_grad_mean': -0.47245243191719055, 'beta_dpo/beta_margin_grad_std': 0.0398247130215168, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████▏               | 543/681 [36:28<05:57,  2.59s/it] 80%|██████████████████████████████████████████████████████████████▎               | 544/681 [36:30<05:54,  2.59s/it]                                                                                                                     {'loss': 0.9386, 'grad_norm': 337.2016906738281, 'learning_rate': 6.01487708363232e-08, 'beta_dpo/gap_mean': 126.75240325927734, 'beta_dpo/gap_std': 154.43374633789062, 'beta_dpo/beta_used_raw': -0.0006970278918743134, 'beta_dpo/beta_used': 0.042499665170907974, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2916638255119324, 'logits/rejected': -0.29204195737838745, 'beta_dpo/beta': 0.042499665170907974, 'beta_dpo/loss_margin_mean': 138.70376586914062, 'beta_dpo/beta_margin_mean': 6.365813732147217, 'beta_dpo/beta_margin_std': 10.63759708404541, 'beta_dpo/beta_margin_grad_mean': -0.3261357545852661, 'beta_dpo/beta_margin_grad_std': 0.27486762404441833, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████▎               | 544/681 [36:30<05:54,  2.59s/it] 80%|██████████████████████████████████████████████████████████████▍               | 545/681 [36:33<05:48,  2.56s/it]                                                                                                                     {'loss': 1.6842, 'grad_norm': 781.7689819335938, 'learning_rate': 5.9316317682106294e-08, 'beta_dpo/gap_mean': 130.86599731445312, 'beta_dpo/gap_std': 152.92401123046875, 'beta_dpo/beta_used_raw': -0.3488979637622833, 'beta_dpo/beta_used': 0.06862561404705048, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2935147285461426, 'logits/rejected': -0.27058857679367065, 'beta_dpo/beta': 0.06862561404705048, 'beta_dpo/loss_margin_mean': 151.92410278320312, 'beta_dpo/beta_margin_mean': 11.304689407348633, 'beta_dpo/beta_margin_std': 18.24564552307129, 'beta_dpo/beta_margin_grad_mean': -0.29947012662887573, 'beta_dpo/beta_margin_grad_std': 0.2657318115234375, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████▍               | 545/681 [36:33<05:48,  2.56s/it] 80%|██████████████████████████████████████████████████████████████▌               | 546/681 [36:35<05:44,  2.55s/it]                                                                                                                     {'loss': 1.079, 'grad_norm': 752.8720092773438, 'learning_rate': 5.848888922025552e-08, 'beta_dpo/gap_mean': 132.23533630371094, 'beta_dpo/gap_std': 149.86732482910156, 'beta_dpo/beta_used_raw': -0.1429443508386612, 'beta_dpo/beta_used': 0.188106968998909, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.27959996461868286, 'logits/rejected': -0.2727757394313812, 'beta_dpo/beta': 0.188106968998909, 'beta_dpo/loss_margin_mean': 125.84686279296875, 'beta_dpo/beta_margin_mean': 26.020763397216797, 'beta_dpo/beta_margin_std': 42.951210021972656, 'beta_dpo/beta_margin_grad_mean': -0.28278061747550964, 'beta_dpo/beta_margin_grad_std': 0.28060972690582275, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████▌               | 546/681 [36:35<05:44,  2.55s/it] 80%|██████████████████████████████████████████████████████████████▋               | 547/681 [36:38<05:50,  2.62s/it]                                                                                                                     {'loss': 8.3158, 'grad_norm': 6136.345703125, 'learning_rate': 5.7666507254280265e-08, 'beta_dpo/gap_mean': 129.84857177734375, 'beta_dpo/gap_std': 149.78875732421875, 'beta_dpo/beta_used_raw': 0.1203995943069458, 'beta_dpo/beta_used': 0.6438117027282715, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3318541646003723, 'logits/rejected': -0.30599403381347656, 'beta_dpo/beta': 0.6438117027282715, 'beta_dpo/loss_margin_mean': 131.3858642578125, 'beta_dpo/beta_margin_mean': 104.74890899658203, 'beta_dpo/beta_margin_std': 195.10377502441406, 'beta_dpo/beta_margin_grad_mean': -0.33132269978523254, 'beta_dpo/beta_margin_grad_std': 0.31213411688804626, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████▋               | 547/681 [36:38<05:50,  2.62s/it] 80%|██████████████████████████████████████████████████████████████▊               | 548/681 [36:41<05:46,  2.61s/it]                                                                                                                     {'loss': 0.6402, 'grad_norm': 5.817610263824463, 'learning_rate': 5.684919345471029e-08, 'beta_dpo/gap_mean': 132.4664764404297, 'beta_dpo/gap_std': 154.11122131347656, 'beta_dpo/beta_used_raw': -0.02570188045501709, 'beta_dpo/beta_used': 0.5348808765411377, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3109471797943115, 'logits/rejected': -0.2878919839859009, 'beta_dpo/beta': 0.5348808765411377, 'beta_dpo/loss_margin_mean': 137.2895965576172, 'beta_dpo/beta_margin_mean': 72.7407455444336, 'beta_dpo/beta_margin_std': 127.447021484375, 'beta_dpo/beta_margin_grad_mean': -0.2953696846961975, 'beta_dpo/beta_margin_grad_std': 0.29101452231407166, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████▊               | 548/681 [36:41<05:46,  2.61s/it] 81%|██████████████████████████████████████████████████████████████▉               | 549/681 [36:43<05:48,  2.64s/it]                                                                                                                     {'loss': 1.2953, 'grad_norm': 8.842658996582031, 'learning_rate': 5.603696935852426e-08, 'beta_dpo/gap_mean': 128.56686401367188, 'beta_dpo/gap_std': 153.61985778808594, 'beta_dpo/beta_used_raw': -1.812859058380127, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2656526565551758, 'logits/rejected': -0.245744526386261, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 106.83413696289062, 'beta_dpo/beta_margin_mean': 0.10683414340019226, 'beta_dpo/beta_margin_std': 0.14824533462524414, 'beta_dpo/beta_margin_grad_mean': -0.4734934866428375, 'beta_dpo/beta_margin_grad_std': 0.03661532700061798, 'epoch': 0.81}
+ 81%|██████████████████████████████████████████████████████████████▉               | 549/681 [36:43<05:48,  2.64s/it] 81%|██████████████████████████████████████████████████████████████▉               | 550/681 [36:46<05:43,  2.62s/it]                                                                                                                     {'loss': 8.9316, 'grad_norm': 4275.45068359375, 'learning_rate': 5.5229856368582376e-08, 'beta_dpo/gap_mean': 126.98031616210938, 'beta_dpo/gap_std': 149.06398010253906, 'beta_dpo/beta_used_raw': -0.1910473108291626, 'beta_dpo/beta_used': 0.5795989036560059, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2921378016471863, 'logits/rejected': -0.2875661849975586, 'beta_dpo/beta': 0.5795989036560059, 'beta_dpo/loss_margin_mean': 115.1662368774414, 'beta_dpo/beta_margin_mean': 79.51753234863281, 'beta_dpo/beta_margin_std': 137.07252502441406, 'beta_dpo/beta_margin_grad_mean': -0.31652987003326416, 'beta_dpo/beta_margin_grad_std': 0.3032745122909546, 'epoch': 0.81}
+ 81%|██████████████████████████████████████████████████████████████▉               | 550/681 [36:46<05:43,  2.62s/it] 81%|███████████████████████████████████████████████████████████████               | 551/681 [36:48<05:31,  2.55s/it]                                                                                                                     {'loss': 11.5516, 'grad_norm': 8295.5263671875, 'learning_rate': 5.4427875753062734e-08, 'beta_dpo/gap_mean': 131.1296844482422, 'beta_dpo/gap_std': 147.8602752685547, 'beta_dpo/beta_used_raw': 1.3962814807891846, 'beta_dpo/beta_used': 1.3962814807891846, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30160123109817505, 'logits/rejected': -0.3009389638900757, 'beta_dpo/beta': 1.3962814807891846, 'beta_dpo/loss_margin_mean': 165.77349853515625, 'beta_dpo/beta_margin_mean': 232.1625518798828, 'beta_dpo/beta_margin_std': 253.87550354003906, 'beta_dpo/beta_margin_grad_mean': -0.18695083260536194, 'beta_dpo/beta_margin_grad_std': 0.38917961716651917, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████               | 551/681 [36:48<05:31,  2.55s/it] 81%|███████████████████████████████████████████████████████████████▏              | 552/681 [36:51<05:24,  2.51s/it]                                                                                                                     {'loss': 0.9032, 'grad_norm': 132.4352264404297, 'learning_rate': 5.363104864490034e-08, 'beta_dpo/gap_mean': 139.46234130859375, 'beta_dpo/gap_std': 153.2427520751953, 'beta_dpo/beta_used_raw': -0.81267249584198, 'beta_dpo/beta_used': 0.030131345614790916, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2840738296508789, 'logits/rejected': -0.2644941210746765, 'beta_dpo/beta': 0.030131345614790916, 'beta_dpo/loss_margin_mean': 167.8729705810547, 'beta_dpo/beta_margin_mean': 6.02596378326416, 'beta_dpo/beta_margin_std': 9.554372787475586, 'beta_dpo/beta_margin_grad_mean': -0.26047882437705994, 'beta_dpo/beta_margin_grad_std': 0.2447003722190857, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████▏              | 552/681 [36:51<05:24,  2.51s/it] 81%|███████████████████████████████████████████████████████████████▎              | 553/681 [36:53<05:25,  2.55s/it]                                                                                                                     {'loss': 1.2862, 'grad_norm': 12.119832038879395, 'learning_rate': 5.2839396041230415e-08, 'beta_dpo/gap_mean': 136.5676727294922, 'beta_dpo/gap_std': 154.75587463378906, 'beta_dpo/beta_used_raw': -1.732727289199829, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2949014902114868, 'logits/rejected': -0.28429996967315674, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 115.4837417602539, 'beta_dpo/beta_margin_mean': 0.11548375338315964, 'beta_dpo/beta_margin_std': 0.1468585580587387, 'beta_dpo/beta_margin_grad_mean': -0.4713681638240814, 'beta_dpo/beta_margin_grad_std': 0.03616320341825485, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████▎              | 553/681 [36:53<05:25,  2.55s/it] 81%|███████████████████████████████████████████████████████████████▍              | 554/681 [36:56<05:23,  2.55s/it]                                                                                                                     {'loss': 5.6062, 'grad_norm': 4559.46533203125, 'learning_rate': 5.205293880283551e-08, 'beta_dpo/gap_mean': 135.99404907226562, 'beta_dpo/gap_std': 153.7836456298828, 'beta_dpo/beta_used_raw': 1.4587900638580322, 'beta_dpo/beta_used': 1.4587900638580322, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3366745710372925, 'logits/rejected': -0.2806839942932129, 'beta_dpo/beta': 1.4587900638580322, 'beta_dpo/loss_margin_mean': 152.52484130859375, 'beta_dpo/beta_margin_mean': 238.0844268798828, 'beta_dpo/beta_margin_std': 281.8099365234375, 'beta_dpo/beta_margin_grad_mean': -0.14538182318210602, 'beta_dpo/beta_margin_grad_std': 0.3477603495121002, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████▍              | 554/681 [36:56<05:23,  2.55s/it] 81%|███████████████████████████████████████████████████████████████▌              | 555/681 [36:58<05:12,  2.48s/it]                                                                                                                     {'loss': 1.2716, 'grad_norm': 9.786598205566406, 'learning_rate': 5.127169765359515e-08, 'beta_dpo/gap_mean': 141.6253662109375, 'beta_dpo/gap_std': 156.78480529785156, 'beta_dpo/beta_used_raw': -1.0361934900283813, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32283300161361694, 'logits/rejected': -0.32556623220443726, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 158.44393920898438, 'beta_dpo/beta_margin_mean': 0.15844394266605377, 'beta_dpo/beta_margin_std': 0.17401549220085144, 'beta_dpo/beta_margin_grad_mean': -0.46083858609199524, 'beta_dpo/beta_margin_grad_std': 0.04272112995386124, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████▌              | 555/681 [36:58<05:12,  2.48s/it] 82%|███████████████████████████████████████████████████████████████▋              | 556/681 [37:01<05:17,  2.54s/it]                                                                                                                     {'loss': 1.2816, 'grad_norm': 9.365325927734375, 'learning_rate': 5.049569317994012e-08, 'beta_dpo/gap_mean': 137.80215454101562, 'beta_dpo/gap_std': 157.4153594970703, 'beta_dpo/beta_used_raw': -1.443986415863037, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26281827688217163, 'logits/rejected': -0.25179579854011536, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 114.5506591796875, 'beta_dpo/beta_margin_mean': 0.11455066502094269, 'beta_dpo/beta_margin_std': 0.1455988883972168, 'beta_dpo/beta_margin_grad_mean': -0.47160035371780396, 'beta_dpo/beta_margin_grad_std': 0.03592273220419884, 'epoch': 0.82}
+ 82%|███████████████████████████████████████████████████████████████▋              | 556/681 [37:01<05:17,  2.54s/it] 82%|███████████████████████████████████████████████████████████████▊              | 557/681 [37:03<05:18,  2.57s/it]                                                                                                                     {'loss': 1.2898, 'grad_norm': 9.669354438781738, 'learning_rate': 4.9724945830310144e-08, 'beta_dpo/gap_mean': 137.3007049560547, 'beta_dpo/gap_std': 157.2840576171875, 'beta_dpo/beta_used_raw': -2.001009464263916, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.337306410074234, 'logits/rejected': -0.3294256329536438, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 134.2703399658203, 'beta_dpo/beta_margin_mean': 0.1342703402042389, 'beta_dpo/beta_margin_std': 0.15857142210006714, 'beta_dpo/beta_margin_grad_mean': -0.4667251408100128, 'beta_dpo/beta_margin_grad_std': 0.03912574052810669, 'epoch': 0.82}
+ 82%|███████████████████████████████████████████████████████████████▊              | 557/681 [37:04<05:18,  2.57s/it] 82%|███████████████████████████████████████████████████████████████▉              | 558/681 [37:06<05:13,  2.55s/it]                                                                                                                     {'loss': 1.8804, 'grad_norm': 3461.24609375, 'learning_rate': 4.8959475914614554e-08, 'beta_dpo/gap_mean': 142.946044921875, 'beta_dpo/gap_std': 159.32034301757812, 'beta_dpo/beta_used_raw': 0.4606805443763733, 'beta_dpo/beta_used': 1.0059072971343994, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3064291179180145, 'logits/rejected': -0.2867761254310608, 'beta_dpo/beta': 1.0059072971343994, 'beta_dpo/loss_margin_mean': 181.12159729003906, 'beta_dpo/beta_margin_mean': 189.39646911621094, 'beta_dpo/beta_margin_std': 301.6690673828125, 'beta_dpo/beta_margin_grad_mean': -0.2754041254520416, 'beta_dpo/beta_margin_grad_std': 0.2766437232494354, 'epoch': 0.82}
+ 82%|███████████████████████████████████████████████████████████████▉              | 558/681 [37:06<05:13,  2.55s/it] 82%|████████████████████████████████████████████████████████████████              | 559/681 [37:09<05:17,  2.60s/it]                                                                                                                     {'loss': 1.2773, 'grad_norm': 10.119109153747559, 'learning_rate': 4.8199303603697614e-08, 'beta_dpo/gap_mean': 142.8798828125, 'beta_dpo/gap_std': 159.66058349609375, 'beta_dpo/beta_used_raw': -1.5490376949310303, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29613497853279114, 'logits/rejected': -0.264508992433548, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 130.55618286132812, 'beta_dpo/beta_margin_mean': 0.13055618107318878, 'beta_dpo/beta_margin_std': 0.15036651492118835, 'beta_dpo/beta_margin_grad_mean': -0.46763336658477783, 'beta_dpo/beta_margin_grad_std': 0.037108905613422394, 'epoch': 0.82}
+ 82%|████████████████████████████████████████████████████████████████              | 559/681 [37:09<05:17,  2.60s/it] 82%|████████████████████████████████████████████████████████████████▏             | 560/681 [37:12<05:27,  2.70s/it]                                                                                                                     {'loss': 1.3, 'grad_norm': 7.162990093231201, 'learning_rate': 4.7444448928806615e-08, 'beta_dpo/gap_mean': 135.69216918945312, 'beta_dpo/gap_std': 153.98773193359375, 'beta_dpo/beta_used_raw': -2.5403027534484863, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3266592025756836, 'logits/rejected': -0.29840749502182007, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 95.51001739501953, 'beta_dpo/beta_margin_mean': 0.09551002085208893, 'beta_dpo/beta_margin_std': 0.11784511804580688, 'beta_dpo/beta_margin_grad_mean': -0.4762340188026428, 'beta_dpo/beta_margin_grad_std': 0.02926693856716156, 'epoch': 0.82}
+ 82%|████████████████████████████████████████████████████████████████▏             | 560/681 [37:12<05:27,  2.70s/it] 82%|████████████████████████████████████████████████████████████████▎             | 561/681 [37:14<05:15,  2.63s/it]                                                                                                                     {'loss': 1.2876, 'grad_norm': 9.79651165008545, 'learning_rate': 4.669493178106432e-08, 'beta_dpo/gap_mean': 128.0847930908203, 'beta_dpo/gap_std': 150.51815795898438, 'beta_dpo/beta_used_raw': -1.3117592334747314, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25924211740493774, 'logits/rejected': -0.26707911491394043, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 107.95172882080078, 'beta_dpo/beta_margin_mean': 0.10795173794031143, 'beta_dpo/beta_margin_std': 0.15263213217258453, 'beta_dpo/beta_margin_grad_mean': -0.4732115864753723, 'beta_dpo/beta_margin_grad_std': 0.03771474212408066, 'epoch': 0.82}
+ 82%|████████████████████████████████████████████████████████████████▎             | 561/681 [37:14<05:15,  2.63s/it] 83%|████████████████████████████████████████████████████████████████▎             | 562/681 [37:17<05:17,  2.67s/it]                                                                                                                     {'loss': 0.5564, 'grad_norm': 1593.489501953125, 'learning_rate': 4.5950771910944596e-08, 'beta_dpo/gap_mean': 133.90435791015625, 'beta_dpo/gap_std': 153.45608520507812, 'beta_dpo/beta_used_raw': 0.3996525704860687, 'beta_dpo/beta_used': 0.3996525704860687, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2836867570877075, 'logits/rejected': -0.2583543062210083, 'beta_dpo/beta': 0.3996525704860687, 'beta_dpo/loss_margin_mean': 160.7019500732422, 'beta_dpo/beta_margin_mean': 71.11713409423828, 'beta_dpo/beta_margin_std': 115.91793060302734, 'beta_dpo/beta_margin_grad_mean': -0.18731488287448883, 'beta_dpo/beta_margin_grad_std': 0.24937215447425842, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████▎             | 562/681 [37:17<05:17,  2.67s/it] 83%|████████████████████████████████████████████████████████████████▍             | 563/681 [37:19<05:07,  2.61s/it]                                                                                                                     {'loss': 0.6609, 'grad_norm': 5.384544372558594, 'learning_rate': 4.521198892775202e-08, 'beta_dpo/gap_mean': 128.47000122070312, 'beta_dpo/gap_std': 152.47921752929688, 'beta_dpo/beta_used_raw': -1.030278205871582, 'beta_dpo/beta_used': 0.6970747709274292, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2287236452102661, 'logits/rejected': -0.2236756980419159, 'beta_dpo/beta': 0.6970747709274292, 'beta_dpo/loss_margin_mean': 104.50337219238281, 'beta_dpo/beta_margin_mean': 97.39839935302734, 'beta_dpo/beta_margin_std': 165.26593017578125, 'beta_dpo/beta_margin_grad_mean': -0.2882736921310425, 'beta_dpo/beta_margin_grad_std': 0.28458070755004883, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████▍             | 563/681 [37:19<05:07,  2.61s/it] 83%|████████████████████████████████████████████████████████████████▌             | 564/681 [37:22<05:00,  2.56s/it]                                                                                                                     {'loss': 1.2715, 'grad_norm': 10.955151557922363, 'learning_rate': 4.447860229910544e-08, 'beta_dpo/gap_mean': 128.43161010742188, 'beta_dpo/gap_std': 145.12420654296875, 'beta_dpo/beta_used_raw': -0.3562297523021698, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3264349102973938, 'logits/rejected': -0.27898818254470825, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 127.449462890625, 'beta_dpo/beta_margin_mean': 0.12744946777820587, 'beta_dpo/beta_margin_std': 0.10762052237987518, 'beta_dpo/beta_margin_grad_mean': -0.468271940946579, 'beta_dpo/beta_margin_grad_std': 0.026733947917819023, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████▌             | 564/681 [37:22<05:00,  2.56s/it] 83%|████████████████████████████████████████████████████████████████▋             | 565/681 [37:24<05:00,  2.59s/it]                                                                                                                     {'loss': 1.2962, 'grad_norm': 9.339284896850586, 'learning_rate': 4.375063135042445e-08, 'beta_dpo/gap_mean': 129.21328735351562, 'beta_dpo/gap_std': 149.37860107421875, 'beta_dpo/beta_used_raw': -1.8274688720703125, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32135599851608276, 'logits/rejected': -0.29336240887641907, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 125.99852752685547, 'beta_dpo/beta_margin_mean': 0.12599852681159973, 'beta_dpo/beta_margin_std': 0.1797182410955429, 'beta_dpo/beta_margin_grad_mean': -0.46887075901031494, 'beta_dpo/beta_margin_grad_std': 0.04425227269530296, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████▋             | 565/681 [37:24<05:00,  2.59s/it] 83%|████████████████████████████████████████████████████████████████▊             | 566/681 [37:27<04:59,  2.61s/it]                                                                                                                     {'loss': 15.8724, 'grad_norm': 6508.62109375, 'learning_rate': 4.3028095264420525e-08, 'beta_dpo/gap_mean': 126.85293579101562, 'beta_dpo/gap_std': 152.6265411376953, 'beta_dpo/beta_used_raw': 0.07706618309020996, 'beta_dpo/beta_used': 0.8117600679397583, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32367947697639465, 'logits/rejected': -0.31794965267181396, 'beta_dpo/beta': 0.8117600679397583, 'beta_dpo/loss_margin_mean': 133.81838989257812, 'beta_dpo/beta_margin_mean': 146.53407287597656, 'beta_dpo/beta_margin_std': 228.20166015625, 'beta_dpo/beta_margin_grad_mean': -0.31733959913253784, 'beta_dpo/beta_margin_grad_std': 0.30447834730148315, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████▊             | 566/681 [37:27<04:59,  2.61s/it] 83%|████████████████████████████████████████████████████████████████▉             | 567/681 [37:29<04:48,  2.53s/it]                                                                                                                     {'loss': 1.278, 'grad_norm': 9.504931449890137, 'learning_rate': 4.231101308059165e-08, 'beta_dpo/gap_mean': 129.08819580078125, 'beta_dpo/gap_std': 152.85943603515625, 'beta_dpo/beta_used_raw': -0.7240467667579651, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23528262972831726, 'logits/rejected': -0.2039298713207245, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 124.32524871826172, 'beta_dpo/beta_margin_mean': 0.12432525306940079, 'beta_dpo/beta_margin_std': 0.15016567707061768, 'beta_dpo/beta_margin_grad_mean': -0.46915555000305176, 'beta_dpo/beta_margin_grad_std': 0.037161875516176224, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████▉             | 567/681 [37:29<04:48,  2.53s/it] 83%|█████████████████████████████████████████████████████████████████             | 568/681 [37:32<04:39,  2.47s/it]                                                                                                                     {'loss': 0.6345, 'grad_norm': 6.678622245788574, 'learning_rate': 4.1599403694720145e-08, 'beta_dpo/gap_mean': 133.88278198242188, 'beta_dpo/gap_std': 151.78158569335938, 'beta_dpo/beta_used_raw': 0.6107033491134644, 'beta_dpo/beta_used': 0.8461459279060364, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23205448687076569, 'logits/rejected': -0.23499351739883423, 'beta_dpo/beta': 0.8461459279060364, 'beta_dpo/loss_margin_mean': 160.45494079589844, 'beta_dpo/beta_margin_mean': 147.88540649414062, 'beta_dpo/beta_margin_std': 209.6600341796875, 'beta_dpo/beta_margin_grad_mean': -0.2526528537273407, 'beta_dpo/beta_margin_grad_std': 0.24908038973808289, 'epoch': 0.83}
+ 83%|█████████████████████████████████████████████████████████████████             | 568/681 [37:32<04:39,  2.47s/it] 84%|█████████████████████████████████████████████████████████████████▏            | 569/681 [37:34<04:41,  2.51s/it]                                                                                                                     {'loss': 1.2718, 'grad_norm': 8.88830280303955, 'learning_rate': 4.089328585837512e-08, 'beta_dpo/gap_mean': 132.76881408691406, 'beta_dpo/gap_std': 157.49737548828125, 'beta_dpo/beta_used_raw': -0.5694082379341125, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2558819651603699, 'logits/rejected': -0.23038721084594727, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 126.70633697509766, 'beta_dpo/beta_margin_mean': 0.1267063468694687, 'beta_dpo/beta_margin_std': 0.1721249222755432, 'beta_dpo/beta_margin_grad_mean': -0.4686329960823059, 'beta_dpo/beta_margin_grad_std': 0.042182739824056625, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████▏            | 569/681 [37:34<04:41,  2.51s/it] 84%|█████████████████████████████████████████████████████████████████▎            | 570/681 [37:37<04:42,  2.55s/it]                                                                                                                     {'loss': 1.2812, 'grad_norm': 9.188750267028809, 'learning_rate': 4.019267817841834e-08, 'beta_dpo/gap_mean': 135.02297973632812, 'beta_dpo/gap_std': 156.3493194580078, 'beta_dpo/beta_used_raw': -1.3033900260925293, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2918507754802704, 'logits/rejected': -0.25753656029701233, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 141.2174530029297, 'beta_dpo/beta_margin_mean': 0.1412174552679062, 'beta_dpo/beta_margin_std': 0.1463191956281662, 'beta_dpo/beta_margin_grad_mean': -0.4649701714515686, 'beta_dpo/beta_margin_grad_std': 0.03612607344985008, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████▎            | 570/681 [37:37<04:42,  2.55s/it] 84%|█████████████████████████████████████████████████████████████████▍            | 571/681 [37:40<04:42,  2.57s/it]                                                                                                                     {'loss': 1.2632, 'grad_norm': 9.97313117980957, 'learning_rate': 3.9497599116513705e-08, 'beta_dpo/gap_mean': 136.13604736328125, 'beta_dpo/gap_std': 156.74822998046875, 'beta_dpo/beta_used_raw': -0.18992829322814941, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25397494435310364, 'logits/rejected': -0.2496742308139801, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 141.20675659179688, 'beta_dpo/beta_margin_mean': 0.141206756234169, 'beta_dpo/beta_margin_std': 0.16472414135932922, 'beta_dpo/beta_margin_grad_mean': -0.4650152325630188, 'beta_dpo/beta_margin_grad_std': 0.04063018783926964, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████▍            | 571/681 [37:40<04:42,  2.57s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 572/681 [37:42<04:41,  2.59s/it]                                                                                                                     {'loss': 1.2785, 'grad_norm': 8.473297119140625, 'learning_rate': 3.880806698864086e-08, 'beta_dpo/gap_mean': 137.13278198242188, 'beta_dpo/gap_std': 162.1319122314453, 'beta_dpo/beta_used_raw': -1.1367369890213013, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.1344674527645111, 'logits/rejected': -0.1297120749950409, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 141.65823364257812, 'beta_dpo/beta_margin_mean': 0.1416582465171814, 'beta_dpo/beta_margin_std': 0.19958563148975372, 'beta_dpo/beta_margin_grad_mean': -0.46506214141845703, 'beta_dpo/beta_margin_grad_std': 0.04904274642467499, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████▌            | 572/681 [37:42<04:41,  2.59s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 573/681 [37:44<04:26,  2.47s/it]                                                                                                                     {'loss': 1.0498, 'grad_norm': 2860.332763671875, 'learning_rate': 3.812409996461275e-08, 'beta_dpo/gap_mean': 134.93524169921875, 'beta_dpo/gap_std': 163.98435974121094, 'beta_dpo/beta_used_raw': -0.6155003905296326, 'beta_dpo/beta_used': 0.5657570362091064, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21585188806056976, 'logits/rejected': -0.1981552243232727, 'beta_dpo/beta': 0.5657570362091064, 'beta_dpo/loss_margin_mean': 134.92376708984375, 'beta_dpo/beta_margin_mean': 95.1263656616211, 'beta_dpo/beta_margin_std': 160.51971435546875, 'beta_dpo/beta_margin_grad_mean': -0.31479325890541077, 'beta_dpo/beta_margin_grad_std': 0.3017220199108124, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████▋            | 573/681 [37:44<04:26,  2.47s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 574/681 [37:47<04:36,  2.59s/it]                                                                                                                     {'loss': 7.3757, 'grad_norm': 4061.1669921875, 'learning_rate': 3.74457160675965e-08, 'beta_dpo/gap_mean': 137.75469970703125, 'beta_dpo/gap_std': 164.98902893066406, 'beta_dpo/beta_used_raw': -0.5097041130065918, 'beta_dpo/beta_used': 0.42727431654930115, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2794973850250244, 'logits/rejected': -0.27186524868011475, 'beta_dpo/beta': 0.42727431654930115, 'beta_dpo/loss_margin_mean': 151.39781188964844, 'beta_dpo/beta_margin_mean': 74.77179718017578, 'beta_dpo/beta_margin_std': 117.22281646728516, 'beta_dpo/beta_margin_grad_mean': -0.29670077562332153, 'beta_dpo/beta_margin_grad_std': 0.2917650043964386, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████▋            | 574/681 [37:47<04:36,  2.59s/it] 84%|█████████████████████████████████████████████████████████████████▊            | 575/681 [37:50<04:35,  2.60s/it]                                                                                                                     {'loss': 10.9297, 'grad_norm': 5152.19970703125, 'learning_rate': 3.677293317363864e-08, 'beta_dpo/gap_mean': 142.86614990234375, 'beta_dpo/gap_std': 165.47073364257812, 'beta_dpo/beta_used_raw': -1.0610246658325195, 'beta_dpo/beta_used': 0.7542173862457275, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23463058471679688, 'logits/rejected': -0.22157064080238342, 'beta_dpo/beta': 0.7542173862457275, 'beta_dpo/loss_margin_mean': 148.09268188476562, 'beta_dpo/beta_margin_mean': 144.06639099121094, 'beta_dpo/beta_margin_std': 216.29620361328125, 'beta_dpo/beta_margin_grad_mean': -0.28391233086586, 'beta_dpo/beta_margin_grad_std': 0.2826778292655945, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████▊            | 575/681 [37:50<04:35,  2.60s/it] 85%|█████████████████████████████████████████████████████████████████▉            | 576/681 [37:52<04:29,  2.57s/it]                                                                                                                     {'loss': 15.0778, 'grad_norm': 8114.90380859375, 'learning_rate': 3.6105769011194224e-08, 'beta_dpo/gap_mean': 143.2208251953125, 'beta_dpo/gap_std': 170.84510803222656, 'beta_dpo/beta_used_raw': -0.325950026512146, 'beta_dpo/beta_used': 0.7337521910667419, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.19612964987754822, 'logits/rejected': -0.20850840210914612, 'beta_dpo/beta': 0.7337521910667419, 'beta_dpo/loss_margin_mean': 145.1151885986328, 'beta_dpo/beta_margin_mean': 134.6069793701172, 'beta_dpo/beta_margin_std': 246.19821166992188, 'beta_dpo/beta_margin_grad_mean': -0.33054977655410767, 'beta_dpo/beta_margin_grad_std': 0.3121558427810669, 'epoch': 0.85}
+ 85%|█████████████████████████████████████████████████████████████████▉            | 576/681 [37:52<04:29,  2.57s/it] 85%|██████████████████████████████████████████████████████████████████            | 577/681 [37:55<04:23,  2.53s/it]                                                                                                                     {'loss': 1.2622, 'grad_norm': 10.440290451049805, 'learning_rate': 3.5444241160659304e-08, 'beta_dpo/gap_mean': 141.38392639160156, 'beta_dpo/gap_std': 167.66371154785156, 'beta_dpo/beta_used_raw': -0.49266529083251953, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23968470096588135, 'logits/rejected': -0.20959413051605225, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 141.19017028808594, 'beta_dpo/beta_margin_mean': 0.14119017124176025, 'beta_dpo/beta_margin_std': 0.1427299827337265, 'beta_dpo/beta_margin_grad_mean': -0.46494874358177185, 'beta_dpo/beta_margin_grad_std': 0.03526080772280693, 'epoch': 0.85}
+ 85%|██████████████████████████████████████████████████████████████████            | 577/681 [37:55<04:23,  2.53s/it] 85%|██████████████████████████████████████████████████████████████████▏           | 578/681 [37:57<04:22,  2.55s/it]                                                                                                                     {'loss': 11.5305, 'grad_norm': 6583.7763671875, 'learning_rate': 3.478836705390808e-08, 'beta_dpo/gap_mean': 143.93539428710938, 'beta_dpo/gap_std': 159.52902221679688, 'beta_dpo/beta_used_raw': 0.006027281284332275, 'beta_dpo/beta_used': 0.7611909508705139, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22640444338321686, 'logits/rejected': -0.2157905399799347, 'beta_dpo/beta': 0.7611909508705139, 'beta_dpo/loss_margin_mean': 147.3227996826172, 'beta_dpo/beta_margin_mean': 142.5281219482422, 'beta_dpo/beta_margin_std': 197.11514282226562, 'beta_dpo/beta_margin_grad_mean': -0.2679000794887543, 'beta_dpo/beta_margin_grad_std': 0.26821058988571167, 'epoch': 0.85}
+ 85%|██████████████████████████████████████████████████████████████████▏           | 578/681 [37:58<04:22,  2.55s/it] 85%|██████████████████████████████████████████████████████████████████▎           | 579/681 [38:00<04:22,  2.57s/it]                                                                                                                     {'loss': 1.2754, 'grad_norm': 9.89820384979248, 'learning_rate': 3.41381639738331e-08, 'beta_dpo/gap_mean': 139.8126220703125, 'beta_dpo/gap_std': 156.47616577148438, 'beta_dpo/beta_used_raw': -1.2088857889175415, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2302914261817932, 'logits/rejected': -0.2305675745010376, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 127.76739501953125, 'beta_dpo/beta_margin_mean': 0.1277673989534378, 'beta_dpo/beta_margin_std': 0.14521077275276184, 'beta_dpo/beta_margin_grad_mean': -0.46830984950065613, 'beta_dpo/beta_margin_grad_std': 0.035833120346069336, 'epoch': 0.85}
+ 85%|██████████████████████████████████████████████████████████████████▎           | 579/681 [38:00<04:22,  2.57s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 580/681 [38:03<04:17,  2.55s/it]                                                                                                                     {'loss': 3.4703, 'grad_norm': 4675.8388671875, 'learning_rate': 3.349364905389032e-08, 'beta_dpo/gap_mean': 145.12841796875, 'beta_dpo/gap_std': 160.601318359375, 'beta_dpo/beta_used_raw': 0.005323469638824463, 'beta_dpo/beta_used': 0.6327630877494812, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2667354345321655, 'logits/rejected': -0.2596646249294281, 'beta_dpo/beta': 0.6327630877494812, 'beta_dpo/loss_margin_mean': 171.3323516845703, 'beta_dpo/beta_margin_mean': 124.6340560913086, 'beta_dpo/beta_margin_std': 214.6474151611328, 'beta_dpo/beta_margin_grad_mean': -0.294393390417099, 'beta_dpo/beta_margin_grad_std': 0.2901197075843811, 'epoch': 0.85}
+ 85%|██████████████████████████████████████████████████████████████████▍           | 580/681 [38:03<04:17,  2.55s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 581/681 [38:05<04:11,  2.52s/it]                                                                                                                     {'loss': 1.2772, 'grad_norm': 11.051158905029297, 'learning_rate': 3.285483927764726e-08, 'beta_dpo/gap_mean': 142.22879028320312, 'beta_dpo/gap_std': 161.37136840820312, 'beta_dpo/beta_used_raw': -1.4444794654846191, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2130197286605835, 'logits/rejected': -0.19874969124794006, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 122.41778564453125, 'beta_dpo/beta_margin_mean': 0.12241779267787933, 'beta_dpo/beta_margin_std': 0.1532379686832428, 'beta_dpo/beta_margin_grad_mean': -0.4696502089500427, 'beta_dpo/beta_margin_grad_std': 0.037816308438777924, 'epoch': 0.85}
+ 85%|██████████████████████████████████████████████████████████████████▌           | 581/681 [38:05<04:11,  2.52s/it] 85%|██████████████████████████████████████████████████████████████████▋           | 582/681 [38:08<04:11,  2.54s/it]                                                                                                                     {'loss': 3.3185, 'grad_norm': 6046.9873046875, 'learning_rate': 3.222175147833556e-08, 'beta_dpo/gap_mean': 140.53729248046875, 'beta_dpo/gap_std': 163.76708984375, 'beta_dpo/beta_used_raw': 0.31641441583633423, 'beta_dpo/beta_used': 0.8017593622207642, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2035096287727356, 'logits/rejected': -0.21539103984832764, 'beta_dpo/beta': 0.8017593622207642, 'beta_dpo/loss_margin_mean': 150.3306884765625, 'beta_dpo/beta_margin_mean': 149.09133911132812, 'beta_dpo/beta_margin_std': 235.7801971435547, 'beta_dpo/beta_margin_grad_mean': -0.3157171308994293, 'beta_dpo/beta_margin_grad_std': 0.30175650119781494, 'epoch': 0.85}
+ 85%|██████████████████████████████████████████████████████████████████▋           | 582/681 [38:08<04:11,  2.54s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 583/681 [38:10<04:11,  2.56s/it]                                                                                                                     {'loss': 1.185, 'grad_norm': 3786.101318359375, 'learning_rate': 3.159440233840763e-08, 'beta_dpo/gap_mean': 141.73876953125, 'beta_dpo/gap_std': 164.75506591796875, 'beta_dpo/beta_used_raw': -1.43953537940979, 'beta_dpo/beta_used': 0.9682586193084717, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24737709760665894, 'logits/rejected': -0.2320498675107956, 'beta_dpo/beta': 0.9682586193084717, 'beta_dpo/loss_margin_mean': 119.88349151611328, 'beta_dpo/beta_margin_mean': 162.30221557617188, 'beta_dpo/beta_margin_std': 269.2271423339844, 'beta_dpo/beta_margin_grad_mean': -0.30453696846961975, 'beta_dpo/beta_margin_grad_std': 0.2952696681022644, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████▊           | 583/681 [38:10<04:11,  2.56s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 584/681 [38:13<04:11,  2.59s/it]                                                                                                                     {'loss': 4.5156, 'grad_norm': 8176.68701171875, 'learning_rate': 3.0972808389096635e-08, 'beta_dpo/gap_mean': 145.17355346679688, 'beta_dpo/gap_std': 163.69281005859375, 'beta_dpo/beta_used_raw': 1.6438066959381104, 'beta_dpo/beta_used': 1.6438066959381104, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2157582938671112, 'logits/rejected': -0.18717166781425476, 'beta_dpo/beta': 1.6438066959381104, 'beta_dpo/loss_margin_mean': 184.53834533691406, 'beta_dpo/beta_margin_mean': 301.57366943359375, 'beta_dpo/beta_margin_std': 240.6201934814453, 'beta_dpo/beta_margin_grad_mean': -0.09067382663488388, 'beta_dpo/beta_margin_grad_std': 0.27994534373283386, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████▉           | 584/681 [38:13<04:11,  2.59s/it] 86%|███████████████████████████████████████████████████████████████████           | 585/681 [38:15<04:05,  2.56s/it]                                                                                                                     {'loss': 1.2685, 'grad_norm': 10.569422721862793, 'learning_rate': 3.035698600998121e-08, 'beta_dpo/gap_mean': 146.427490234375, 'beta_dpo/gap_std': 167.09033203125, 'beta_dpo/beta_used_raw': -1.062327265739441, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22004346549510956, 'logits/rejected': -0.19343584775924683, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 140.87313842773438, 'beta_dpo/beta_margin_mean': 0.14087313413619995, 'beta_dpo/beta_margin_std': 0.1823493242263794, 'beta_dpo/beta_margin_grad_mean': -0.4652203321456909, 'beta_dpo/beta_margin_grad_std': 0.04472190886735916, 'epoch': 0.86}
+ 86%|███████████████████████████████████████████████████████████████████           | 585/681 [38:15<04:05,  2.56s/it] 86%|███████████████████████████████████████████████████████████████████           | 586/681 [38:18<04:01,  2.54s/it]                                                                                                                     {'loss': 20.036, 'grad_norm': 6330.98046875, 'learning_rate': 2.974695142855388e-08, 'beta_dpo/gap_mean': 142.56971740722656, 'beta_dpo/gap_std': 166.39047241210938, 'beta_dpo/beta_used_raw': 0.3582208454608917, 'beta_dpo/beta_used': 0.6197296380996704, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.15243850648403168, 'logits/rejected': -0.1464701145887375, 'beta_dpo/beta': 0.6197296380996704, 'beta_dpo/loss_margin_mean': 124.97702026367188, 'beta_dpo/beta_margin_mean': 77.84491729736328, 'beta_dpo/beta_margin_std': 179.86990356445312, 'beta_dpo/beta_margin_grad_mean': -0.34489572048187256, 'beta_dpo/beta_margin_grad_std': 0.31850454211235046, 'epoch': 0.86}
+ 86%|███████████████████████████████████████████████████████████████████           | 586/681 [38:18<04:01,  2.54s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 587/681 [38:21<04:03,  2.59s/it]                                                                                                                     {'loss': 1.6782, 'grad_norm': 1486.959716796875, 'learning_rate': 2.9142720719793122e-08, 'beta_dpo/gap_mean': 141.173828125, 'beta_dpo/gap_std': 167.37734985351562, 'beta_dpo/beta_used_raw': 0.002979278564453125, 'beta_dpo/beta_used': 0.1769709438085556, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21711990237236023, 'logits/rejected': -0.22026541829109192, 'beta_dpo/beta': 0.1769709438085556, 'beta_dpo/loss_margin_mean': 143.61300659179688, 'beta_dpo/beta_margin_mean': 28.48146629333496, 'beta_dpo/beta_margin_std': 53.35295104980469, 'beta_dpo/beta_margin_grad_mean': -0.31770533323287964, 'beta_dpo/beta_margin_grad_std': 0.2991076707839966, 'epoch': 0.86}
+ 86%|███████████████████████████████████████████████████████████████████▏          | 587/681 [38:21<04:03,  2.59s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 588/681 [38:23<03:55,  2.53s/it]                                                                                                                     {'loss': 1.2803, 'grad_norm': 10.127455711364746, 'learning_rate': 2.8544309805740018e-08, 'beta_dpo/gap_mean': 142.1791534423828, 'beta_dpo/gap_std': 167.677001953125, 'beta_dpo/beta_used_raw': -1.646202802658081, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.20089392364025116, 'logits/rejected': -0.21640396118164062, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 134.3628387451172, 'beta_dpo/beta_margin_mean': 0.1343628466129303, 'beta_dpo/beta_margin_std': 0.16470497846603394, 'beta_dpo/beta_margin_grad_mean': -0.46673768758773804, 'beta_dpo/beta_margin_grad_std': 0.040590547025203705, 'epoch': 0.86}
+ 86%|███████████████████████████████████████████████████████████████████▎          | 588/681 [38:23<03:55,  2.53s/it] 86%|███████████████████████████████████████████████████████████████████▍          | 589/681 [38:25<03:50,  2.50s/it]                                                                                                                     {'loss': 9.0009, 'grad_norm': 4978.62353515625, 'learning_rate': 2.7951734455078786e-08, 'beta_dpo/gap_mean': 145.3118438720703, 'beta_dpo/gap_std': 171.17291259765625, 'beta_dpo/beta_used_raw': 0.6308818459510803, 'beta_dpo/beta_used': 0.7172443270683289, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21389494836330414, 'logits/rejected': -0.21070238947868347, 'beta_dpo/beta': 0.7172443270683289, 'beta_dpo/loss_margin_mean': 175.2359619140625, 'beta_dpo/beta_margin_mean': 129.02499389648438, 'beta_dpo/beta_margin_std': 218.08363342285156, 'beta_dpo/beta_margin_grad_mean': -0.2917996644973755, 'beta_dpo/beta_margin_grad_std': 0.288737952709198, 'epoch': 0.86}
+ 86%|███████████████████████████████████████████████████████████████████▍          | 589/681 [38:25<03:50,  2.50s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 590/681 [38:28<03:44,  2.47s/it]                                                                                                                     {'loss': 1.2672, 'grad_norm': 9.892497062683105, 'learning_rate': 2.736501028272095e-08, 'beta_dpo/gap_mean': 148.32342529296875, 'beta_dpo/gap_std': 171.41741943359375, 'beta_dpo/beta_used_raw': -1.1024678945541382, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.27166497707366943, 'logits/rejected': -0.2824591398239136, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 154.6300811767578, 'beta_dpo/beta_margin_mean': 0.15463007986545563, 'beta_dpo/beta_margin_std': 0.1757480353116989, 'beta_dpo/beta_margin_grad_mean': -0.46174660325050354, 'beta_dpo/beta_margin_grad_std': 0.04324490576982498, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████▌          | 590/681 [38:28<03:44,  2.47s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 591/681 [38:30<03:31,  2.35s/it]                                                                                                                     {'loss': 8.5331, 'grad_norm': 6685.375, 'learning_rate': 2.678415274939408e-08, 'beta_dpo/gap_mean': 147.86041259765625, 'beta_dpo/gap_std': 171.3108367919922, 'beta_dpo/beta_used_raw': 0.8430722951889038, 'beta_dpo/beta_used': 0.8430722951889038, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.18227970600128174, 'logits/rejected': -0.1490815132856369, 'beta_dpo/beta': 0.8430722951889038, 'beta_dpo/loss_margin_mean': 143.2025604248047, 'beta_dpo/beta_margin_mean': 119.6875228881836, 'beta_dpo/beta_margin_std': 166.5166778564453, 'beta_dpo/beta_margin_grad_mean': -0.1681036800146103, 'beta_dpo/beta_margin_grad_std': 0.3638584315776825, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████▋          | 591/681 [38:30<03:31,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 592/681 [38:32<03:29,  2.36s/it]                                                                                                                     {'loss': 4.0589, 'grad_norm': 1482.502197265625, 'learning_rate': 2.6209177161234442e-08, 'beta_dpo/gap_mean': 147.7420654296875, 'beta_dpo/gap_std': 173.76480102539062, 'beta_dpo/beta_used_raw': 0.3010109066963196, 'beta_dpo/beta_used': 0.3010109066963196, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.1433703750371933, 'logits/rejected': -0.13005104660987854, 'beta_dpo/beta': 0.3010109066963196, 'beta_dpo/loss_margin_mean': 142.8642120361328, 'beta_dpo/beta_margin_mean': 41.5831298828125, 'beta_dpo/beta_margin_std': 63.77037048339844, 'beta_dpo/beta_margin_grad_mean': -0.17112194001674652, 'beta_dpo/beta_margin_grad_std': 0.3744083046913147, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████▊          | 592/681 [38:32<03:29,  2.36s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 593/681 [38:35<03:32,  2.42s/it]                                                                                                                     {'loss': 1.2829, 'grad_norm': 9.439023971557617, 'learning_rate': 2.564009866938349e-08, 'beta_dpo/gap_mean': 140.90626525878906, 'beta_dpo/gap_std': 171.15963745117188, 'beta_dpo/beta_used_raw': -1.6807360649108887, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21954259276390076, 'logits/rejected': -0.20099984109401703, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 108.26074981689453, 'beta_dpo/beta_margin_mean': 0.10826075077056885, 'beta_dpo/beta_margin_std': 0.15056025981903076, 'beta_dpo/beta_margin_grad_mean': -0.47312307357788086, 'beta_dpo/beta_margin_grad_std': 0.037345997989177704, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████▉          | 593/681 [38:35<03:32,  2.42s/it] 87%|████████████████████████████████████████████████████████████████████          | 594/681 [38:37<03:30,  2.42s/it]                                                                                                                     {'loss': 5.7956, 'grad_norm': 8501.2041015625, 'learning_rate': 2.5076932269588708e-08, 'beta_dpo/gap_mean': 137.13877868652344, 'beta_dpo/gap_std': 171.59979248046875, 'beta_dpo/beta_used_raw': -0.07855743169784546, 'beta_dpo/beta_used': 0.978081226348877, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24125239253044128, 'logits/rejected': -0.22039398550987244, 'beta_dpo/beta': 0.978081226348877, 'beta_dpo/loss_margin_mean': 141.89723205566406, 'beta_dpo/beta_margin_mean': 191.28977966308594, 'beta_dpo/beta_margin_std': 318.696533203125, 'beta_dpo/beta_margin_grad_mean': -0.30155855417251587, 'beta_dpo/beta_margin_grad_std': 0.29437771439552307, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████          | 594/681 [38:37<03:30,  2.42s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 595/681 [38:40<03:32,  2.48s/it]                                                                                                                     {'loss': 1.2789, 'grad_norm': 8.183320999145508, 'learning_rate': 2.451969280180849e-08, 'beta_dpo/gap_mean': 140.37985229492188, 'beta_dpo/gap_std': 170.879638671875, 'beta_dpo/beta_used_raw': -1.5019283294677734, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22626781463623047, 'logits/rejected': -0.209863543510437, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 137.82164001464844, 'beta_dpo/beta_margin_mean': 0.13782164454460144, 'beta_dpo/beta_margin_std': 0.16540595889091492, 'beta_dpo/beta_margin_grad_mean': -0.46594342589378357, 'beta_dpo/beta_margin_grad_std': 0.04041733592748642, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████▏         | 595/681 [38:40<03:32,  2.48s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 596/681 [38:43<03:37,  2.56s/it]                                                                                                                     {'loss': 1.2921, 'grad_norm': 9.269095420837402, 'learning_rate': 2.396839494982103e-08, 'beta_dpo/gap_mean': 135.27981567382812, 'beta_dpo/gap_std': 171.58035278320312, 'beta_dpo/beta_used_raw': -2.0142910480499268, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2307220697402954, 'logits/rejected': -0.1973237693309784, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 113.97657012939453, 'beta_dpo/beta_margin_mean': 0.11397657543420792, 'beta_dpo/beta_margin_std': 0.1660909652709961, 'beta_dpo/beta_margin_grad_mean': -0.4717291593551636, 'beta_dpo/beta_margin_grad_std': 0.041060976684093475, 'epoch': 0.88}
+ 88%|████████████████████████████████████████████████████████████████████▎         | 596/681 [38:43<03:37,  2.56s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 597/681 [38:45<03:38,  2.61s/it]                                                                                                                     {'loss': 1.2696, 'grad_norm': 8.808784484863281, 'learning_rate': 2.3423053240837514e-08, 'beta_dpo/gap_mean': 138.75473022460938, 'beta_dpo/gap_std': 170.81509399414062, 'beta_dpo/beta_used_raw': -0.7436294555664062, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25807347893714905, 'logits/rejected': -0.271928995847702, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 148.0689697265625, 'beta_dpo/beta_margin_mean': 0.14806897938251495, 'beta_dpo/beta_margin_std': 0.1707853525876999, 'beta_dpo/beta_margin_grad_mean': -0.46336647868156433, 'beta_dpo/beta_margin_grad_std': 0.04198829457163811, 'epoch': 0.88}
+ 88%|████████████████████████████████████████████████████████████████████▍         | 597/681 [38:45<03:38,  2.61s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 598/681 [38:48<03:28,  2.51s/it]                                                                                                                     {'loss': 0.7417, 'grad_norm': 8300.21875, 'learning_rate': 2.2883682045119062e-08, 'beta_dpo/gap_mean': 137.17803955078125, 'beta_dpo/gap_std': 168.94393920898438, 'beta_dpo/beta_used_raw': 1.4840975999832153, 'beta_dpo/beta_used': 1.4840975999832153, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.15673092007637024, 'logits/rejected': -0.1377362161874771, 'beta_dpo/beta': 1.4840975999832153, 'beta_dpo/loss_margin_mean': 126.81389617919922, 'beta_dpo/beta_margin_mean': 230.9344024658203, 'beta_dpo/beta_margin_std': 346.7568054199219, 'beta_dpo/beta_margin_grad_mean': -0.1805470734834671, 'beta_dpo/beta_margin_grad_std': 0.3769548535346985, 'epoch': 0.88}
+ 88%|████████████████████████████████████████████████████████████████████▍         | 598/681 [38:48<03:28,  2.51s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 599/681 [38:50<03:32,  2.59s/it]                                                                                                                     {'loss': 1.2758, 'grad_norm': 8.623753547668457, 'learning_rate': 2.2350295575598367e-08, 'beta_dpo/gap_mean': 133.7099609375, 'beta_dpo/gap_std': 163.5647430419922, 'beta_dpo/beta_used_raw': -0.891679584980011, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23145388066768646, 'logits/rejected': -0.22919651865959167, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 120.14342498779297, 'beta_dpo/beta_margin_mean': 0.12014342844486237, 'beta_dpo/beta_margin_std': 0.1313522458076477, 'beta_dpo/beta_margin_grad_mean': -0.47013577818870544, 'beta_dpo/beta_margin_grad_std': 0.032581571489572525, 'epoch': 0.88}
+ 88%|████████████████████████████████████████████████████████████████████▌         | 599/681 [38:50<03:32,  2.59s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 600/681 [38:53<03:33,  2.64s/it]                                                                                                                     {'loss': 4.9835, 'grad_norm': 6785.72021484375, 'learning_rate': 2.1822907887504932e-08, 'beta_dpo/gap_mean': 130.60569763183594, 'beta_dpo/gap_std': 163.328125, 'beta_dpo/beta_used_raw': -0.27364301681518555, 'beta_dpo/beta_used': 0.5338709950447083, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25038397312164307, 'logits/rejected': -0.22991827130317688, 'beta_dpo/beta': 0.5338709950447083, 'beta_dpo/loss_margin_mean': 123.1740951538086, 'beta_dpo/beta_margin_mean': 67.7778091430664, 'beta_dpo/beta_margin_std': 132.87322998046875, 'beta_dpo/beta_margin_grad_mean': -0.3133900761604309, 'beta_dpo/beta_margin_grad_std': 0.30288076400756836, 'epoch': 0.88}
+ 88%|████████████████████████████████████████████████████████████████████▋         | 600/681 [38:53<03:33,  2.64s/it][INFO|trainer.py:4307] 2026-04-18 00:02:25,667 >> 
+***** Running Evaluation *****
+[INFO|trainer.py:4309] 2026-04-18 00:02:25,667 >>   Num examples = 2339
+[INFO|trainer.py:4312] 2026-04-18 00:02:25,667 >>   Batch size = 8
+
+  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A
+  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.62it/s][A
+  4%|███▎                                                                             | 3/73 [00:01<00:27,  2.58it/s][A
+  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.25it/s][A
+  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.10it/s][A
+  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.00it/s][A
+ 10%|███████▊                                                                         | 7/73 [00:03<00:32,  2.05it/s][A
+ 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.92it/s][A
+ 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.86it/s][A
+ 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.85it/s][A
+ 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A
+ 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.80it/s][A
+ 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.85it/s][A
+ 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.81it/s][A
+ 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.82it/s][A
+ 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.75it/s][A
+ 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.75it/s][A
+ 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.73it/s][A
+ 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.71it/s][A
+ 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.70it/s][A
+ 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.70it/s][A
+ 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.68it/s][A
+ 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:28,  1.73it/s][A
+ 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.74it/s][A
+ 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:27,  1.72it/s][A
+ 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:26,  1.74it/s][A
+ 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s][A
+ 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.89it/s][A
+ 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:23,  1.91it/s][A
+ 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.92it/s][A
+ 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.85it/s][A
+ 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s][A
+ 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:20,  1.91it/s][A
+ 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.88it/s][A
+ 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:20,  1.81it/s][A
+ 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.82it/s][A
+ 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s][A
+ 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.88it/s][A
+ 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:18,  1.79it/s][A
+ 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.82it/s][A
+ 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.88it/s][A
+ 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:16,  1.83it/s][A
+ 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s][A
+ 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.85it/s][A
+ 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s][A
+ 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.85it/s][A
+ 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s][A
+ 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:25<00:13,  1.80it/s][A
+ 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.79it/s][A
+ 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.81it/s][A
+ 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.79it/s][A
+ 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.74it/s][A
+ 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s][A
+ 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.82it/s][A
+ 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.80it/s][A
+ 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.85it/s][A
+ 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.77it/s][A
+ 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s][A
+ 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.84it/s][A
+ 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s][A
+ 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A
+ 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.76it/s][A
+ 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s][A
+ 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.95it/s][A
+ 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.92it/s][A
+ 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.85it/s][A
+ 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.89it/s][A
+ 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.84it/s][A
+ 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s][A
+ 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A
+ 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.80it/s][A
+ 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.79it/s][A
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.93it/s][A                                                                                                                     
+                                                                                                                     [A{'eval_loss': 1.7101179361343384, 'eval_runtime': 40.1564, 'eval_samples_per_second': 58.247, 'eval_steps_per_second': 1.843, 'eval_beta_dpo/beta': 0.06907455623149872, 'eval_beta_dpo/loss_margin_mean': 86.860595703125, 'eval_beta_dpo/beta_margin_mean': 10.027384757995605, 'eval_beta_dpo/beta_margin_std': 12.811722755432129, 'eval_beta_dpo/beta_margin_grad_mean': -0.45501866936683655, 'eval_beta_dpo/beta_margin_grad_std': 0.07437112927436829, 'eval_beta_dpo/gap_mean': 130.01516723632812, 'eval_beta_dpo/gap_std': 165.05413818359375, 'eval_beta_dpo/beta_used_raw': -2.489274740219116, 'eval_beta_dpo/beta_used': 0.06907455623149872, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.2788536548614502, 'eval_logits/rejected': -0.2574594020843506, 'epoch': 0.88}
+ 88%|████████████████████████████████████████████████████████████████████▋         | 600/681 [39:33<03:33,  2.64s/it]
+100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.93it/s][A
+                                                                                                                     [A[INFO|trainer.py:3984] 2026-04-18 00:03:20,734 >> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600
+[INFO|configuration_utils.py:419] 2026-04-18 00:03:20,757 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600/config.json
+[INFO|configuration_utils.py:911] 2026-04-18 00:03:20,767 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600/generation_config.json
+[INFO|modeling_utils.py:3580] 2026-04-18 00:04:11,264 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600/model.safetensors.index.json.
+[INFO|tokenization_utils_base.py:2510] 2026-04-18 00:04:11,280 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600/tokenizer_config.json
+[INFO|tokenization_utils_base.py:2519] 2026-04-18 00:04:11,291 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600/special_tokens_map.json
+[INFO|trainer.py:4083] 2026-04-18 00:07:50,421 >> Deleting older checkpoint [/scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200] due to args.save_total_limit
+ 88%|██████████████████████████████████████████████████████████████████▏        | 601/681 [44:23<2:14:24, 100.80s/it]                                                                                                                     {'loss': 17.4177, 'grad_norm': 8184.26904296875, 'learning_rate': 2.1301532877994742e-08, 'beta_dpo/gap_mean': 132.40260314941406, 'beta_dpo/gap_std': 165.82818603515625, 'beta_dpo/beta_used_raw': 0.8004127740859985, 'beta_dpo/beta_used': 0.8004127740859985, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22523418068885803, 'logits/rejected': -0.21112903952598572, 'beta_dpo/beta': 0.8004127740859985, 'beta_dpo/loss_margin_mean': 142.81410217285156, 'beta_dpo/beta_margin_mean': 111.2850570678711, 'beta_dpo/beta_margin_std': 138.40003967285156, 'beta_dpo/beta_margin_grad_mean': -0.1567797064781189, 'beta_dpo/beta_margin_grad_std': 0.36213722825050354, 'epoch': 0.88}
+ 88%|██████████████████████████████████████████████████████████████████▏        | 601/681 [44:23<2:14:24, 100.80s/it] 88%|███████████████████████████████████████████████████████████████████▏        | 602/681 [44:25<1:33:53, 71.31s/it]                                                                                                                     {'loss': 3.5737, 'grad_norm': 3134.716064453125, 'learning_rate': 2.0786184285784298e-08, 'beta_dpo/gap_mean': 136.0496826171875, 'beta_dpo/gap_std': 164.3628387451172, 'beta_dpo/beta_used_raw': -0.4077162742614746, 'beta_dpo/beta_used': 0.405770868062973, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2434152215719223, 'logits/rejected': -0.23451802134513855, 'beta_dpo/beta': 0.405770868062973, 'beta_dpo/loss_margin_mean': 162.997314453125, 'beta_dpo/beta_margin_mean': 59.608760833740234, 'beta_dpo/beta_margin_std': 99.93406677246094, 'beta_dpo/beta_margin_grad_mean': -0.3060374855995178, 'beta_dpo/beta_margin_grad_std': 0.2988956570625305, 'epoch': 0.88}
+ 88%|███████████████████████████████████████████████████████████████████▏        | 602/681 [44:26<1:33:53, 71.31s/it] 89%|███████████████████████████████████████████████████████████████████▎        | 603/681 [44:28<1:05:50, 50.64s/it]                                                                                                                     {'loss': 1.281, 'grad_norm': 8.003498077392578, 'learning_rate': 2.0276875690788204e-08, 'beta_dpo/gap_mean': 135.49624633789062, 'beta_dpo/gap_std': 164.59576416015625, 'beta_dpo/beta_used_raw': -1.2860097885131836, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30411213636398315, 'logits/rejected': -0.28685271739959717, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 118.26836395263672, 'beta_dpo/beta_margin_mean': 0.11826837062835693, 'beta_dpo/beta_margin_std': 0.15868444740772247, 'beta_dpo/beta_margin_grad_mean': -0.47068238258361816, 'beta_dpo/beta_margin_grad_std': 0.03925681486725807, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████▎        | 603/681 [44:28<1:05:50, 50.64s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 604/681 [44:31<46:30, 36.24s/it]                                                                                                                     {'loss': 0.8912, 'grad_norm': 724.6542358398438, 'learning_rate': 1.977362051376158e-08, 'beta_dpo/gap_mean': 136.69830322265625, 'beta_dpo/gap_std': 164.337158203125, 'beta_dpo/beta_used_raw': 0.08082294464111328, 'beta_dpo/beta_used': 0.6322586536407471, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2538166642189026, 'logits/rejected': -0.25749316811561584, 'beta_dpo/beta': 0.6322586536407471, 'beta_dpo/loss_margin_mean': 149.04656982421875, 'beta_dpo/beta_margin_mean': 95.61994934082031, 'beta_dpo/beta_margin_std': 150.78732299804688, 'beta_dpo/beta_margin_grad_mean': -0.27876517176628113, 'beta_dpo/beta_margin_grad_std': 0.2794075906276703, 'epoch': 0.89}
+ 89%|█████████████████████████████████████████████████████████████████████▏        | 604/681 [44:31<46:30, 36.24s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 605/681 [44:33<33:08, 26.16s/it]                                                                                                                     {'loss': 1.2738, 'grad_norm': 12.376964569091797, 'learning_rate': 1.9276432015946446e-08, 'beta_dpo/gap_mean': 137.9195098876953, 'beta_dpo/gap_std': 170.83059692382812, 'beta_dpo/beta_used_raw': -1.015389084815979, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2761760950088501, 'logits/rejected': -0.2704794406890869, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 133.719970703125, 'beta_dpo/beta_margin_mean': 0.13371996581554413, 'beta_dpo/beta_margin_std': 0.18470925092697144, 'beta_dpo/beta_margin_grad_mean': -0.4670778810977936, 'beta_dpo/beta_margin_grad_std': 0.044755224138498306, 'epoch': 0.89}
+ 89%|█████████████████████████████████████████████████████████████████████▎        | 605/681 [44:33<33:08, 26.16s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 606/681 [44:36<23:46, 19.02s/it]                                                                                                                     {'loss': 1.7791, 'grad_norm': 1692.56103515625, 'learning_rate': 1.8785323298722093e-08, 'beta_dpo/gap_mean': 136.48269653320312, 'beta_dpo/gap_std': 169.08889770507812, 'beta_dpo/beta_used_raw': 0.5771820545196533, 'beta_dpo/beta_used': 1.080771803855896, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.20563073456287384, 'logits/rejected': -0.20558518171310425, 'beta_dpo/beta': 1.080771803855896, 'beta_dpo/loss_margin_mean': 149.46290588378906, 'beta_dpo/beta_margin_mean': 202.94053649902344, 'beta_dpo/beta_margin_std': 319.66082763671875, 'beta_dpo/beta_margin_grad_mean': -0.28311601281166077, 'beta_dpo/beta_margin_grad_std': 0.2813016474246979, 'epoch': 0.89}
+ 89%|█████████████████████████████████████████████████████████████████████▍        | 606/681 [44:36<23:46, 19.02s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 607/681 [44:38<17:26, 14.15s/it]                                                                                                                     {'loss': 1.2853, 'grad_norm': 8.623156547546387, 'learning_rate': 1.8300307303259904e-08, 'beta_dpo/gap_mean': 136.1642303466797, 'beta_dpo/gap_std': 165.0216522216797, 'beta_dpo/beta_used_raw': -1.6541626453399658, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.28075528144836426, 'logits/rejected': -0.26314833760261536, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 120.72370910644531, 'beta_dpo/beta_margin_mean': 0.12072371691465378, 'beta_dpo/beta_margin_std': 0.14232668280601501, 'beta_dpo/beta_margin_grad_mean': -0.47003647685050964, 'beta_dpo/beta_margin_grad_std': 0.03521895408630371, 'epoch': 0.89}
+ 89%|█████████████████████████████████████████████████████████████████████▌        | 607/681 [44:38<17:26, 14.15s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 608/681 [44:41<12:55, 10.62s/it]                                                                                                                     {'loss': 1.2709, 'grad_norm': 8.3565673828125, 'learning_rate': 1.7821396810182437e-08, 'beta_dpo/gap_mean': 134.62435913085938, 'beta_dpo/gap_std': 160.134521484375, 'beta_dpo/beta_used_raw': -0.6566117405891418, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30109351873397827, 'logits/rejected': -0.28483152389526367, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 131.20831298828125, 'beta_dpo/beta_margin_mean': 0.13120831549167633, 'beta_dpo/beta_margin_std': 0.13629145920276642, 'beta_dpo/beta_margin_grad_mean': -0.46741145849227905, 'beta_dpo/beta_margin_grad_std': 0.03372717648744583, 'epoch': 0.89}
+ 89%|█████████████████████████████████████████████████████████████████████▋        | 608/681 [44:41<12:55, 10.62s/it] 89%|█████████████████████████████████████████████████████████████████████▊        | 609/681 [44:43<09:48,  8.17s/it]                                                                                                                     {'loss': 0.6493, 'grad_norm': 3484.029052734375, 'learning_rate': 1.7348604439226617e-08, 'beta_dpo/gap_mean': 137.36264038085938, 'beta_dpo/gap_std': 161.44122314453125, 'beta_dpo/beta_used_raw': 0.5683431029319763, 'beta_dpo/beta_used': 0.5683431029319763, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26210033893585205, 'logits/rejected': -0.24275103211402893, 'beta_dpo/beta': 0.5683431029319763, 'beta_dpo/loss_margin_mean': 153.95826721191406, 'beta_dpo/beta_margin_mean': 91.26676177978516, 'beta_dpo/beta_margin_std': 144.23231506347656, 'beta_dpo/beta_margin_grad_mean': -0.11586936563253403, 'beta_dpo/beta_margin_grad_std': 0.3091588318347931, 'epoch': 0.89}
+ 89%|█████████████████████████████████████████████████████████████████████▊        | 609/681 [44:43<09:48,  8.17s/it] 90%|█████████████████████████████████████████████████████████████████████▊        | 610/681 [44:45<07:35,  6.42s/it]                                                                                                                     {'loss': 1.2757, 'grad_norm': 9.066965103149414, 'learning_rate': 1.6881942648911074e-08, 'beta_dpo/gap_mean': 136.2181854248047, 'beta_dpo/gap_std': 160.43869018554688, 'beta_dpo/beta_used_raw': -0.988802433013916, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25646454095840454, 'logits/rejected': -0.22565940022468567, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 126.81504821777344, 'beta_dpo/beta_margin_mean': 0.1268150508403778, 'beta_dpo/beta_margin_std': 0.16618604958057404, 'beta_dpo/beta_margin_grad_mean': -0.4685831665992737, 'beta_dpo/beta_margin_grad_std': 0.04099490866065025, 'epoch': 0.9}
+ 90%|█████████████████████████████████████████████████████████████████████▊        | 610/681 [44:46<07:35,  6.42s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 611/681 [44:48<06:02,  5.17s/it]                                                                                                                     {'loss': 8.377, 'grad_norm': 7008.0810546875, 'learning_rate': 1.6421423736208e-08, 'beta_dpo/gap_mean': 137.39132690429688, 'beta_dpo/gap_std': 162.03436279296875, 'beta_dpo/beta_used_raw': 0.4401324391365051, 'beta_dpo/beta_used': 0.7692165374755859, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.20377308130264282, 'logits/rejected': -0.19680052995681763, 'beta_dpo/beta': 0.7692165374755859, 'beta_dpo/loss_margin_mean': 148.3230438232422, 'beta_dpo/beta_margin_mean': 129.48629760742188, 'beta_dpo/beta_margin_std': 206.50274658203125, 'beta_dpo/beta_margin_grad_mean': -0.3122340738773346, 'beta_dpo/beta_margin_grad_std': 0.3016832768917084, 'epoch': 0.9}
+ 90%|█████████████████████████████████████████████████████████████████████▉        | 611/681 [44:48<06:02,  5.17s/it] 90%|██████████████████████████████████████████████████████████████████████        | 612/681 [44:50<05:04,  4.41s/it]                                                                                                                     {'loss': 1.2771, 'grad_norm': 13.170220375061035, 'learning_rate': 1.5967059836219042e-08, 'beta_dpo/gap_mean': 142.43182373046875, 'beta_dpo/gap_std': 161.67913818359375, 'beta_dpo/beta_used_raw': -1.4418590068817139, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2226446568965912, 'logits/rejected': -0.18076658248901367, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 165.7865753173828, 'beta_dpo/beta_margin_mean': 0.16578657925128937, 'beta_dpo/beta_margin_std': 0.16075921058654785, 'beta_dpo/beta_margin_grad_mean': -0.4589446187019348, 'beta_dpo/beta_margin_grad_std': 0.039632294327020645, 'epoch': 0.9}
+ 90%|██████████████████████████████████████████████████████████████████████        | 612/681 [44:50<05:04,  4.41s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 613/681 [44:53<04:21,  3.84s/it]                                                                                                                     {'loss': 1.2679, 'grad_norm': 8.972193717956543, 'learning_rate': 1.551886292185553e-08, 'beta_dpo/gap_mean': 144.05943298339844, 'beta_dpo/gap_std': 158.86074829101562, 'beta_dpo/beta_used_raw': -1.0288455486297607, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2800806760787964, 'logits/rejected': -0.29024672508239746, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 146.2444305419922, 'beta_dpo/beta_margin_mean': 0.14624443650245667, 'beta_dpo/beta_margin_std': 0.13885696232318878, 'beta_dpo/beta_margin_grad_mean': -0.46369874477386475, 'beta_dpo/beta_margin_grad_std': 0.034297436475753784, 'epoch': 0.9}
+ 90%|██████████████████████████████████████████████████████████████████████▏       | 613/681 [44:53<04:21,  3.84s/it] 90%|██████████████████████████████████████████████████████████████████████▎       | 614/681 [44:55<03:51,  3.45s/it]                                                                                                                     {'loss': 2.7127, 'grad_norm': 895.0585327148438, 'learning_rate': 1.507684480352292e-08, 'beta_dpo/gap_mean': 148.22630310058594, 'beta_dpo/gap_std': 159.02099609375, 'beta_dpo/beta_used_raw': -0.06399475783109665, 'beta_dpo/beta_used': 0.06990689039230347, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.20398010313510895, 'logits/rejected': -0.21416090428829193, 'beta_dpo/beta': 0.06990689039230347, 'beta_dpo/loss_margin_mean': 170.205810546875, 'beta_dpo/beta_margin_mean': 12.157843589782715, 'beta_dpo/beta_margin_std': 20.12245750427246, 'beta_dpo/beta_margin_grad_mean': -0.3197058439254761, 'beta_dpo/beta_margin_grad_std': 0.2986561954021454, 'epoch': 0.9}
+ 90%|██████████████████████████████████████████████████████████████████████▎       | 614/681 [44:55<03:51,  3.45s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 615/681 [44:58<03:31,  3.20s/it]                                                                                                                     {'loss': 1.2775, 'grad_norm': 8.794045448303223, 'learning_rate': 1.4641017128809801e-08, 'beta_dpo/gap_mean': 143.90347290039062, 'beta_dpo/gap_std': 156.93869018554688, 'beta_dpo/beta_used_raw': -1.6342370510101318, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2878304719924927, 'logits/rejected': -0.2756372094154358, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 115.65824127197266, 'beta_dpo/beta_margin_mean': 0.1156582459807396, 'beta_dpo/beta_margin_std': 0.14664776623249054, 'beta_dpo/beta_margin_grad_mean': -0.4713370203971863, 'beta_dpo/beta_margin_grad_std': 0.036130066961050034, 'epoch': 0.9}
+ 90%|██████████████████████████████████████████████████████████████████████▍       | 615/681 [44:58<03:31,  3.20s/it] 90%|██████████████████████████████████████████████████████████████████████▌       | 616/681 [45:01<03:17,  3.03s/it]                                                                                                                     {'loss': 1.3106, 'grad_norm': 9.077305793762207, 'learning_rate': 1.4211391382180637e-08, 'beta_dpo/gap_mean': 137.07403564453125, 'beta_dpo/gap_std': 155.02120971679688, 'beta_dpo/beta_used_raw': -3.256364107131958, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2529584467411041, 'logits/rejected': -0.2234017550945282, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 104.92546844482422, 'beta_dpo/beta_margin_mean': 0.10492546856403351, 'beta_dpo/beta_margin_std': 0.15405791997909546, 'beta_dpo/beta_margin_grad_mean': -0.4739888608455658, 'beta_dpo/beta_margin_grad_std': 0.03806653246283531, 'epoch': 0.9}
+ 90%|██████████████████████████████████████████████████████████████████████▌       | 616/681 [45:01<03:17,  3.03s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 617/681 [45:03<03:06,  2.92s/it]                                                                                                                     {'loss': 1.3011, 'grad_norm': 8.899731636047363, 'learning_rate': 1.378797888467345e-08, 'beta_dpo/gap_mean': 129.06411743164062, 'beta_dpo/gap_std': 153.8069305419922, 'beta_dpo/beta_used_raw': -2.259263753890991, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23405620455741882, 'logits/rejected': -0.19954687356948853, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 89.77762603759766, 'beta_dpo/beta_margin_mean': 0.0897776335477829, 'beta_dpo/beta_margin_std': 0.13734619319438934, 'beta_dpo/beta_margin_grad_mean': -0.47770678997039795, 'beta_dpo/beta_margin_grad_std': 0.03402474522590637, 'epoch': 0.91}
+ 91%|██████████████████████████████████████████████████████████████████████▋       | 617/681 [45:03<03:06,  2.92s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 618/681 [45:06<03:01,  2.88s/it]                                                                                                                     {'loss': 3.6018, 'grad_norm': 2414.7275390625, 'learning_rate': 1.3370790793601371e-08, 'beta_dpo/gap_mean': 126.19082641601562, 'beta_dpo/gap_std': 157.0688018798828, 'beta_dpo/beta_used_raw': -0.7018966674804688, 'beta_dpo/beta_used': 0.22516019642353058, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.28824859857559204, 'logits/rejected': -0.25596606731414795, 'beta_dpo/beta': 0.22516019642353058, 'beta_dpo/loss_margin_mean': 128.67428588867188, 'beta_dpo/beta_margin_mean': 36.04357147216797, 'beta_dpo/beta_margin_std': 58.656856536865234, 'beta_dpo/beta_margin_grad_mean': -0.30100154876708984, 'beta_dpo/beta_margin_grad_std': 0.2931227684020996, 'epoch': 0.91}
+ 91%|██████████████████████████████████████████████████████████████████████▊       | 618/681 [45:06<03:01,  2.88s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 619/681 [45:09<02:52,  2.79s/it]                                                                                                                     {'loss': 2.3727, 'grad_norm': 1730.38427734375, 'learning_rate': 1.2959838102258535e-08, 'beta_dpo/gap_mean': 127.52127075195312, 'beta_dpo/gap_std': 159.29910278320312, 'beta_dpo/beta_used_raw': -0.5022631883621216, 'beta_dpo/beta_used': 0.32898879051208496, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2695918679237366, 'logits/rejected': -0.25438401103019714, 'beta_dpo/beta': 0.32898879051208496, 'beta_dpo/loss_margin_mean': 129.31863403320312, 'beta_dpo/beta_margin_mean': 47.31397247314453, 'beta_dpo/beta_margin_std': 92.59415435791016, 'beta_dpo/beta_margin_grad_mean': -0.32226526737213135, 'beta_dpo/beta_margin_grad_std': 0.3011726140975952, 'epoch': 0.91}
+ 91%|██████████████████████████████████████████████████████████████████████▉       | 619/681 [45:09<02:52,  2.79s/it] 91%|███████████████████████████████████████████████████████████████████████       | 620/681 [45:11<02:44,  2.70s/it]                                                                                                                     {'loss': 1.2793, 'grad_norm': 8.195945739746094, 'learning_rate': 1.2555131639630567e-08, 'beta_dpo/gap_mean': 128.8234405517578, 'beta_dpo/gap_std': 161.2275390625, 'beta_dpo/beta_used_raw': -0.7810671329498291, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.27168160676956177, 'logits/rejected': -0.24854370951652527, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 125.8520736694336, 'beta_dpo/beta_margin_mean': 0.1258520781993866, 'beta_dpo/beta_margin_std': 0.16934403777122498, 'beta_dpo/beta_margin_grad_mean': -0.46883711218833923, 'beta_dpo/beta_margin_grad_std': 0.04180603846907616, 'epoch': 0.91}
+ 91%|███████████████████████████████████████████████████████████████████████       | 620/681 [45:11<02:44,  2.70s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 621/681 [45:14<02:42,  2.72s/it]                                                                                                                     {'loss': 2.0444, 'grad_norm': 2288.819091796875, 'learning_rate': 1.2156682070109086e-08, 'beta_dpo/gap_mean': 131.76333618164062, 'beta_dpo/gap_std': 162.11734008789062, 'beta_dpo/beta_used_raw': -0.001695185899734497, 'beta_dpo/beta_used': 0.315225213766098, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.18687333166599274, 'logits/rejected': -0.1780368983745575, 'beta_dpo/beta': 0.315225213766098, 'beta_dpo/loss_margin_mean': 165.3124237060547, 'beta_dpo/beta_margin_mean': 61.944881439208984, 'beta_dpo/beta_margin_std': 95.92522430419922, 'beta_dpo/beta_margin_grad_mean': -0.28073248267173767, 'beta_dpo/beta_margin_grad_std': 0.27754899859428406, 'epoch': 0.91}
+ 91%|███████████████████████████████████████████████████████████████████████▏      | 621/681 [45:14<02:42,  2.72s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 622/681 [45:16<02:36,  2.66s/it]                                                                                                                     {'loss': 2.2051, 'grad_norm': 1909.772705078125, 'learning_rate': 1.1764499893210878e-08, 'beta_dpo/gap_mean': 136.07073974609375, 'beta_dpo/gap_std': 164.10821533203125, 'beta_dpo/beta_used_raw': -1.115787386894226, 'beta_dpo/beta_used': 0.2183779627084732, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2630102336406708, 'logits/rejected': -0.24436010420322418, 'beta_dpo/beta': 0.2183779627084732, 'beta_dpo/loss_margin_mean': 131.12855529785156, 'beta_dpo/beta_margin_mean': 35.79158401489258, 'beta_dpo/beta_margin_std': 66.24662017822266, 'beta_dpo/beta_margin_grad_mean': -0.3208658993244171, 'beta_dpo/beta_margin_grad_std': 0.29182958602905273, 'epoch': 0.91}
+ 91%|███████████████████████████████████████████████████████████████████████▏      | 622/681 [45:17<02:36,  2.66s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 623/681 [45:19<02:25,  2.51s/it]                                                                                                                     {'loss': 1.305, 'grad_norm': 8.092933654785156, 'learning_rate': 1.1378595443300998e-08, 'beta_dpo/gap_mean': 131.22195434570312, 'beta_dpo/gap_std': 165.27459716796875, 'beta_dpo/beta_used_raw': -2.597635269165039, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2123861014842987, 'logits/rejected': -0.18733005225658417, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 112.445068359375, 'beta_dpo/beta_margin_mean': 0.11244507133960724, 'beta_dpo/beta_margin_std': 0.1788908988237381, 'beta_dpo/beta_margin_grad_mean': -0.4722324013710022, 'beta_dpo/beta_margin_grad_std': 0.04376749321818352, 'epoch': 0.91}
+ 91%|███████████████████████████████████████████████████████████████████████▎      | 623/681 [45:19<02:25,  2.51s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 624/681 [45:21<02:24,  2.53s/it]                                                                                                                     {'loss': 18.6323, 'grad_norm': 14112.7099609375, 'learning_rate': 1.0998978889320582e-08, 'beta_dpo/gap_mean': 134.68902587890625, 'beta_dpo/gap_std': 172.1035614013672, 'beta_dpo/beta_used_raw': 1.4514429569244385, 'beta_dpo/beta_used': 1.4514429569244385, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.31213879585266113, 'logits/rejected': -0.2707129120826721, 'beta_dpo/beta': 1.4514429569244385, 'beta_dpo/loss_margin_mean': 160.6850128173828, 'beta_dpo/beta_margin_mean': 235.16859436035156, 'beta_dpo/beta_margin_std': 305.9576416015625, 'beta_dpo/beta_margin_grad_mean': -0.1736312210559845, 'beta_dpo/beta_margin_grad_std': 0.3766280710697174, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████▍      | 624/681 [45:21<02:24,  2.53s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 625/681 [45:24<02:24,  2.58s/it]                                                                                                                     {'loss': 1.277, 'grad_norm': 8.834936141967773, 'learning_rate': 1.0625660234518913e-08, 'beta_dpo/gap_mean': 135.93350219726562, 'beta_dpo/gap_std': 170.4825439453125, 'beta_dpo/beta_used_raw': -1.086260437965393, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24899110198020935, 'logits/rejected': -0.22103792428970337, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 134.477294921875, 'beta_dpo/beta_margin_mean': 0.13447730243206024, 'beta_dpo/beta_margin_std': 0.16113615036010742, 'beta_dpo/beta_margin_grad_mean': -0.46674269437789917, 'beta_dpo/beta_margin_grad_std': 0.03943945840001106, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████▌      | 625/681 [45:24<02:24,  2.58s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 626/681 [45:27<02:24,  2.63s/it]                                                                                                                     {'loss': 1.2908, 'grad_norm': 11.363311767578125, 'learning_rate': 1.0258649316189721e-08, 'beta_dpo/gap_mean': 132.06570434570312, 'beta_dpo/gap_std': 165.1246337890625, 'beta_dpo/beta_used_raw': -1.6771858930587769, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30383527278900146, 'logits/rejected': -0.27899685502052307, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 117.33277893066406, 'beta_dpo/beta_margin_mean': 0.11733278632164001, 'beta_dpo/beta_margin_std': 0.15290819108486176, 'beta_dpo/beta_margin_grad_mean': -0.47088930010795593, 'beta_dpo/beta_margin_grad_std': 0.03784249722957611, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████▋      | 626/681 [45:27<02:24,  2.63s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 627/681 [45:29<02:23,  2.65s/it]                                                                                                                     {'loss': 1.2721, 'grad_norm': 10.255217552185059, 'learning_rate': 9.897955805412e-09, 'beta_dpo/gap_mean': 135.79798889160156, 'beta_dpo/gap_std': 170.36813354492188, 'beta_dpo/beta_used_raw': -0.715671956539154, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2576707601547241, 'logits/rejected': -0.27673864364624023, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 162.4019317626953, 'beta_dpo/beta_margin_mean': 0.16240194439888, 'beta_dpo/beta_margin_std': 0.2026146799325943, 'beta_dpo/beta_margin_grad_mean': -0.4600542187690735, 'beta_dpo/beta_margin_grad_std': 0.04917608201503754, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████▊      | 627/681 [45:29<02:23,  2.65s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 628/681 [45:32<02:19,  2.63s/it]                                                                                                                     {'loss': 1.2686, 'grad_norm': 9.771873474121094, 'learning_rate': 9.543589206795238e-09, 'beta_dpo/gap_mean': 141.70660400390625, 'beta_dpo/gap_std': 172.304931640625, 'beta_dpo/beta_used_raw': -0.7566049098968506, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25853201746940613, 'logits/rejected': -0.2484220564365387, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 156.77191162109375, 'beta_dpo/beta_margin_mean': 0.15677191317081451, 'beta_dpo/beta_margin_std': 0.16587892174720764, 'beta_dpo/beta_margin_grad_mean': -0.46119076013565063, 'beta_dpo/beta_margin_grad_std': 0.04088958352804184, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████▉      | 628/681 [45:32<02:19,  2.63s/it] 92%|████████████████████████████████████████████████████████████████████████      | 629/681 [45:35<02:18,  2.67s/it]                                                                                                                     {'loss': 1.274, 'grad_norm': 13.822155952453613, 'learning_rate': 9.19555885822887e-09, 'beta_dpo/gap_mean': 140.23866271972656, 'beta_dpo/gap_std': 167.48165893554688, 'beta_dpo/beta_used_raw': -1.1783255338668823, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2648368775844574, 'logits/rejected': -0.2452375888824463, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 128.8066864013672, 'beta_dpo/beta_margin_mean': 0.1288066953420639, 'beta_dpo/beta_margin_std': 0.13501150906085968, 'beta_dpo/beta_margin_grad_mean': -0.4680294096469879, 'beta_dpo/beta_margin_grad_std': 0.033298566937446594, 'epoch': 0.92}
+ 92%|████████████████████████████████████████████████████████████████████████      | 629/681 [45:35<02:18,  2.67s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 630/681 [45:37<02:15,  2.65s/it]                                                                                                                     {'loss': 1.3037, 'grad_norm': 8.615431785583496, 'learning_rate': 8.85387393063622e-09, 'beta_dpo/gap_mean': 132.54100036621094, 'beta_dpo/gap_std': 162.70718383789062, 'beta_dpo/beta_used_raw': -2.620537281036377, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3369476795196533, 'logits/rejected': -0.3151329755783081, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 98.09712219238281, 'beta_dpo/beta_margin_mean': 0.09809713065624237, 'beta_dpo/beta_margin_std': 0.1510220766067505, 'beta_dpo/beta_margin_grad_mean': -0.47568345069885254, 'beta_dpo/beta_margin_grad_std': 0.03724653273820877, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████▏     | 630/681 [45:37<02:15,  2.65s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 631/681 [45:40<02:10,  2.60s/it]                                                                                                                     {'loss': 1.3022, 'grad_norm': 10.43221378326416, 'learning_rate': 8.518543427732949e-09, 'beta_dpo/gap_mean': 129.70608520507812, 'beta_dpo/gap_std': 164.6175079345703, 'beta_dpo/beta_used_raw': -2.252204656600952, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.19672399759292603, 'logits/rejected': -0.16939029097557068, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 124.01167297363281, 'beta_dpo/beta_margin_mean': 0.12401168048381805, 'beta_dpo/beta_margin_std': 0.18085241317749023, 'beta_dpo/beta_margin_grad_mean': -0.469342440366745, 'beta_dpo/beta_margin_grad_std': 0.04454941302537918, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████▎     | 631/681 [45:40<02:10,  2.60s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 632/681 [45:42<02:04,  2.55s/it]                                                                                                                     {'loss': 1.2832, 'grad_norm': 8.912779808044434, 'learning_rate': 8.189576185789637e-09, 'beta_dpo/gap_mean': 129.06605529785156, 'beta_dpo/gap_std': 169.87759399414062, 'beta_dpo/beta_used_raw': -0.9367992877960205, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2137627899646759, 'logits/rejected': -0.1909235715866089, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 118.0839614868164, 'beta_dpo/beta_margin_mean': 0.11808396875858307, 'beta_dpo/beta_margin_std': 0.17979924380779266, 'beta_dpo/beta_margin_grad_mean': -0.4707336127758026, 'beta_dpo/beta_margin_grad_std': 0.04446292296051979, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████▍     | 632/681 [45:42<02:04,  2.55s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 633/681 [45:45<02:00,  2.51s/it]                                                                                                                     {'loss': 4.4345, 'grad_norm': 2468.25341796875, 'learning_rate': 7.866980873399015e-09, 'beta_dpo/gap_mean': 122.80825805664062, 'beta_dpo/gap_std': 166.48403930664062, 'beta_dpo/beta_used_raw': -1.1626986265182495, 'beta_dpo/beta_used': 0.1498415768146515, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.262068510055542, 'logits/rejected': -0.2606055736541748, 'beta_dpo/beta': 0.1498415768146515, 'beta_dpo/loss_margin_mean': 100.83395385742188, 'beta_dpo/beta_margin_mean': 17.67989158630371, 'beta_dpo/beta_margin_std': 41.04912567138672, 'beta_dpo/beta_margin_grad_mean': -0.3400387465953827, 'beta_dpo/beta_margin_grad_std': 0.31042587757110596, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████▌     | 633/681 [45:45<02:00,  2.51s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 634/681 [45:47<01:59,  2.54s/it]                                                                                                                     {'loss': 8.1633, 'grad_norm': 4420.4560546875, 'learning_rate': 7.550765991247654e-09, 'beta_dpo/gap_mean': 123.09707641601562, 'beta_dpo/gap_std': 168.86935424804688, 'beta_dpo/beta_used_raw': -1.0204623937606812, 'beta_dpo/beta_used': 0.2891407012939453, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2516968548297882, 'logits/rejected': -0.2492125928401947, 'beta_dpo/beta': 0.2891407012939453, 'beta_dpo/loss_margin_mean': 114.10114288330078, 'beta_dpo/beta_margin_mean': 44.27980041503906, 'beta_dpo/beta_margin_std': 89.58101654052734, 'beta_dpo/beta_margin_grad_mean': -0.3603072762489319, 'beta_dpo/beta_margin_grad_std': 0.3205583393573761, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████▌     | 634/681 [45:47<01:59,  2.54s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 635/681 [45:50<01:56,  2.52s/it]                                                                                                                     {'loss': 12.3188, 'grad_norm': 4297.1875, 'learning_rate': 7.240939871891699e-09, 'beta_dpo/gap_mean': 119.10769653320312, 'beta_dpo/gap_std': 164.04827880859375, 'beta_dpo/beta_used_raw': 0.44367918372154236, 'beta_dpo/beta_used': 0.8167719841003418, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3063223958015442, 'logits/rejected': -0.25702351331710815, 'beta_dpo/beta': 0.8167719841003418, 'beta_dpo/loss_margin_mean': 108.52445983886719, 'beta_dpo/beta_margin_mean': 93.9231948852539, 'beta_dpo/beta_margin_std': 184.6671905517578, 'beta_dpo/beta_margin_grad_mean': -0.3317233920097351, 'beta_dpo/beta_margin_grad_std': 0.3114463686943054, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████▋     | 635/681 [45:50<01:56,  2.52s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 636/681 [45:52<01:56,  2.58s/it]                                                                                                                     {'loss': 2.1742, 'grad_norm': 1658.96923828125, 'learning_rate': 6.937510679537628e-09, 'beta_dpo/gap_mean': 119.43673706054688, 'beta_dpo/gap_std': 161.71958923339844, 'beta_dpo/beta_used_raw': -0.49636417627334595, 'beta_dpo/beta_used': 0.21374358236789703, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2624373733997345, 'logits/rejected': -0.23375412821769714, 'beta_dpo/beta': 0.21374358236789703, 'beta_dpo/loss_margin_mean': 132.7529754638672, 'beta_dpo/beta_margin_mean': 32.544044494628906, 'beta_dpo/beta_margin_std': 50.19921112060547, 'beta_dpo/beta_margin_grad_mean': -0.29352760314941406, 'beta_dpo/beta_margin_grad_std': 0.28238052129745483, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████▊     | 636/681 [45:53<01:56,  2.58s/it] 94%|████████████████████████████████████████████████████████████████████████▉     | 637/681 [45:55<01:56,  2.64s/it]                                                                                                                     {'loss': 3.3524, 'grad_norm': 4178.92724609375, 'learning_rate': 6.640486409826785e-09, 'beta_dpo/gap_mean': 124.16712951660156, 'beta_dpo/gap_std': 161.0850372314453, 'beta_dpo/beta_used_raw': 0.3115572929382324, 'beta_dpo/beta_used': 0.3223646879196167, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22674018144607544, 'logits/rejected': -0.22383208572864532, 'beta_dpo/beta': 0.3223646879196167, 'beta_dpo/loss_margin_mean': 139.51402282714844, 'beta_dpo/beta_margin_mean': 42.55961608886719, 'beta_dpo/beta_margin_std': 81.67517852783203, 'beta_dpo/beta_margin_grad_mean': -0.32306286692619324, 'beta_dpo/beta_margin_grad_std': 0.30376118421554565, 'epoch': 0.94}
+ 94%|████████████████████████████████████████████████████████████████████████▉     | 637/681 [45:55<01:56,  2.64s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 638/681 [45:58<01:54,  2.65s/it]                                                                                                                     {'loss': 8.0532, 'grad_norm': 9381.5517578125, 'learning_rate': 6.349874889624962e-09, 'beta_dpo/gap_mean': 124.66742706298828, 'beta_dpo/gap_std': 157.39694213867188, 'beta_dpo/beta_used_raw': -0.3003849983215332, 'beta_dpo/beta_used': 1.4511369466781616, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2576182782649994, 'logits/rejected': -0.23263539373874664, 'beta_dpo/beta': 1.4511369466781616, 'beta_dpo/loss_margin_mean': 139.00933837890625, 'beta_dpo/beta_margin_mean': 266.310791015625, 'beta_dpo/beta_margin_std': 417.8957214355469, 'beta_dpo/beta_margin_grad_mean': -0.3164081573486328, 'beta_dpo/beta_margin_grad_std': 0.30334481596946716, 'epoch': 0.94}
+ 94%|█████████████████████████████████████████████████████████████████████████     | 638/681 [45:58<01:54,  2.65s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 639/681 [46:00<01:50,  2.62s/it]                                                                                                                     {'loss': 1.2811, 'grad_norm': 11.267277717590332, 'learning_rate': 6.065683776815933e-09, 'beta_dpo/gap_mean': 122.42938995361328, 'beta_dpo/gap_std': 157.66665649414062, 'beta_dpo/beta_used_raw': -0.47708529233932495, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2489241063594818, 'logits/rejected': -0.20080968737602234, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 97.4274673461914, 'beta_dpo/beta_margin_mean': 0.09742747247219086, 'beta_dpo/beta_margin_std': 0.1560250073671341, 'beta_dpo/beta_margin_grad_mean': -0.47581177949905396, 'beta_dpo/beta_margin_grad_std': 0.03869582340121269, 'epoch': 0.94}
+ 94%|█████████████████████████████████████████████████████████████████████████▏    | 639/681 [46:01<01:50,  2.62s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 640/681 [46:03<01:47,  2.62s/it]                                                                                                                     {'loss': 0.5288, 'grad_norm': 2567.301025390625, 'learning_rate': 5.7879205600998296e-09, 'beta_dpo/gap_mean': 126.0462875366211, 'beta_dpo/gap_std': 156.94723510742188, 'beta_dpo/beta_used_raw': 1.0406347513198853, 'beta_dpo/beta_used': 1.0406347513198853, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2669011354446411, 'logits/rejected': -0.2516845762729645, 'beta_dpo/beta': 1.0406347513198853, 'beta_dpo/loss_margin_mean': 156.25440979003906, 'beta_dpo/beta_margin_mean': 186.98306274414062, 'beta_dpo/beta_margin_std': 294.89520263671875, 'beta_dpo/beta_margin_grad_mean': -0.10319266468286514, 'beta_dpo/beta_margin_grad_std': 0.23703627288341522, 'epoch': 0.94}
+ 94%|█████████████████████████████████████████████████████████████████████████▎    | 640/681 [46:03<01:47,  2.62s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 641/681 [46:06<01:44,  2.60s/it]                                                                                                                     {'loss': 10.8266, 'grad_norm': 3385.51611328125, 'learning_rate': 5.516592558795746e-09, 'beta_dpo/gap_mean': 128.0950164794922, 'beta_dpo/gap_std': 159.058837890625, 'beta_dpo/beta_used_raw': 0.3140296936035156, 'beta_dpo/beta_used': 0.6511551141738892, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2616059482097626, 'logits/rejected': -0.23641052842140198, 'beta_dpo/beta': 0.6511551141738892, 'beta_dpo/loss_margin_mean': 120.50196075439453, 'beta_dpo/beta_margin_mean': 84.13956451416016, 'beta_dpo/beta_margin_std': 165.199462890625, 'beta_dpo/beta_margin_grad_mean': -0.2987769544124603, 'beta_dpo/beta_margin_grad_std': 0.29313045740127563, 'epoch': 0.94}
+ 94%|█████████████████████████████████████████████████████████████████████████▍    | 641/681 [46:06<01:44,  2.60s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 642/681 [46:08<01:42,  2.64s/it]                                                                                                                     {'loss': 7.0951, 'grad_norm': 6544.80078125, 'learning_rate': 5.251706922648868e-09, 'beta_dpo/gap_mean': 128.44711303710938, 'beta_dpo/gap_std': 167.51364135742188, 'beta_dpo/beta_used_raw': -0.6517113447189331, 'beta_dpo/beta_used': 0.7909172177314758, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.27374494075775146, 'logits/rejected': -0.26332151889801025, 'beta_dpo/beta': 0.7909172177314758, 'beta_dpo/loss_margin_mean': 147.625244140625, 'beta_dpo/beta_margin_mean': 147.3969268798828, 'beta_dpo/beta_margin_std': 221.18307495117188, 'beta_dpo/beta_margin_grad_mean': -0.26804837584495544, 'beta_dpo/beta_margin_grad_std': 0.27035075426101685, 'epoch': 0.94}
+ 94%|█████████████████████████████████████████████████████████████████████████▌    | 642/681 [46:08<01:42,  2.64s/it] 94%|█████████████████████████████████████████████████████████████████████████▋    | 643/681 [46:11<01:42,  2.70s/it]                                                                                                                     {'loss': 3.7361, 'grad_norm': 4131.7802734375, 'learning_rate': 4.993270631642038e-09, 'beta_dpo/gap_mean': 131.22329711914062, 'beta_dpo/gap_std': 162.10546875, 'beta_dpo/beta_used_raw': -0.6685765981674194, 'beta_dpo/beta_used': 0.5000445246696472, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24260678887367249, 'logits/rejected': -0.24370941519737244, 'beta_dpo/beta': 0.5000445246696472, 'beta_dpo/loss_margin_mean': 120.23302459716797, 'beta_dpo/beta_margin_mean': 75.19145965576172, 'beta_dpo/beta_margin_std': 120.19136047363281, 'beta_dpo/beta_margin_grad_mean': -0.2856932282447815, 'beta_dpo/beta_margin_grad_std': 0.28263115882873535, 'epoch': 0.94}
+ 94%|█████████████████████████████████████████████████████████████████████████▋    | 643/681 [46:11<01:42,  2.70s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 644/681 [46:14<01:39,  2.68s/it]                                                                                                                     {'loss': 1.2896, 'grad_norm': 9.257484436035156, 'learning_rate': 4.741290495811873e-09, 'beta_dpo/gap_mean': 127.92471313476562, 'beta_dpo/gap_std': 164.80690002441406, 'beta_dpo/beta_used_raw': -1.3600785732269287, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29417717456817627, 'logits/rejected': -0.2829264998435974, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 119.60871887207031, 'beta_dpo/beta_margin_mean': 0.11960872262716293, 'beta_dpo/beta_margin_std': 0.18185746669769287, 'beta_dpo/beta_margin_grad_mean': -0.4704153537750244, 'beta_dpo/beta_margin_grad_std': 0.044792983680963516, 'epoch': 0.95}
+ 95%|█████████████████████████████████████████████████████████████████████████▊    | 644/681 [46:14<01:39,  2.68s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 645/681 [46:17<01:36,  2.67s/it]                                                                                                                     {'loss': 1.2982, 'grad_norm': 11.280401229858398, 'learning_rate': 4.495773155069299e-09, 'beta_dpo/gap_mean': 125.04953002929688, 'beta_dpo/gap_std': 169.11019897460938, 'beta_dpo/beta_used_raw': -1.6929526329040527, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26835355162620544, 'logits/rejected': -0.2733767330646515, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 101.11979675292969, 'beta_dpo/beta_margin_mean': 0.10111980140209198, 'beta_dpo/beta_margin_std': 0.1889955848455429, 'beta_dpo/beta_margin_grad_mean': -0.47504597902297974, 'beta_dpo/beta_margin_grad_std': 0.04654289036989212, 'epoch': 0.95}
+ 95%|█████████████████████████████████████████████████████████████████████████▉    | 645/681 [46:17<01:36,  2.67s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 646/681 [46:19<01:30,  2.58s/it]                                                                                                                     {'loss': 3.2758, 'grad_norm': 7780.4990234375, 'learning_rate': 4.256725079024553e-09, 'beta_dpo/gap_mean': 121.25621032714844, 'beta_dpo/gap_std': 164.90869140625, 'beta_dpo/beta_used_raw': 0.016669809818267822, 'beta_dpo/beta_used': 0.9947884678840637, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21456298232078552, 'logits/rejected': -0.19140079617500305, 'beta_dpo/beta': 0.9947884678840637, 'beta_dpo/loss_margin_mean': 113.20999145507812, 'beta_dpo/beta_margin_mean': 126.421630859375, 'beta_dpo/beta_margin_std': 230.53216552734375, 'beta_dpo/beta_margin_grad_mean': -0.3158058226108551, 'beta_dpo/beta_margin_grad_std': 0.3032316267490387, 'epoch': 0.95}
+ 95%|█████████████████████████████████████████████████████████████████████████▉    | 646/681 [46:19<01:30,  2.58s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 647/681 [46:22<01:29,  2.62s/it]                                                                                                                     {'loss': 8.0903, 'grad_norm': 3096.896240234375, 'learning_rate': 4.024152566816791e-09, 'beta_dpo/gap_mean': 119.49800109863281, 'beta_dpo/gap_std': 160.93655395507812, 'beta_dpo/beta_used_raw': 0.4405333995819092, 'beta_dpo/beta_used': 0.4405333995819092, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23497043550014496, 'logits/rejected': -0.23454715311527252, 'beta_dpo/beta': 0.4405333995819092, 'beta_dpo/loss_margin_mean': 118.18896484375, 'beta_dpo/beta_margin_mean': 50.956336975097656, 'beta_dpo/beta_margin_std': 66.18246459960938, 'beta_dpo/beta_margin_grad_mean': -0.16993050277233124, 'beta_dpo/beta_margin_grad_std': 0.3702445924282074, 'epoch': 0.95}
+ 95%|██████████████████████████████████████████████████████████████████████████    | 647/681 [46:22<01:29,  2.62s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 648/681 [46:24<01:24,  2.56s/it]                                                                                                                     {'loss': 3.7315, 'grad_norm': 1881.7218017578125, 'learning_rate': 3.798061746947995e-09, 'beta_dpo/gap_mean': 127.08036804199219, 'beta_dpo/gap_std': 167.84896850585938, 'beta_dpo/beta_used_raw': 0.027231574058532715, 'beta_dpo/beta_used': 0.21638301014900208, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2324717938899994, 'logits/rejected': -0.23608848452568054, 'beta_dpo/beta': 0.21638301014900208, 'beta_dpo/loss_margin_mean': 167.418212890625, 'beta_dpo/beta_margin_mean': 37.98030090332031, 'beta_dpo/beta_margin_std': 73.11116027832031, 'beta_dpo/beta_margin_grad_mean': -0.28432542085647583, 'beta_dpo/beta_margin_grad_std': 0.2745562791824341, 'epoch': 0.95}
+ 95%|██████████████████████████████████████████████████████████████████████████▏   | 648/681 [46:24<01:24,  2.56s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 649/681 [46:27<01:24,  2.63s/it]                                                                                                                     {'loss': 3.869, 'grad_norm': 2891.095703125, 'learning_rate': 3.5784585771215235e-09, 'beta_dpo/gap_mean': 124.45140075683594, 'beta_dpo/gap_std': 167.86746215820312, 'beta_dpo/beta_used_raw': -0.06394051015377045, 'beta_dpo/beta_used': 0.17022213339805603, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3063885569572449, 'logits/rejected': -0.2801710069179535, 'beta_dpo/beta': 0.17022213339805603, 'beta_dpo/loss_margin_mean': 101.8471450805664, 'beta_dpo/beta_margin_mean': 15.761299133300781, 'beta_dpo/beta_margin_std': 38.01227569580078, 'beta_dpo/beta_margin_grad_mean': -0.37708210945129395, 'beta_dpo/beta_margin_grad_std': 0.333068311214447, 'epoch': 0.95}
+ 95%|██████████████████████████████████████████████████████████████████████████▎   | 649/681 [46:27<01:24,  2.63s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 650/681 [46:29<01:20,  2.60s/it]                                                                                                                     {'loss': 43.9246, 'grad_norm': 20882.701171875, 'learning_rate': 3.3653488440851253e-09, 'beta_dpo/gap_mean': 129.84597778320312, 'beta_dpo/gap_std': 173.6107635498047, 'beta_dpo/beta_used_raw': 1.3667818307876587, 'beta_dpo/beta_used': 1.3667818307876587, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22325937449932098, 'logits/rejected': -0.22227120399475098, 'beta_dpo/beta': 1.3667818307876587, 'beta_dpo/loss_margin_mean': 161.89785766601562, 'beta_dpo/beta_margin_mean': 236.2583770751953, 'beta_dpo/beta_margin_std': 431.2769470214844, 'beta_dpo/beta_margin_grad_mean': -0.2347412258386612, 'beta_dpo/beta_margin_grad_std': 0.42016705870628357, 'epoch': 0.95}
+ 95%|██████████████████████████████████████████████████████████████████████████▍   | 650/681 [46:29<01:20,  2.60s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 651/681 [46:32<01:17,  2.60s/it]                                                                                                                     {'loss': 8.9479, 'grad_norm': 7399.314453125, 'learning_rate': 3.158738163478475e-09, 'beta_dpo/gap_mean': 134.56472778320312, 'beta_dpo/gap_std': 172.713623046875, 'beta_dpo/beta_used_raw': 0.4660683274269104, 'beta_dpo/beta_used': 0.7648828029632568, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29069170355796814, 'logits/rejected': -0.3059248924255371, 'beta_dpo/beta': 0.7648828029632568, 'beta_dpo/loss_margin_mean': 150.5056610107422, 'beta_dpo/beta_margin_mean': 129.44383239746094, 'beta_dpo/beta_margin_std': 225.9346466064453, 'beta_dpo/beta_margin_grad_mean': -0.32739847898483276, 'beta_dpo/beta_margin_grad_std': 0.3100513815879822, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████▌   | 651/681 [46:32<01:17,  2.60s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 652/681 [46:34<01:15,  2.59s/it]                                                                                                                     {'loss': 1.2702, 'grad_norm': 13.33399772644043, 'learning_rate': 2.9586319796851555e-09, 'beta_dpo/gap_mean': 133.96636962890625, 'beta_dpo/gap_std': 171.03175354003906, 'beta_dpo/beta_used_raw': -0.46489205956459045, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2815973162651062, 'logits/rejected': -0.2725764214992523, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 133.89273071289062, 'beta_dpo/beta_margin_mean': 0.1338927298784256, 'beta_dpo/beta_margin_std': 0.1681978404521942, 'beta_dpo/beta_margin_grad_mean': -0.46688932180404663, 'beta_dpo/beta_margin_grad_std': 0.04138989374041557, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████▋   | 652/681 [46:35<01:15,  2.59s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 653/681 [46:37<01:12,  2.58s/it]                                                                                                                     {'loss': 1.2661, 'grad_norm': 9.623185157775879, 'learning_rate': 2.7650355656892166e-09, 'beta_dpo/gap_mean': 136.72564697265625, 'beta_dpo/gap_std': 170.6292724609375, 'beta_dpo/beta_used_raw': -0.37464144825935364, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26191675662994385, 'logits/rejected': -0.26024746894836426, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 152.7071533203125, 'beta_dpo/beta_margin_mean': 0.15270715951919556, 'beta_dpo/beta_margin_std': 0.1718183010816574, 'beta_dpo/beta_margin_grad_mean': -0.4622488021850586, 'beta_dpo/beta_margin_grad_std': 0.0421992689371109, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████▊   | 653/681 [46:37<01:12,  2.58s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 654/681 [46:40<01:09,  2.57s/it]                                                                                                                     {'loss': 1.479, 'grad_norm': 1289.0914306640625, 'learning_rate': 2.577954022936174e-09, 'beta_dpo/gap_mean': 135.6177978515625, 'beta_dpo/gap_std': 171.04434204101562, 'beta_dpo/beta_used_raw': -0.6519217491149902, 'beta_dpo/beta_used': 0.12737774848937988, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.285967618227005, 'logits/rejected': -0.2813323140144348, 'beta_dpo/beta': 0.12737774848937988, 'beta_dpo/loss_margin_mean': 119.36299896240234, 'beta_dpo/beta_margin_mean': 14.189286231994629, 'beta_dpo/beta_margin_std': 31.74391746520996, 'beta_dpo/beta_margin_grad_mean': -0.3520982265472412, 'beta_dpo/beta_margin_grad_std': 0.311506450176239, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████▉   | 654/681 [46:40<01:09,  2.57s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 655/681 [46:42<01:08,  2.64s/it]                                                                                                                     {'loss': 1.2895, 'grad_norm': 11.29627513885498, 'learning_rate': 2.397392281198729e-09, 'beta_dpo/gap_mean': 134.3379364013672, 'beta_dpo/gap_std': 172.51646423339844, 'beta_dpo/beta_used_raw': -1.6912943124771118, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21164986491203308, 'logits/rejected': -0.22321152687072754, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 127.51449584960938, 'beta_dpo/beta_margin_mean': 0.12751449644565582, 'beta_dpo/beta_margin_std': 0.1827131062746048, 'beta_dpo/beta_margin_grad_mean': -0.4685191512107849, 'beta_dpo/beta_margin_grad_std': 0.04493279755115509, 'epoch': 0.96}
+ 96%|███████████████████████████████████████████████████████████████████████████   | 655/681 [46:42<01:08,  2.64s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 656/681 [46:45<01:06,  2.66s/it]                                                                                                                     {'loss': 10.8002, 'grad_norm': 4871.01171875, 'learning_rate': 2.223355098446622e-09, 'beta_dpo/gap_mean': 140.21481323242188, 'beta_dpo/gap_std': 170.7769775390625, 'beta_dpo/beta_used_raw': 1.46394944190979, 'beta_dpo/beta_used': 1.46394944190979, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.20203420519828796, 'logits/rejected': -0.2107037454843521, 'beta_dpo/beta': 1.46394944190979, 'beta_dpo/loss_margin_mean': 189.06527709960938, 'beta_dpo/beta_margin_mean': 281.1544494628906, 'beta_dpo/beta_margin_std': 236.0167694091797, 'beta_dpo/beta_margin_grad_mean': -0.09375060349702835, 'beta_dpo/beta_margin_grad_std': 0.2914803922176361, 'epoch': 0.96}
+ 96%|███████████████████████████████████████████████████████████████████████████▏  | 656/681 [46:45<01:06,  2.66s/it] 96%|███████████████████████████████████████████████████████████████████████████▎  | 657/681 [46:47<01:00,  2.53s/it]                                                                                                                     {'loss': 0.6362, 'grad_norm': 5.878337860107422, 'learning_rate': 2.055847060721566e-09, 'beta_dpo/gap_mean': 148.42965698242188, 'beta_dpo/gap_std': 167.33609008789062, 'beta_dpo/beta_used_raw': -0.031182467937469482, 'beta_dpo/beta_used': 0.7246884703636169, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2323456108570099, 'logits/rejected': -0.23794196546077728, 'beta_dpo/beta': 0.7246884703636169, 'beta_dpo/loss_margin_mean': 171.03836059570312, 'beta_dpo/beta_margin_mean': 136.55160522460938, 'beta_dpo/beta_margin_std': 201.0517578125, 'beta_dpo/beta_margin_grad_mean': -0.24664191901683807, 'beta_dpo/beta_margin_grad_std': 0.24966345727443695, 'epoch': 0.96}
+ 96%|███████████████████████████████████████████████████████████████████████████▎  | 657/681 [46:47<01:00,  2.53s/it] 97%|███████████████████████████████████████████████████████████████████████████▎  | 658/681 [46:50<00:56,  2.47s/it]                                                                                                                     {'loss': 1.2622, 'grad_norm': 9.239810943603516, 'learning_rate': 1.8948725820160662e-09, 'beta_dpo/gap_mean': 145.939208984375, 'beta_dpo/gap_std': 164.26235961914062, 'beta_dpo/beta_used_raw': -0.7150457501411438, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23999705910682678, 'logits/rejected': -0.2215622067451477, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 135.171630859375, 'beta_dpo/beta_margin_mean': 0.13517163693904877, 'beta_dpo/beta_margin_std': 0.15315905213356018, 'beta_dpo/beta_margin_grad_mean': -0.466478168964386, 'beta_dpo/beta_margin_grad_std': 0.03783747926354408, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████▎  | 658/681 [46:50<00:56,  2.47s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 659/681 [46:52<00:56,  2.55s/it]                                                                                                                     {'loss': 1.2654, 'grad_norm': 13.10746955871582, 'learning_rate': 1.7404359041573723e-09, 'beta_dpo/gap_mean': 143.0897216796875, 'beta_dpo/gap_std': 163.14138793945312, 'beta_dpo/beta_used_raw': -0.6675459146499634, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3149293065071106, 'logits/rejected': -0.26698166131973267, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 124.60411071777344, 'beta_dpo/beta_margin_mean': 0.12460412085056305, 'beta_dpo/beta_margin_std': 0.15533404052257538, 'beta_dpo/beta_margin_grad_mean': -0.46911635994911194, 'beta_dpo/beta_margin_grad_std': 0.0383928045630455, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████▍  | 659/681 [46:52<00:56,  2.55s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 660/681 [46:55<00:53,  2.53s/it]                                                                                                                     {'loss': 2.3556, 'grad_norm': 1521.5159912109375, 'learning_rate': 1.592541096695571e-09, 'beta_dpo/gap_mean': 144.819091796875, 'beta_dpo/gap_std': 160.9578857421875, 'beta_dpo/beta_used_raw': 0.0521998405456543, 'beta_dpo/beta_used': 0.336564302444458, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.18781328201293945, 'logits/rejected': -0.15785738825798035, 'beta_dpo/beta': 0.336564302444458, 'beta_dpo/loss_margin_mean': 162.99786376953125, 'beta_dpo/beta_margin_mean': 57.831546783447266, 'beta_dpo/beta_margin_std': 95.76539611816406, 'beta_dpo/beta_margin_grad_mean': -0.2779940366744995, 'beta_dpo/beta_margin_grad_std': 0.27703657746315, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████▌  | 660/681 [46:55<00:53,  2.53s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 661/681 [46:57<00:48,  2.43s/it]                                                                                                                     {'loss': 1.2689, 'grad_norm': 8.182291030883789, 'learning_rate': 1.4511920567963908e-09, 'beta_dpo/gap_mean': 144.63906860351562, 'beta_dpo/gap_std': 161.95355224609375, 'beta_dpo/beta_used_raw': -1.1518099308013916, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2719656527042389, 'logits/rejected': -0.2467373013496399, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 147.99667358398438, 'beta_dpo/beta_margin_mean': 0.1479966789484024, 'beta_dpo/beta_margin_std': 0.1754070222377777, 'beta_dpo/beta_margin_grad_mean': -0.4634128510951996, 'beta_dpo/beta_margin_grad_std': 0.04297526925802231, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████▋  | 661/681 [46:57<00:48,  2.43s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 662/681 [47:00<00:48,  2.53s/it]                                                                                                                     {'loss': 1.2631, 'grad_norm': 10.364067077636719, 'learning_rate': 1.3163925091384532e-09, 'beta_dpo/gap_mean': 144.40728759765625, 'beta_dpo/gap_std': 164.30880737304688, 'beta_dpo/beta_used_raw': -0.6409615278244019, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3215191066265106, 'logits/rejected': -0.2895079255104065, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 129.33206176757812, 'beta_dpo/beta_margin_mean': 0.1293320655822754, 'beta_dpo/beta_margin_std': 0.17222696542739868, 'beta_dpo/beta_margin_grad_mean': -0.4679609537124634, 'beta_dpo/beta_margin_grad_std': 0.04259883239865303, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████▊  | 662/681 [47:00<00:48,  2.53s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 663/681 [47:03<00:46,  2.60s/it]                                                                                                                     {'loss': 1.2757, 'grad_norm': 7.655603885650635, 'learning_rate': 1.1881460058152382e-09, 'beta_dpo/gap_mean': 142.96701049804688, 'beta_dpo/gap_std': 167.32403564453125, 'beta_dpo/beta_used_raw': -1.430047631263733, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.31214457750320435, 'logits/rejected': -0.310594379901886, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 137.47317504882812, 'beta_dpo/beta_margin_mean': 0.1374731808900833, 'beta_dpo/beta_margin_std': 0.1681915521621704, 'beta_dpo/beta_margin_grad_mean': -0.4659326374530792, 'beta_dpo/beta_margin_grad_std': 0.041490860283374786, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████▉  | 663/681 [47:03<00:46,  2.60s/it] 98%|████████████████████████████████████████████████████████████████████████████  | 664/681 [47:05<00:44,  2.61s/it]                                                                                                                     {'loss': 22.277, 'grad_norm': 14736.9189453125, 'learning_rate': 1.066455926241383e-09, 'beta_dpo/gap_mean': 145.85546875, 'beta_dpo/gap_std': 171.21942138671875, 'beta_dpo/beta_used_raw': 0.9985529780387878, 'beta_dpo/beta_used': 1.081035852432251, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23802334070205688, 'logits/rejected': -0.23446832597255707, 'beta_dpo/beta': 1.081035852432251, 'beta_dpo/loss_margin_mean': 160.23175048828125, 'beta_dpo/beta_margin_mean': 193.7392120361328, 'beta_dpo/beta_margin_std': 372.88427734375, 'beta_dpo/beta_margin_grad_mean': -0.3265109956264496, 'beta_dpo/beta_margin_grad_std': 0.31032606959342957, 'epoch': 0.98}
+ 98%|████████████████████████████████████████████████████████████████████████████  | 664/681 [47:05<00:44,  2.61s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 665/681 [47:08<00:40,  2.54s/it]                                                                                                                     {'loss': 1.9778, 'grad_norm': 950.77587890625, 'learning_rate': 9.513254770636137e-10, 'beta_dpo/gap_mean': 143.3297882080078, 'beta_dpo/gap_std': 168.05531311035156, 'beta_dpo/beta_used_raw': 0.05960509926080704, 'beta_dpo/beta_used': 0.17351345717906952, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2172248661518097, 'logits/rejected': -0.18482929468154907, 'beta_dpo/beta': 0.17351345717906952, 'beta_dpo/loss_margin_mean': 132.63438415527344, 'beta_dpo/beta_margin_mean': 24.549057006835938, 'beta_dpo/beta_margin_std': 46.99803924560547, 'beta_dpo/beta_margin_grad_mean': -0.30906784534454346, 'beta_dpo/beta_margin_grad_std': 0.29436877369880676, 'epoch': 0.98}
+ 98%|████████████████████████████████████████████████████████████████████████████▏ | 665/681 [47:08<00:40,  2.54s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 666/681 [47:10<00:39,  2.63s/it]                                                                                                                     {'loss': 1.2653, 'grad_norm': 10.848896026611328, 'learning_rate': 8.427576920763956e-10, 'beta_dpo/gap_mean': 144.62229919433594, 'beta_dpo/gap_std': 164.13558959960938, 'beta_dpo/beta_used_raw': -0.8510459661483765, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26341164112091064, 'logits/rejected': -0.24032096564769745, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 145.38601684570312, 'beta_dpo/beta_margin_mean': 0.14538602530956268, 'beta_dpo/beta_margin_std': 0.14133024215698242, 'beta_dpo/beta_margin_grad_mean': -0.4638909697532654, 'beta_dpo/beta_margin_grad_std': 0.034985702484846115, 'epoch': 0.98}
+ 98%|████████████████████████████████████████████████████████████████████████████▎ | 666/681 [47:11<00:39,  2.63s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 667/681 [47:13<00:37,  2.67s/it]                                                                                                                     {'loss': 3.6685, 'grad_norm': 7423.337890625, 'learning_rate': 7.407554321417764e-10, 'beta_dpo/gap_mean': 142.28619384765625, 'beta_dpo/gap_std': 162.02328491210938, 'beta_dpo/beta_used_raw': 0.0477980375289917, 'beta_dpo/beta_used': 0.555698573589325, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24232017993927002, 'logits/rejected': -0.21042859554290771, 'beta_dpo/beta': 0.555698573589325, 'beta_dpo/loss_margin_mean': 135.94004821777344, 'beta_dpo/beta_margin_mean': 75.98949432373047, 'beta_dpo/beta_margin_std': 132.38754272460938, 'beta_dpo/beta_margin_grad_mean': -0.32695654034614563, 'beta_dpo/beta_margin_grad_std': 0.3104262053966522, 'epoch': 0.98}
+ 98%|████████████████████████████████████████████████████████████████████████████▍ | 667/681 [47:13<00:37,  2.67s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 668/681 [47:16<00:35,  2.70s/it]                                                                                                                     {'loss': 1.2854, 'grad_norm': 15.746362686157227, 'learning_rate': 6.453213851142225e-10, 'beta_dpo/gap_mean': 135.5725555419922, 'beta_dpo/gap_std': 161.8687744140625, 'beta_dpo/beta_used_raw': -1.565541386604309, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26321089267730713, 'logits/rejected': -0.2517067492008209, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 110.26235961914062, 'beta_dpo/beta_margin_mean': 0.11026235669851303, 'beta_dpo/beta_margin_std': 0.16938358545303345, 'beta_dpo/beta_margin_grad_mean': -0.47267022728919983, 'beta_dpo/beta_margin_grad_std': 0.04184536263346672, 'epoch': 0.98}
+ 98%|████████████████████████████████████████████████████████████████████████████▌ | 668/681 [47:16<00:35,  2.70s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 669/681 [47:19<00:32,  2.71s/it]                                                                                                                     {'loss': 3.9008, 'grad_norm': 2606.953125, 'learning_rate': 5.564580657695939e-10, 'beta_dpo/gap_mean': 139.15911865234375, 'beta_dpo/gap_std': 162.9943084716797, 'beta_dpo/beta_used_raw': 0.24128052592277527, 'beta_dpo/beta_used': 0.49764859676361084, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.239346444606781, 'logits/rejected': -0.21844345331192017, 'beta_dpo/beta': 0.49764859676361084, 'beta_dpo/loss_margin_mean': 155.27737426757812, 'beta_dpo/beta_margin_mean': 76.75032043457031, 'beta_dpo/beta_margin_std': 137.6516876220703, 'beta_dpo/beta_margin_grad_mean': -0.2775057852268219, 'beta_dpo/beta_margin_grad_std': 0.27767181396484375, 'epoch': 0.98}
+ 98%|████████████████████████████████████████████████████████████████████████████▋ | 669/681 [47:19<00:32,  2.71s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 670/681 [47:21<00:29,  2.67s/it]                                                                                                                     {'loss': 13.5793, 'grad_norm': 7477.4453125, 'learning_rate': 4.741678157389739e-10, 'beta_dpo/gap_mean': 141.39236450195312, 'beta_dpo/gap_std': 165.60235595703125, 'beta_dpo/beta_used_raw': -0.3109077215194702, 'beta_dpo/beta_used': 0.5937625169754028, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25414931774139404, 'logits/rejected': -0.23977619409561157, 'beta_dpo/beta': 0.5937625169754028, 'beta_dpo/loss_margin_mean': 155.38189697265625, 'beta_dpo/beta_margin_mean': 102.75801086425781, 'beta_dpo/beta_margin_std': 171.8385009765625, 'beta_dpo/beta_margin_grad_mean': -0.32673099637031555, 'beta_dpo/beta_margin_grad_std': 0.3107914626598358, 'epoch': 0.98}
+ 98%|████████████████████████████████████████████████████████████████████████████▋ | 670/681 [47:21<00:29,  2.67s/it] 99%|████████████████████████████████████████████████████████████████████████████▊ | 671/681 [47:24<00:26,  2.61s/it]                                                                                                                     {'loss': 15.1475, 'grad_norm': 13217.642578125, 'learning_rate': 3.9845280344705245e-10, 'beta_dpo/gap_mean': 142.10791015625, 'beta_dpo/gap_std': 166.866943359375, 'beta_dpo/beta_used_raw': 1.3876622915267944, 'beta_dpo/beta_used': 1.3876622915267944, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21202997863292694, 'logits/rejected': -0.20390699803829193, 'beta_dpo/beta': 1.3876622915267944, 'beta_dpo/loss_margin_mean': 143.68527221679688, 'beta_dpo/beta_margin_mean': 201.6892547607422, 'beta_dpo/beta_margin_std': 243.80215454101562, 'beta_dpo/beta_margin_grad_mean': -0.2369070202112198, 'beta_dpo/beta_margin_grad_std': 0.42259082198143005, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████▊ | 671/681 [47:24<00:26,  2.61s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 672/681 [47:26<00:23,  2.59s/it]                                                                                                                     {'loss': 1.2722, 'grad_norm': 10.910394668579102, 'learning_rate': 3.293150240547549e-10, 'beta_dpo/gap_mean': 139.9226531982422, 'beta_dpo/gap_std': 167.88650512695312, 'beta_dpo/beta_used_raw': -0.8151004910469055, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24089352786540985, 'logits/rejected': -0.22517436742782593, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 121.51133728027344, 'beta_dpo/beta_margin_mean': 0.12151134014129639, 'beta_dpo/beta_margin_std': 0.1770341694355011, 'beta_dpo/beta_margin_grad_mean': -0.469896525144577, 'beta_dpo/beta_margin_grad_std': 0.043766915798187256, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████▉ | 672/681 [47:26<00:23,  2.59s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 673/681 [47:29<00:19,  2.49s/it]                                                                                                                     {'loss': 7.6929, 'grad_norm': 4248.92431640625, 'learning_rate': 2.6675629940689504e-10, 'beta_dpo/gap_mean': 141.91412353515625, 'beta_dpo/gap_std': 166.22857666015625, 'beta_dpo/beta_used_raw': 0.13607317209243774, 'beta_dpo/beta_used': 0.39367401599884033, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21331897377967834, 'logits/rejected': -0.20891378819942474, 'beta_dpo/beta': 0.39367401599884033, 'beta_dpo/loss_margin_mean': 155.3968048095703, 'beta_dpo/beta_margin_mean': 63.47161102294922, 'beta_dpo/beta_margin_std': 101.09577178955078, 'beta_dpo/beta_margin_grad_mean': -0.27898791432380676, 'beta_dpo/beta_margin_grad_std': 0.2772313356399536, 'epoch': 0.99}
+ 99%|█████████████████████████████████████████████████████████████████████████████ | 673/681 [47:29<00:19,  2.49s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 674/681 [47:31<00:17,  2.55s/it]                                                                                                                     {'loss': 3.5724, 'grad_norm': 3347.8056640625, 'learning_rate': 2.1077827798404725e-10, 'beta_dpo/gap_mean': 145.38265991210938, 'beta_dpo/gap_std': 166.84365844726562, 'beta_dpo/beta_used_raw': 0.35867586731910706, 'beta_dpo/beta_used': 0.3700469732284546, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22968342900276184, 'logits/rejected': -0.21133801341056824, 'beta_dpo/beta': 0.3700469732284546, 'beta_dpo/loss_margin_mean': 163.85891723632812, 'beta_dpo/beta_margin_mean': 60.167579650878906, 'beta_dpo/beta_margin_std': 115.83226776123047, 'beta_dpo/beta_margin_grad_mean': -0.31875723600387573, 'beta_dpo/beta_margin_grad_std': 0.2990269958972931, 'epoch': 0.99}
+ 99%|█████████████████████████████████████████████████████████████████████████████▏| 674/681 [47:31<00:17,  2.55s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 675/681 [47:34<00:15,  2.52s/it]                                                                                                                     {'loss': 1.2649, 'grad_norm': 10.684988021850586, 'learning_rate': 1.6138243485910863e-10, 'beta_dpo/gap_mean': 149.49859619140625, 'beta_dpo/gap_std': 167.7472381591797, 'beta_dpo/beta_used_raw': -1.1393800973892212, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2344612330198288, 'logits/rejected': -0.22431063652038574, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 168.26443481445312, 'beta_dpo/beta_margin_mean': 0.1682644486427307, 'beta_dpo/beta_margin_std': 0.17532816529273987, 'beta_dpo/beta_margin_grad_mean': -0.4584572911262512, 'beta_dpo/beta_margin_grad_std': 0.04273706302046776, 'epoch': 0.99}
+ 99%|█████████████████████████████████████████████████████████████████████████████▎| 675/681 [47:34<00:15,  2.52s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 676/681 [47:36<00:12,  2.56s/it]                                                                                                                     {'loss': 5.0433, 'grad_norm': 3344.320068359375, 'learning_rate': 1.1857007165852472e-10, 'beta_dpo/gap_mean': 150.6968994140625, 'beta_dpo/gap_std': 166.34634399414062, 'beta_dpo/beta_used_raw': -0.8106540441513062, 'beta_dpo/beta_used': 0.3458569049835205, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.314957857131958, 'logits/rejected': -0.2842877507209778, 'beta_dpo/beta': 0.3458569049835205, 'beta_dpo/loss_margin_mean': 143.155029296875, 'beta_dpo/beta_margin_mean': 58.578914642333984, 'beta_dpo/beta_margin_std': 92.11776733398438, 'beta_dpo/beta_margin_grad_mean': -0.2846805453300476, 'beta_dpo/beta_margin_grad_std': 0.2793225646018982, 'epoch': 0.99}
+ 99%|█████████████████████████████████████████████████████████████████████████████▍| 676/681 [47:36<00:12,  2.56s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 677/681 [47:39<00:09,  2.47s/it]                                                                                                                     {'loss': 12.5035, 'grad_norm': 9669.5361328125, 'learning_rate': 8.23423165278725e-11, 'beta_dpo/gap_mean': 149.2086181640625, 'beta_dpo/gap_std': 164.42991638183594, 'beta_dpo/beta_used_raw': 0.5463694334030151, 'beta_dpo/beta_used': 0.9840426445007324, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22851765155792236, 'logits/rejected': -0.20020201802253723, 'beta_dpo/beta': 0.9840426445007324, 'beta_dpo/loss_margin_mean': 154.48655700683594, 'beta_dpo/beta_margin_mean': 163.275146484375, 'beta_dpo/beta_margin_std': 241.04299926757812, 'beta_dpo/beta_margin_grad_mean': -0.2947867214679718, 'beta_dpo/beta_margin_grad_std': 0.29029718041419983, 'epoch': 0.99}
+ 99%|█████████████████████████████████████████████████████████████████████████████▌| 677/681 [47:39<00:09,  2.47s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 678/681 [47:41<00:07,  2.46s/it]                                                                                                                     {'loss': 5.5623, 'grad_norm': 6134.18310546875, 'learning_rate': 5.270012410216185e-11, 'beta_dpo/gap_mean': 150.82748413085938, 'beta_dpo/gap_std': 165.1314697265625, 'beta_dpo/beta_used_raw': 0.4158139228820801, 'beta_dpo/beta_used': 0.5137372016906738, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24406661093235016, 'logits/rejected': -0.23352187871932983, 'beta_dpo/beta': 0.5137372016906738, 'beta_dpo/loss_margin_mean': 160.3917999267578, 'beta_dpo/beta_margin_mean': 91.00566101074219, 'beta_dpo/beta_margin_std': 150.59832763671875, 'beta_dpo/beta_margin_grad_mean': -0.33945244550704956, 'beta_dpo/beta_margin_grad_std': 0.3146733343601227, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████▋| 678/681 [47:41<00:07,  2.46s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 679/681 [47:44<00:05,  2.55s/it]                                                                                                                     {'loss': 4.2081, 'grad_norm': 2949.92333984375, 'learning_rate': 2.9644275480772416e-11, 'beta_dpo/gap_mean': 149.608642578125, 'beta_dpo/gap_std': 166.2967529296875, 'beta_dpo/beta_used_raw': 0.4399394392967224, 'beta_dpo/beta_used': 0.4399394392967224, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24739307165145874, 'logits/rejected': -0.2278253436088562, 'beta_dpo/beta': 0.4399394392967224, 'beta_dpo/loss_margin_mean': 132.75094604492188, 'beta_dpo/beta_margin_mean': 58.7913932800293, 'beta_dpo/beta_margin_std': 76.95616149902344, 'beta_dpo/beta_margin_grad_mean': -0.202021986246109, 'beta_dpo/beta_margin_grad_std': 0.3905799984931946, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████▊| 679/681 [47:44<00:05,  2.55s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 680/681 [47:47<00:02,  2.63s/it]                                                                                                                     {'loss': 1.4902, 'grad_norm': 773.09716796875, 'learning_rate': 1.31753782067201e-11, 'beta_dpo/gap_mean': 149.79739379882812, 'beta_dpo/gap_std': 168.91465759277344, 'beta_dpo/beta_used_raw': -0.949596643447876, 'beta_dpo/beta_used': 0.16887128353118896, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.282899409532547, 'logits/rejected': -0.2579476833343506, 'beta_dpo/beta': 0.16887128353118896, 'beta_dpo/loss_margin_mean': 154.96934509277344, 'beta_dpo/beta_margin_mean': 24.72771453857422, 'beta_dpo/beta_margin_std': 45.65426254272461, 'beta_dpo/beta_margin_grad_mean': -0.2913900911808014, 'beta_dpo/beta_margin_grad_std': 0.28668370842933655, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████▉| 680/681 [47:47<00:02,  2.63s/it]100%|██████████████████████████████████████████████████████████████████████████████| 681/681 [47:49<00:00,  2.61s/it]                                                                                                                     {'loss': 1.2798, 'grad_norm': 11.882765769958496, 'learning_rate': 3.2938662507808745e-12, 'beta_dpo/gap_mean': 145.9384002685547, 'beta_dpo/gap_std': 166.8389892578125, 'beta_dpo/beta_used_raw': -1.753014087677002, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26762282848358154, 'logits/rejected': -0.25434818863868713, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 134.85069274902344, 'beta_dpo/beta_margin_mean': 0.13485069572925568, 'beta_dpo/beta_margin_std': 0.17000959813594818, 'beta_dpo/beta_margin_grad_mean': -0.46664658188819885, 'beta_dpo/beta_margin_grad_std': 0.041838180273771286, 'epoch': 1.0}
+100%|██████████████████████████████████████████████████████████████████████████████| 681/681 [47:49<00:00,  2.61s/it][INFO|trainer.py:3984] 2026-04-18 00:11:37,099 >> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681
+[INFO|configuration_utils.py:419] 2026-04-18 00:11:37,112 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681/config.json
+[INFO|configuration_utils.py:911] 2026-04-18 00:11:37,121 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681/generation_config.json
+[INFO|modeling_utils.py:3580] 2026-04-18 00:12:23,937 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681/model.safetensors.index.json.
+[INFO|tokenization_utils_base.py:2510] 2026-04-18 00:12:23,946 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681/tokenizer_config.json
+[INFO|tokenization_utils_base.py:2519] 2026-04-18 00:12:23,963 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681/special_tokens_map.json
+[INFO|trainer.py:4083] 2026-04-18 00:16:18,284 >> Deleting older checkpoint [/scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400] due to args.save_total_limit
+[INFO|trainer.py:2681] 2026-04-18 00:16:21,557 >> 
+
+Training completed. Do not forget to share your model on huggingface.co/models =)
+
+
+                                                                                                                     {'train_runtime': 3177.7378, 'train_samples_per_second': 13.72, 'train_steps_per_second': 0.214, 'train_loss': 2.627565469291942, 'epoch': 1.0}
+100%|██████████████████████████████████████████████████████████████████████████████| 681/681 [52:49<00:00,  2.61s/it]100%|██████████████████████████████████████████████████████████████████████████████| 681/681 [52:49<00:00,  4.65s/it]
+***** train metrics *****
+  epoch                    =        1.0
+  total_flos               =        0GF
+  train_loss               =     2.6276
+  train_runtime            = 0:52:57.73
+  train_samples            =      43598
+  train_samples_per_second =      13.72
+  train_steps_per_second   =      0.214
+2026-04-18 00:16:21 - INFO - __main__ - *** Training complete ***
+2026-04-18 00:16:21 - INFO - __main__ - *** Save model ***
+[INFO|configuration_utils.py:419] 2026-04-18 00:16:38,640 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/config.json
+[INFO|configuration_utils.py:911] 2026-04-18 00:16:38,659 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/generation_config.json
+[INFO|modeling_utils.py:3580] 2026-04-18 00:17:42,598 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 7 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/model.safetensors.index.json.
+[INFO|tokenization_utils_base.py:2510] 2026-04-18 00:17:42,622 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/tokenizer_config.json
+[INFO|tokenization_utils_base.py:2519] 2026-04-18 00:17:42,638 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/special_tokens_map.json
+2026-04-18 00:17:42 - INFO - __main__ - Saved HF-compatible model artifacts to /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753
+[INFO|modelcard.py:450] 2026-04-18 00:17:42,897 >> Dropping the following result as it does not have all the necessary fields:
+{'dataset': {'name': 'Anthropic/hh-rlhf', 'type': 'Anthropic/hh-rlhf'}}
+[INFO|configuration_utils.py:419] 2026-04-18 00:17:42,938 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/config.json
+2026-04-18 00:17:42 - INFO - __main__ - *** Evaluate ***
+[INFO|trainer.py:4307] 2026-04-18 00:17:42,939 >> 
+***** Running Evaluation *****
+[INFO|trainer.py:4309] 2026-04-18 00:17:42,939 >>   Num examples = 2339
+[INFO|trainer.py:4312] 2026-04-18 00:17:42,939 >>   Batch size = 8
+  0%|                                                                                         | 0/73 [00:00<?, ?it/s]  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.63it/s]  4%|███▎                                                                             | 3/73 [00:01<00:26,  2.60it/s]  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.27it/s]  7%|█████▌                                                                           | 5/73 [00:02<00:31,  2.13it/s]  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.02it/s] 10%|███████▊                                                                         | 7/73 [00:03<00:31,  2.09it/s] 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.94it/s] 12%|█████████▉                                                                       | 9/73 [00:04<00:33,  1.89it/s] 14%|██████████▉                                                                     | 10/73 [00:04<00:33,  1.85it/s] 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.86it/s] 16%|█████████████▏                                                                  | 12/73 [00:05<00:33,  1.81it/s] 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.85it/s] 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.82it/s] 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.83it/s] 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.76it/s] 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.75it/s] 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.73it/s] 26%|████████████████████▊                                                           | 19/73 [00:09<00:31,  1.71it/s] 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.70it/s] 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.70it/s] 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.68it/s] 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:28,  1.73it/s] 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.74it/s] 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:27,  1.72it/s] 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.74it/s] 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s] 38%|██████████████████████████████▋                                                 | 28/73 [00:14<00:23,  1.89it/s] 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:22,  1.92it/s] 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.93it/s] 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.86it/s] 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s] 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:20,  1.92it/s] 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.88it/s] 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.81it/s] 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.82it/s] 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s] 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.88it/s] 53%|██████████████████████████████████████████▋                                     | 39/73 [00:20<00:18,  1.80it/s] 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.82it/s] 56%|████████████████████████████████████████████▉                                   | 41/73 [00:21<00:17,  1.87it/s] 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:17,  1.82it/s] 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s] 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.85it/s] 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s] 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.85it/s] 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s] 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:25<00:13,  1.80it/s] 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.79it/s] 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:26<00:12,  1.81it/s] 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.79it/s] 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.74it/s] 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s] 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.81it/s] 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.80it/s] 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.85it/s] 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:30<00:09,  1.76it/s] 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s] 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:31<00:07,  1.84it/s] 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s] 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.80it/s] 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.76it/s] 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s] 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.95it/s] 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.92it/s] 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.85it/s] 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.88it/s] 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.83it/s] 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s] 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:37<00:01,  1.80it/s] 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.80it/s] 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.79it/s]100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.93it/s]100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.85it/s]
+***** eval metrics *****
+  epoch                               =        1.0
+  eval_beta_dpo/beta                  =     0.0112
+  eval_beta_dpo/beta_margin_grad_mean =     -0.471
+  eval_beta_dpo/beta_margin_grad_std  =     0.0492
+  eval_beta_dpo/beta_margin_mean      =     1.6409
+  eval_beta_dpo/beta_margin_std       =      2.073
+  eval_beta_dpo/beta_used             =     0.0112
+  eval_beta_dpo/beta_used_raw         =    -3.5043
+  eval_beta_dpo/gap_mean              =   147.1535
+  eval_beta_dpo/gap_std               =   168.5002
+  eval_beta_dpo/loss_margin_mean      =    87.0826
+  eval_beta_dpo/mask_keep_frac        =        1.0
+  eval_logits/chosen                  =    -0.2773
+  eval_logits/rejected                =     -0.255
+  eval_loss                           =     0.7894
+  eval_runtime                        = 0:00:40.11
+  eval_samples                        =       2339
+  eval_samples_per_second             =     58.309
+  eval_steps_per_second               =      1.845
+2026-04-18 00:18:23 - INFO - __main__ - *** Training complete! ***
+wandb: - 0.014 MB of 0.014 MB uploadedwandb: \ 0.014 MB of 0.014 MB uploadedwandb: | 0.049 MB of 0.299 MB uploadedwandb: / 0.301 MB of 0.301 MB uploadedwandb: 
+wandb: Run history:
+wandb:                   eval/beta_dpo/beta ▁▁▃▂▆█▂
+wandb:  eval/beta_dpo/beta_margin_grad_mean ▁▁▅▄██▅
+wandb:   eval/beta_dpo/beta_margin_grad_std ▁▂▅▄▇█▅
+wandb:       eval/beta_dpo/beta_margin_mean ▁▁▂▂▆█▂
+wandb:        eval/beta_dpo/beta_margin_std ▁▁▂▂▆█▂
+wandb:              eval/beta_dpo/beta_used ▁▁▃▂▆█▂
+wandb:          eval/beta_dpo/beta_used_raw █▆▅▂▄▃▁
+wandb:               eval/beta_dpo/gap_mean ▁▃▄▆▆▇█
+wandb:                eval/beta_dpo/gap_std ▁▃▅▇▇██
+wandb:       eval/beta_dpo/loss_margin_mean ▁▃▄▆▇██
+wandb:         eval/beta_dpo/mask_keep_frac ▁▁▁▁▁▁▁
+wandb:                   eval/logits/chosen ▁▂▅▆▇██
+wandb:                 eval/logits/rejected ▁▂▅▅▇██
+wandb:                            eval/loss ▁▁▂▂▅█▂
+wandb:                         eval/runtime █▄▆▆▄▃▁
+wandb:              eval/samples_per_second ▁▅▃▃▅▆█
+wandb:                eval/steps_per_second ▁▅▂▃▅▆█
+wandb:                  train/beta_dpo/beta ▁▁▁▁▂▁▁▁▁▂▁▁▁▁▁▂▃▁▁▁▁▅▁█▅▁▁▁▁▆▂▁▁▄▂▁▇▅▇▂
+wandb: train/beta_dpo/beta_margin_grad_mean ▁▁▂▃▅▃▃▁▃▃▄▁▁▁▁▄▇▁▄▁▁█▁▆▇▄▄▂▂▅▅▂▅▄▇▂▇██▅
+wandb:  train/beta_dpo/beta_margin_grad_std ▁▁▂▃▅▆▅▁▆▆▅▁▁▁▁▆▇▁▆▁▁▆▁█▇▆▅▂▁▆▆▂▅▇█▁█▅▆▆
+wandb:      train/beta_dpo/beta_margin_mean ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▂▂▁▁▁▁▄▁▇▄▁▁▁▁▆▂▁▁▄▂▁▇▆█▂
+wandb:       train/beta_dpo/beta_margin_std ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▂▂▁▁▁▁▆▁▇▅▂▁▁▁▇▃▁▁▇▂▁██▆▂
+wandb:             train/beta_dpo/beta_used ▁▁▁▁▂▁▁▁▁▂▁▁▁▁▁▂▃▁▁▁▁▅▁█▅▁▁▁▁▆▂▁▁▄▂▁▇▅▇▂
+wandb:         train/beta_dpo/beta_used_raw ▅▅▅▅▅▅▅▅▅▅▅▄▅▃▄▄▆▃▅▄▁▇▄█▇▄▄▃▃▆▃▅▄▅▆▄█▇█▄
+wandb:              train/beta_dpo/gap_mean ▁▁▁▁▁▂▂▂▂▃▃▃▄▄▄▄▅▅▅▅▆▆▆▆▇▆▇█▇▇▇▇███▇▇▇██
+wandb:               train/beta_dpo/gap_std ▁▁▁▁▁▂▂▂▃▃▃▄▄▅▅▅▅▅▆▅▆▇▆▇▇▇▇█▇▆▇▇▇██▇█▇██
+wandb:      train/beta_dpo/loss_margin_mean ▁▁▁▁▁▂▂▂▂▂▃▃▃▃▃▃▄▃▄▄▃▆▄▇▆▆▇▇▅▇▅▇▇▆▆▆▇▇█▇
+wandb:        train/beta_dpo/mask_keep_frac ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
+wandb:                          train/epoch ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
+wandb:                    train/global_step ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
+wandb:                      train/grad_norm ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▂▁▁▁▁▁▃▁▆▆▁▁▁▁▄▃▁▁▅▂▁█▂▃▁
+wandb:                  train/learning_rate ▂▃▅▇██████▇▇▇▇▇▆▆▆▆▅▅▅▄▄▄▄▃▃▃▂▂▂▂▂▁▁▁▁▁▁
+wandb:                  train/logits/chosen ▃▃▄▂▂▂▁▂▂▂▂▃▃▄▄▄▄▅▅▅▅▅▄▅▆▅▅▄▆▆▆▆▆▇█▆▆▆▇▆
+wandb:                train/logits/rejected ▃▃▄▂▂▁▁▂▂▂▂▃▂▄▄▄▄▅▅▄▅▅▄▄▅▅▅▄▆▆▆▆▆▇█▆▆▆▇▆
+wandb:                           train/loss ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▂▁▁▂▁▁▁▁█▄▂▁▁▁▂▂▁▁▇▂▁█▁▅▁
+wandb: 
+wandb: Run summary:
+wandb:                   eval/beta_dpo/beta 0.01115
+wandb:  eval/beta_dpo/beta_margin_grad_mean -0.47102
+wandb:   eval/beta_dpo/beta_margin_grad_std 0.0492
+wandb:       eval/beta_dpo/beta_margin_mean 1.64092
+wandb:        eval/beta_dpo/beta_margin_std 2.07299
+wandb:              eval/beta_dpo/beta_used 0.01115
+wandb:          eval/beta_dpo/beta_used_raw -3.50426
+wandb:               eval/beta_dpo/gap_mean 147.15349
+wandb:                eval/beta_dpo/gap_std 168.50018
+wandb:       eval/beta_dpo/loss_margin_mean 87.08258
+wandb:         eval/beta_dpo/mask_keep_frac 1.0
+wandb:                   eval/logits/chosen -0.2773
+wandb:                 eval/logits/rejected -0.25497
+wandb:                            eval/loss 0.7894
+wandb:                         eval/runtime 40.1139
+wandb:              eval/samples_per_second 58.309
+wandb:                eval/steps_per_second 1.845
+wandb:                           total_flos 0.0
+wandb:                  train/beta_dpo/beta 0.001
+wandb: train/beta_dpo/beta_margin_grad_mean -0.46665
+wandb:  train/beta_dpo/beta_margin_grad_std 0.04184
+wandb:      train/beta_dpo/beta_margin_mean 0.13485
+wandb:       train/beta_dpo/beta_margin_std 0.17001
+wandb:             train/beta_dpo/beta_used 0.001
+wandb:         train/beta_dpo/beta_used_raw -1.75301
+wandb:              train/beta_dpo/gap_mean 145.9384
+wandb:               train/beta_dpo/gap_std 166.83899
+wandb:      train/beta_dpo/loss_margin_mean 134.85069
+wandb:        train/beta_dpo/mask_keep_frac 0.78125
+wandb:                          train/epoch 1.0
+wandb:                    train/global_step 681
+wandb:                      train/grad_norm 11.88277
+wandb:                  train/learning_rate 0.0
+wandb:                  train/logits/chosen -0.26762
+wandb:                train/logits/rejected -0.25435
+wandb:                           train/loss 1.2798
+wandb:                           train_loss 2.62757
+wandb:                        train_runtime 3177.7378
+wandb:             train_samples_per_second 13.72
+wandb:               train_steps_per_second 0.214
+wandb: 
+wandb: 🚀 View run llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753 at: https://wandb.ai/can-not-fand-northeastern-university/ood-run-4xh200/runs/zg7hpnnu
+wandb: ⭐️ View project at: https://wandb.ai/can-not-fand-northeastern-university/ood-run-4xh200
+wandb: Synced 6 W&B file(s), 0 media file(s), 2 artifact file(s) and 0 other file(s)
+wandb: Find logs at: /scratch/feng.yulu/dynamic-dpo-v4/wandb/wandb/run-20260417_232327-zg7hpnnu/logs
+wandb: WARNING The new W&B backend becomes opt-out in version 0.18.0; try it out with `wandb.require("core")`! See https://wandb.me/wandb-core for more information.
diff --git a/train_results.json b/train_results.json
new file mode 100644
index 0000000..dc4ce82
--- /dev/null
+++ b/train_results.json
@@ -0,0 +1,9 @@
+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 2.627565469291942,
+    "train_runtime": 3177.7378,
+    "train_samples": 43598,
+    "train_samples_per_second": 13.72,
+    "train_steps_per_second": 0.214
+}
\ No newline at end of file
diff --git a/trainer_state.json b/trainer_state.json
new file mode 100644
index 0000000..b22dc9b
--- /dev/null
+++ b/trainer_state.json
@@ -0,0 +1,13789 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 681,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "beta_dpo/beta": 0.10115084052085876,
+      "beta_dpo/beta_margin_grad_mean": -0.5005621910095215,
+      "beta_dpo/beta_margin_grad_std": 0.010608955286443233,
+      "beta_dpo/beta_margin_mean": -0.002253394341096282,
+      "beta_dpo/beta_margin_std": 0.042461980134248734,
+      "beta_dpo/beta_used": 0.10115084052085876,
+      "beta_dpo/beta_used_raw": 0.10115084052085876,
+      "beta_dpo/gap_mean": -0.004527175799012184,
+      "beta_dpo/gap_std": 0.06229356676340103,
+      "beta_dpo/loss_margin_mean": -0.02287048101425171,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.0014684287812041115,
+      "grad_norm": 83.69244384765625,
+      "learning_rate": 0.0,
+      "logits/chosen": -0.4974287748336792,
+      "logits/rejected": -0.43299180269241333,
+      "loss": 1.3849,
+      "step": 1
+    },
+    {
+      "beta_dpo/beta": 0.09928660839796066,
+      "beta_dpo/beta_margin_grad_mean": -0.501632034778595,
+      "beta_dpo/beta_margin_grad_std": 0.008741416968405247,
+      "beta_dpo/beta_margin_mean": -0.006530125625431538,
+      "beta_dpo/beta_margin_std": 0.034978773444890976,
+      "beta_dpo/beta_used": 0.09928660839796066,
+      "beta_dpo/beta_used_raw": 0.09928660839796066,
+      "beta_dpo/gap_mean": -0.0141224917024374,
+      "beta_dpo/gap_std": 0.1194789782166481,
+      "beta_dpo/loss_margin_mean": -0.06572240591049194,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.002936857562408223,
+      "grad_norm": 72.02227783203125,
+      "learning_rate": 7.246376811594203e-09,
+      "logits/chosen": -0.4953641891479492,
+      "logits/rejected": -0.4594460129737854,
+      "loss": 1.389,
+      "step": 2
+    },
+    {
+      "beta_dpo/beta": 0.09881577640771866,
+      "beta_dpo/beta_margin_grad_mean": -0.49877238273620605,
+      "beta_dpo/beta_margin_grad_std": 0.008976051583886147,
+      "beta_dpo/beta_margin_mean": 0.00491556478664279,
+      "beta_dpo/beta_margin_std": 0.03592138737440109,
+      "beta_dpo/beta_used": 0.09881577640771866,
+      "beta_dpo/beta_used_raw": 0.09881577640771866,
+      "beta_dpo/gap_mean": -0.006174812093377113,
+      "beta_dpo/gap_std": 0.16936704516410828,
+      "beta_dpo/loss_margin_mean": 0.04976421594619751,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.004405286343612335,
+      "grad_norm": 67.19432067871094,
+      "learning_rate": 1.4492753623188406e-08,
+      "logits/chosen": -0.48158758878707886,
+      "logits/rejected": -0.4422696828842163,
+      "loss": 1.389,
+      "step": 3
+    },
+    {
+      "beta_dpo/beta": 0.09335151314735413,
+      "beta_dpo/beta_margin_grad_mean": -0.5010735988616943,
+      "beta_dpo/beta_margin_grad_std": 0.009380017407238483,
+      "beta_dpo/beta_margin_mean": -0.004296026658266783,
+      "beta_dpo/beta_margin_std": 0.03754071146249771,
+      "beta_dpo/beta_used": 0.09335151314735413,
+      "beta_dpo/beta_used_raw": 0.09335151314735413,
+      "beta_dpo/gap_mean": -0.00973600521683693,
+      "beta_dpo/gap_std": 0.2109805941581726,
+      "beta_dpo/loss_margin_mean": -0.04590195417404175,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.005873715124816446,
+      "grad_norm": 67.43733215332031,
+      "learning_rate": 2.1739130434782606e-08,
+      "logits/chosen": -0.45274418592453003,
+      "logits/rejected": -0.42465052008628845,
+      "loss": 1.3977,
+      "step": 4
+    },
+    {
+      "beta_dpo/beta": 0.10049673914909363,
+      "beta_dpo/beta_margin_grad_mean": -0.4986048936843872,
+      "beta_dpo/beta_margin_grad_std": 0.009488900192081928,
+      "beta_dpo/beta_margin_mean": 0.005582462064921856,
+      "beta_dpo/beta_margin_std": 0.03796974569559097,
+      "beta_dpo/beta_used": 0.10049673914909363,
+      "beta_dpo/beta_used_raw": 0.10049673914909363,
+      "beta_dpo/gap_mean": -0.0020640306174755096,
+      "beta_dpo/gap_std": 0.2421741932630539,
+      "beta_dpo/loss_margin_mean": 0.05585688352584839,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.007342143906020558,
+      "grad_norm": 87.71318817138672,
+      "learning_rate": 2.898550724637681e-08,
+      "logits/chosen": -0.4956454932689667,
+      "logits/rejected": -0.4505915641784668,
+      "loss": 1.3858,
+      "step": 5
+    },
+    {
+      "beta_dpo/beta": 0.10047884285449982,
+      "beta_dpo/beta_margin_grad_mean": -0.500208854675293,
+      "beta_dpo/beta_margin_grad_std": 0.008933261968195438,
+      "beta_dpo/beta_margin_mean": -0.0008351176511496305,
+      "beta_dpo/beta_margin_std": 0.03574404865503311,
+      "beta_dpo/beta_used": 0.10047884285449982,
+      "beta_dpo/beta_used_raw": 0.10047884285449982,
+      "beta_dpo/gap_mean": 0.0017710481770336628,
+      "beta_dpo/gap_std": 0.2680016756057739,
+      "beta_dpo/loss_margin_mean": -0.007976382970809937,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.00881057268722467,
+      "grad_norm": 90.84674072265625,
+      "learning_rate": 3.6231884057971014e-08,
+      "logits/chosen": -0.5020167827606201,
+      "logits/rejected": -0.4594297409057617,
+      "loss": 1.3854,
+      "step": 6
+    },
+    {
+      "beta_dpo/beta": 0.09998422861099243,
+      "beta_dpo/beta_margin_grad_mean": -0.5002336502075195,
+      "beta_dpo/beta_margin_grad_std": 0.01014900952577591,
+      "beta_dpo/beta_margin_mean": -0.0009349790052510798,
+      "beta_dpo/beta_margin_std": 0.04061206057667732,
+      "beta_dpo/beta_used": 0.09998422861099243,
+      "beta_dpo/beta_used_raw": 0.09998422861099243,
+      "beta_dpo/gap_mean": 6.500491872429848e-05,
+      "beta_dpo/gap_std": 0.2939686179161072,
+      "beta_dpo/loss_margin_mean": -0.009219467639923096,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.010279001468428781,
+      "grad_norm": 83.6563491821289,
+      "learning_rate": 4.347826086956521e-08,
+      "logits/chosen": -0.5061265826225281,
+      "logits/rejected": -0.4723086953163147,
+      "loss": 1.3865,
+      "step": 7
+    },
+    {
+      "beta_dpo/beta": 0.1022939383983612,
+      "beta_dpo/beta_margin_grad_mean": -0.5015852451324463,
+      "beta_dpo/beta_margin_grad_std": 0.010492443107068539,
+      "beta_dpo/beta_margin_mean": -0.006352751050144434,
+      "beta_dpo/beta_margin_std": 0.042014747858047485,
+      "beta_dpo/beta_used": 0.1022939383983612,
+      "beta_dpo/beta_used_raw": 0.1022939383983612,
+      "beta_dpo/gap_mean": -0.009944056160748005,
+      "beta_dpo/gap_std": 0.3154027462005615,
+      "beta_dpo/loss_margin_mean": -0.061917901039123535,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.011747430249632892,
+      "grad_norm": 77.50525665283203,
+      "learning_rate": 5.0724637681159424e-08,
+      "logits/chosen": -0.5334175825119019,
+      "logits/rejected": -0.510188102722168,
+      "loss": 1.3836,
+      "step": 8
+    },
+    {
+      "beta_dpo/beta": 0.09855471551418304,
+      "beta_dpo/beta_margin_grad_mean": -0.49951478838920593,
+      "beta_dpo/beta_margin_grad_std": 0.011848426423966885,
+      "beta_dpo/beta_margin_mean": 0.00194238789845258,
+      "beta_dpo/beta_margin_std": 0.04742159694433212,
+      "beta_dpo/beta_used": 0.09855471551418304,
+      "beta_dpo/beta_used_raw": 0.09855471551418304,
+      "beta_dpo/gap_mean": -0.005505750421434641,
+      "beta_dpo/gap_std": 0.34114253520965576,
+      "beta_dpo/loss_margin_mean": 0.02003002166748047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.013215859030837005,
+      "grad_norm": 77.50155639648438,
+      "learning_rate": 5.797101449275362e-08,
+      "logits/chosen": -0.523200511932373,
+      "logits/rejected": -0.478301465511322,
+      "loss": 1.3895,
+      "step": 9
+    },
+    {
+      "beta_dpo/beta": 0.0998501181602478,
+      "beta_dpo/beta_margin_grad_mean": -0.5005317330360413,
+      "beta_dpo/beta_margin_grad_std": 0.010131197981536388,
+      "beta_dpo/beta_margin_mean": -0.002129613421857357,
+      "beta_dpo/beta_margin_std": 0.04054965451359749,
+      "beta_dpo/beta_used": 0.0998501181602478,
+      "beta_dpo/beta_used_raw": 0.0998501181602478,
+      "beta_dpo/gap_mean": -0.010290170088410378,
+      "beta_dpo/gap_std": 0.3536257743835449,
+      "beta_dpo/loss_margin_mean": -0.021320700645446777,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.014684287812041116,
+      "grad_norm": 72.39192962646484,
+      "learning_rate": 6.521739130434782e-08,
+      "logits/chosen": -0.518991231918335,
+      "logits/rejected": -0.4768357276916504,
+      "loss": 1.3878,
+      "step": 10
+    },
+    {
+      "beta_dpo/beta": 0.10206712037324905,
+      "beta_dpo/beta_margin_grad_mean": -0.49908754229545593,
+      "beta_dpo/beta_margin_grad_std": 0.008663208223879337,
+      "beta_dpo/beta_margin_mean": 0.003652524435892701,
+      "beta_dpo/beta_margin_std": 0.03466520085930824,
+      "beta_dpo/beta_used": 0.10206712037324905,
+      "beta_dpo/beta_used_raw": 0.10206712037324905,
+      "beta_dpo/gap_mean": -0.004253363702446222,
+      "beta_dpo/gap_std": 0.35756930708885193,
+      "beta_dpo/loss_margin_mean": 0.03583630919456482,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.016152716593245228,
+      "grad_norm": 66.96553802490234,
+      "learning_rate": 7.246376811594203e-08,
+      "logits/chosen": -0.4826526641845703,
+      "logits/rejected": -0.4586416780948639,
+      "loss": 1.3833,
+      "step": 11
+    },
+    {
+      "beta_dpo/beta": 0.09693565964698792,
+      "beta_dpo/beta_margin_grad_mean": -0.500446617603302,
+      "beta_dpo/beta_margin_grad_std": 0.01050448976457119,
+      "beta_dpo/beta_margin_mean": -0.0017924468265846372,
+      "beta_dpo/beta_margin_std": 0.042050570249557495,
+      "beta_dpo/beta_used": 0.09693565964698792,
+      "beta_dpo/beta_used_raw": 0.09693565964698792,
+      "beta_dpo/gap_mean": -0.00683976337313652,
+      "beta_dpo/gap_std": 0.3720043897628784,
+      "beta_dpo/loss_margin_mean": -0.017470553517341614,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.01762114537444934,
+      "grad_norm": 83.22624206542969,
+      "learning_rate": 7.971014492753623e-08,
+      "logits/chosen": -0.547247052192688,
+      "logits/rejected": -0.5113379955291748,
+      "loss": 1.392,
+      "step": 12
+    },
+    {
+      "beta_dpo/beta": 0.09837324917316437,
+      "beta_dpo/beta_margin_grad_mean": -0.4999392330646515,
+      "beta_dpo/beta_margin_grad_std": 0.00992752518504858,
+      "beta_dpo/beta_margin_mean": 0.00025006092619150877,
+      "beta_dpo/beta_margin_std": 0.03974674642086029,
+      "beta_dpo/beta_used": 0.09837324917316437,
+      "beta_dpo/beta_used_raw": 0.09837324917316437,
+      "beta_dpo/gap_mean": -0.006056391168385744,
+      "beta_dpo/gap_std": 0.3698127865791321,
+      "beta_dpo/loss_margin_mean": 0.002656310796737671,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.01908957415565345,
+      "grad_norm": 82.04718017578125,
+      "learning_rate": 8.695652173913042e-08,
+      "logits/chosen": -0.4824892282485962,
+      "logits/rejected": -0.45439815521240234,
+      "loss": 1.3897,
+      "step": 13
+    },
+    {
+      "beta_dpo/beta": 0.09926562756299973,
+      "beta_dpo/beta_margin_grad_mean": -0.5004010200500488,
+      "beta_dpo/beta_margin_grad_std": 0.009033882059156895,
+      "beta_dpo/beta_margin_mean": -0.001605634461157024,
+      "beta_dpo/beta_margin_std": 0.03615177050232887,
+      "beta_dpo/beta_used": 0.09926562756299973,
+      "beta_dpo/beta_used_raw": 0.09926562756299973,
+      "beta_dpo/gap_mean": -0.0021513975225389004,
+      "beta_dpo/gap_std": 0.37402260303497314,
+      "beta_dpo/loss_margin_mean": -0.01792725920677185,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.020558002936857563,
+      "grad_norm": 89.19822692871094,
+      "learning_rate": 9.420289855072464e-08,
+      "logits/chosen": -0.47684037685394287,
+      "logits/rejected": -0.437483549118042,
+      "loss": 1.3877,
+      "step": 14
+    },
+    {
+      "beta_dpo/beta": 0.1028667539358139,
+      "beta_dpo/beta_margin_grad_mean": -0.49847865104675293,
+      "beta_dpo/beta_margin_grad_std": 0.009109060280025005,
+      "beta_dpo/beta_margin_mean": 0.006086469162255526,
+      "beta_dpo/beta_margin_std": 0.03645266592502594,
+      "beta_dpo/beta_used": 0.1028667539358139,
+      "beta_dpo/beta_used_raw": 0.1028667539358139,
+      "beta_dpo/gap_mean": 0.0069586304016411304,
+      "beta_dpo/gap_std": 0.3670150637626648,
+      "beta_dpo/loss_margin_mean": 0.05616268515586853,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.022026431718061675,
+      "grad_norm": 72.2989501953125,
+      "learning_rate": 1.0144927536231885e-07,
+      "logits/chosen": -0.4976166784763336,
+      "logits/rejected": -0.47907328605651855,
+      "loss": 1.3806,
+      "step": 15
+    },
+    {
+      "beta_dpo/beta": 0.10129574686288834,
+      "beta_dpo/beta_margin_grad_mean": -0.4988415837287903,
+      "beta_dpo/beta_margin_grad_std": 0.009300184436142445,
+      "beta_dpo/beta_margin_mean": 0.004635946359485388,
+      "beta_dpo/beta_margin_std": 0.03721487522125244,
+      "beta_dpo/beta_used": 0.10129574686288834,
+      "beta_dpo/beta_used_raw": 0.10129574686288834,
+      "beta_dpo/gap_mean": 0.01056666485965252,
+      "beta_dpo/gap_std": 0.369087815284729,
+      "beta_dpo/loss_margin_mean": 0.04578801989555359,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.023494860499265784,
+      "grad_norm": 85.27164459228516,
+      "learning_rate": 1.0869565217391303e-07,
+      "logits/chosen": -0.5442918539047241,
+      "logits/rejected": -0.5051777362823486,
+      "loss": 1.3833,
+      "step": 16
+    },
+    {
+      "beta_dpo/beta": 0.10490189492702484,
+      "beta_dpo/beta_margin_grad_mean": -0.4973750412464142,
+      "beta_dpo/beta_margin_grad_std": 0.009830176830291748,
+      "beta_dpo/beta_margin_mean": 0.010502819903194904,
+      "beta_dpo/beta_margin_std": 0.039345428347587585,
+      "beta_dpo/beta_used": 0.10490189492702484,
+      "beta_dpo/beta_used_raw": 0.10490189492702484,
+      "beta_dpo/gap_mean": 0.023403100669384003,
+      "beta_dpo/gap_std": 0.37113308906555176,
+      "beta_dpo/loss_margin_mean": 0.10013490915298462,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.024963289280469897,
+      "grad_norm": 80.40909576416016,
+      "learning_rate": 1.1594202898550725e-07,
+      "logits/chosen": -0.4828060269355774,
+      "logits/rejected": -0.44346535205841064,
+      "loss": 1.3755,
+      "step": 17
+    },
+    {
+      "beta_dpo/beta": 0.1001388430595398,
+      "beta_dpo/beta_margin_grad_mean": -0.4992016553878784,
+      "beta_dpo/beta_margin_grad_std": 0.008092939853668213,
+      "beta_dpo/beta_margin_mean": 0.00319434585981071,
+      "beta_dpo/beta_margin_std": 0.03238019719719887,
+      "beta_dpo/beta_used": 0.1001388430595398,
+      "beta_dpo/beta_used_raw": 0.1001388430595398,
+      "beta_dpo/gap_mean": 0.029124243184924126,
+      "beta_dpo/gap_std": 0.3635770082473755,
+      "beta_dpo/loss_margin_mean": 0.03153112530708313,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.02643171806167401,
+      "grad_norm": 82.2762680053711,
+      "learning_rate": 1.2318840579710146e-07,
+      "logits/chosen": -0.5221867561340332,
+      "logits/rejected": -0.4699585437774658,
+      "loss": 1.3833,
+      "step": 18
+    },
+    {
+      "beta_dpo/beta": 0.10230091959238052,
+      "beta_dpo/beta_margin_grad_mean": -0.4976135194301605,
+      "beta_dpo/beta_margin_grad_std": 0.009962659329175949,
+      "beta_dpo/beta_margin_mean": 0.009549921378493309,
+      "beta_dpo/beta_margin_std": 0.03987620025873184,
+      "beta_dpo/beta_used": 0.10230091959238052,
+      "beta_dpo/beta_used_raw": 0.10230091959238052,
+      "beta_dpo/gap_mean": 0.03644995018839836,
+      "beta_dpo/gap_std": 0.36511197686195374,
+      "beta_dpo/loss_margin_mean": 0.09297522902488708,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.027900146842878122,
+      "grad_norm": 67.32933807373047,
+      "learning_rate": 1.3043478260869563e-07,
+      "logits/chosen": -0.49089670181274414,
+      "logits/rejected": -0.4410245716571808,
+      "loss": 1.3788,
+      "step": 19
+    },
+    {
+      "beta_dpo/beta": 0.10144417732954025,
+      "beta_dpo/beta_margin_grad_mean": -0.49894100427627563,
+      "beta_dpo/beta_margin_grad_std": 0.007821588777005672,
+      "beta_dpo/beta_margin_mean": 0.0042366455309093,
+      "beta_dpo/beta_margin_std": 0.031295765191316605,
+      "beta_dpo/beta_used": 0.10144417732954025,
+      "beta_dpo/beta_used_raw": 0.10144417732954025,
+      "beta_dpo/gap_mean": 0.04330967366695404,
+      "beta_dpo/gap_std": 0.36020204424858093,
+      "beta_dpo/loss_margin_mean": 0.0418030321598053,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.02936857562408223,
+      "grad_norm": 77.79698944091797,
+      "learning_rate": 1.3768115942028986e-07,
+      "logits/chosen": -0.5257374048233032,
+      "logits/rejected": -0.4667814075946808,
+      "loss": 1.3796,
+      "step": 20
+    },
+    {
+      "beta_dpo/beta": 0.10282687842845917,
+      "beta_dpo/beta_margin_grad_mean": -0.49695706367492676,
+      "beta_dpo/beta_margin_grad_std": 0.010617760010063648,
+      "beta_dpo/beta_margin_mean": 0.012177429161965847,
+      "beta_dpo/beta_margin_std": 0.04252319782972336,
+      "beta_dpo/beta_used": 0.10282687842845917,
+      "beta_dpo/beta_used_raw": 0.10282687842845917,
+      "beta_dpo/gap_mean": 0.052578218281269073,
+      "beta_dpo/gap_std": 0.3585847020149231,
+      "beta_dpo/loss_margin_mean": 0.1178915798664093,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.030837004405286344,
+      "grad_norm": 84.59689331054688,
+      "learning_rate": 1.4492753623188405e-07,
+      "logits/chosen": -0.5015609860420227,
+      "logits/rejected": -0.4782274663448334,
+      "loss": 1.3762,
+      "step": 21
+    },
+    {
+      "beta_dpo/beta": 0.1021641194820404,
+      "beta_dpo/beta_margin_grad_mean": -0.494739294052124,
+      "beta_dpo/beta_margin_grad_std": 0.011074875481426716,
+      "beta_dpo/beta_margin_mean": 0.021053766831755638,
+      "beta_dpo/beta_margin_std": 0.04432320222258568,
+      "beta_dpo/beta_used": 0.1021641194820404,
+      "beta_dpo/beta_used_raw": 0.1021641194820404,
+      "beta_dpo/gap_mean": 0.07795767486095428,
+      "beta_dpo/gap_std": 0.37775668501853943,
+      "beta_dpo/loss_margin_mean": 0.2064528465270996,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.032305433186490456,
+      "grad_norm": 82.02935028076172,
+      "learning_rate": 1.5217391304347825e-07,
+      "logits/chosen": -0.5076688528060913,
+      "logits/rejected": -0.46508467197418213,
+      "loss": 1.375,
+      "step": 22
+    },
+    {
+      "beta_dpo/beta": 0.10281073302030563,
+      "beta_dpo/beta_margin_grad_mean": -0.4947512447834015,
+      "beta_dpo/beta_margin_grad_std": 0.009751598350703716,
+      "beta_dpo/beta_margin_mean": 0.02100636623799801,
+      "beta_dpo/beta_margin_std": 0.03903375566005707,
+      "beta_dpo/beta_used": 0.10281073302030563,
+      "beta_dpo/beta_used_raw": 0.10281073302030563,
+      "beta_dpo/gap_mean": 0.10390491783618927,
+      "beta_dpo/gap_std": 0.3772027790546417,
+      "beta_dpo/loss_margin_mean": 0.2033129334449768,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.033773861967694566,
+      "grad_norm": 76.44645690917969,
+      "learning_rate": 1.5942028985507245e-07,
+      "logits/chosen": -0.5184653997421265,
+      "logits/rejected": -0.4976601004600525,
+      "loss": 1.3708,
+      "step": 23
+    },
+    {
+      "beta_dpo/beta": 0.10454396903514862,
+      "beta_dpo/beta_margin_grad_mean": -0.4934062063694,
+      "beta_dpo/beta_margin_grad_std": 0.010538320057094097,
+      "beta_dpo/beta_margin_mean": 0.026394186541438103,
+      "beta_dpo/beta_margin_std": 0.04219713807106018,
+      "beta_dpo/beta_used": 0.10454396903514862,
+      "beta_dpo/beta_used_raw": 0.10454396903514862,
+      "beta_dpo/gap_mean": 0.12391284108161926,
+      "beta_dpo/gap_std": 0.37767690420150757,
+      "beta_dpo/loss_margin_mean": 0.2502744197845459,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.03524229074889868,
+      "grad_norm": 94.25565338134766,
+      "learning_rate": 1.6666666666666665e-07,
+      "logits/chosen": -0.5424538254737854,
+      "logits/rejected": -0.5254075527191162,
+      "loss": 1.3656,
+      "step": 24
+    },
+    {
+      "beta_dpo/beta": 0.100839763879776,
+      "beta_dpo/beta_margin_grad_mean": -0.4942309856414795,
+      "beta_dpo/beta_margin_grad_std": 0.009877659380435944,
+      "beta_dpo/beta_margin_mean": 0.02309180237352848,
+      "beta_dpo/beta_margin_std": 0.03954963758587837,
+      "beta_dpo/beta_used": 0.100839763879776,
+      "beta_dpo/beta_used_raw": 0.100839763879776,
+      "beta_dpo/gap_mean": 0.14912059903144836,
+      "beta_dpo/gap_std": 0.3832852840423584,
+      "beta_dpo/loss_margin_mean": 0.22906917333602905,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.03671071953010279,
+      "grad_norm": 75.07634735107422,
+      "learning_rate": 1.7391304347826085e-07,
+      "logits/chosen": -0.4918757677078247,
+      "logits/rejected": -0.46183332800865173,
+      "loss": 1.37,
+      "step": 25
+    },
+    {
+      "beta_dpo/beta": 0.10145638883113861,
+      "beta_dpo/beta_margin_grad_mean": -0.4906671941280365,
+      "beta_dpo/beta_margin_grad_std": 0.012507390230894089,
+      "beta_dpo/beta_margin_mean": 0.037368275225162506,
+      "beta_dpo/beta_margin_std": 0.050109487026929855,
+      "beta_dpo/beta_used": 0.10145638883113861,
+      "beta_dpo/beta_used_raw": 0.10145638883113861,
+      "beta_dpo/gap_mean": 0.1847640573978424,
+      "beta_dpo/gap_std": 0.4011450409889221,
+      "beta_dpo/loss_margin_mean": 0.3683029115200043,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.0381791483113069,
+      "grad_norm": 78.68896484375,
+      "learning_rate": 1.8115942028985507e-07,
+      "logits/chosen": -0.5504664182662964,
+      "logits/rejected": -0.5192441344261169,
+      "loss": 1.3654,
+      "step": 26
+    },
+    {
+      "beta_dpo/beta": 0.10302956402301788,
+      "beta_dpo/beta_margin_grad_mean": -0.4876747727394104,
+      "beta_dpo/beta_margin_grad_std": 0.01424187608063221,
+      "beta_dpo/beta_margin_mean": 0.049370817840099335,
+      "beta_dpo/beta_margin_std": 0.057142678648233414,
+      "beta_dpo/beta_used": 0.10302956402301788,
+      "beta_dpo/beta_used_raw": 0.10302956402301788,
+      "beta_dpo/gap_mean": 0.23974978923797607,
+      "beta_dpo/gap_std": 0.42792779207229614,
+      "beta_dpo/loss_margin_mean": 0.47268885374069214,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.039647577092511016,
+      "grad_norm": 87.7347183227539,
+      "learning_rate": 1.8840579710144927e-07,
+      "logits/chosen": -0.5187373161315918,
+      "logits/rejected": -0.4824272394180298,
+      "loss": 1.3563,
+      "step": 27
+    },
+    {
+      "beta_dpo/beta": 0.102115698158741,
+      "beta_dpo/beta_margin_grad_mean": -0.49245062470436096,
+      "beta_dpo/beta_margin_grad_std": 0.014135321602225304,
+      "beta_dpo/beta_margin_mean": 0.03022361919283867,
+      "beta_dpo/beta_margin_std": 0.056595128029584885,
+      "beta_dpo/beta_used": 0.102115698158741,
+      "beta_dpo/beta_used_raw": 0.102115698158741,
+      "beta_dpo/gap_mean": 0.2491932511329651,
+      "beta_dpo/gap_std": 0.4498485326766968,
+      "beta_dpo/loss_margin_mean": 0.295854777097702,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.041116005873715125,
+      "grad_norm": 75.64714050292969,
+      "learning_rate": 1.9565217391304347e-07,
+      "logits/chosen": -0.5084043741226196,
+      "logits/rejected": -0.4534956216812134,
+      "loss": 1.3579,
+      "step": 28
+    },
+    {
+      "beta_dpo/beta": 0.10585251450538635,
+      "beta_dpo/beta_margin_grad_mean": -0.4868943691253662,
+      "beta_dpo/beta_margin_grad_std": 0.015499315224587917,
+      "beta_dpo/beta_margin_mean": 0.05249761790037155,
+      "beta_dpo/beta_margin_std": 0.062127504497766495,
+      "beta_dpo/beta_used": 0.10585251450538635,
+      "beta_dpo/beta_used_raw": 0.10585251450538635,
+      "beta_dpo/gap_mean": 0.29277026653289795,
+      "beta_dpo/gap_std": 0.47807806730270386,
+      "beta_dpo/loss_margin_mean": 0.4953559637069702,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.042584434654919234,
+      "grad_norm": 94.25686645507812,
+      "learning_rate": 2.028985507246377e-07,
+      "logits/chosen": -0.5720121264457703,
+      "logits/rejected": -0.5272256731987,
+      "loss": 1.346,
+      "step": 29
+    },
+    {
+      "beta_dpo/beta": 0.10716623067855835,
+      "beta_dpo/beta_margin_grad_mean": -0.48364534974098206,
+      "beta_dpo/beta_margin_grad_std": 0.016273001208901405,
+      "beta_dpo/beta_margin_mean": 0.06553145498037338,
+      "beta_dpo/beta_margin_std": 0.06532347202301025,
+      "beta_dpo/beta_used": 0.10716623067855835,
+      "beta_dpo/beta_used_raw": 0.10716623067855835,
+      "beta_dpo/gap_mean": 0.3511636555194855,
+      "beta_dpo/gap_std": 0.5038948059082031,
+      "beta_dpo/loss_margin_mean": 0.6101883053779602,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.04405286343612335,
+      "grad_norm": 91.32884979248047,
+      "learning_rate": 2.1014492753623187e-07,
+      "logits/chosen": -0.4944499731063843,
+      "logits/rejected": -0.4637511968612671,
+      "loss": 1.3372,
+      "step": 30
+    },
+    {
+      "beta_dpo/beta": 0.09747521579265594,
+      "beta_dpo/beta_margin_grad_mean": -0.48976314067840576,
+      "beta_dpo/beta_margin_grad_std": 0.014673292636871338,
+      "beta_dpo/beta_margin_mean": 0.041009921580553055,
+      "beta_dpo/beta_margin_std": 0.05886054411530495,
+      "beta_dpo/beta_used": 0.09747521579265594,
+      "beta_dpo/beta_used_raw": 0.09747521579265594,
+      "beta_dpo/gap_mean": 0.36561119556427,
+      "beta_dpo/gap_std": 0.5108226537704468,
+      "beta_dpo/loss_margin_mean": 0.4201761782169342,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.04552129221732746,
+      "grad_norm": 68.29032135009766,
+      "learning_rate": 2.1739130434782607e-07,
+      "logits/chosen": -0.5044275522232056,
+      "logits/rejected": -0.4597151279449463,
+      "loss": 1.3554,
+      "step": 31
+    },
+    {
+      "beta_dpo/beta": 0.10314959287643433,
+      "beta_dpo/beta_margin_grad_mean": -0.4819798171520233,
+      "beta_dpo/beta_margin_grad_std": 0.020708369091153145,
+      "beta_dpo/beta_margin_mean": 0.07229103147983551,
+      "beta_dpo/beta_margin_std": 0.08329294621944427,
+      "beta_dpo/beta_used": 0.10314959287643433,
+      "beta_dpo/beta_used_raw": 0.10314959287643433,
+      "beta_dpo/gap_mean": 0.4219781458377838,
+      "beta_dpo/gap_std": 0.56684410572052,
+      "beta_dpo/loss_margin_mean": 0.7036821842193604,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.04698972099853157,
+      "grad_norm": 78.29996490478516,
+      "learning_rate": 2.2463768115942027e-07,
+      "logits/chosen": -0.5184359550476074,
+      "logits/rejected": -0.4776637554168701,
+      "loss": 1.338,
+      "step": 32
+    },
+    {
+      "beta_dpo/beta": 0.10217119753360748,
+      "beta_dpo/beta_margin_grad_mean": -0.48680615425109863,
+      "beta_dpo/beta_margin_grad_std": 0.016086775809526443,
+      "beta_dpo/beta_margin_mean": 0.05285169929265976,
+      "beta_dpo/beta_margin_std": 0.0644962415099144,
+      "beta_dpo/beta_used": 0.10217119753360748,
+      "beta_dpo/beta_used_raw": 0.10217119753360748,
+      "beta_dpo/gap_mean": 0.4387624263763428,
+      "beta_dpo/gap_std": 0.5823417901992798,
+      "beta_dpo/loss_margin_mean": 0.5102719664573669,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.048458149779735685,
+      "grad_norm": 75.79508209228516,
+      "learning_rate": 2.318840579710145e-07,
+      "logits/chosen": -0.47731277346611023,
+      "logits/rejected": -0.4508548974990845,
+      "loss": 1.3384,
+      "step": 33
+    },
+    {
+      "beta_dpo/beta": 0.09928236901760101,
+      "beta_dpo/beta_margin_grad_mean": -0.4819219708442688,
+      "beta_dpo/beta_margin_grad_std": 0.01917845755815506,
+      "beta_dpo/beta_margin_mean": 0.07247772812843323,
+      "beta_dpo/beta_margin_std": 0.07699740678071976,
+      "beta_dpo/beta_used": 0.09928236901760101,
+      "beta_dpo/beta_used_raw": 0.09928236901760101,
+      "beta_dpo/gap_mean": 0.48840245604515076,
+      "beta_dpo/gap_std": 0.6152428388595581,
+      "beta_dpo/loss_margin_mean": 0.7295181751251221,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.049926578560939794,
+      "grad_norm": 66.3543930053711,
+      "learning_rate": 2.391304347826087e-07,
+      "logits/chosen": -0.5100936889648438,
+      "logits/rejected": -0.4925019145011902,
+      "loss": 1.3401,
+      "step": 34
+    },
+    {
+      "beta_dpo/beta": 0.10785353183746338,
+      "beta_dpo/beta_margin_grad_mean": -0.47311800718307495,
+      "beta_dpo/beta_margin_grad_std": 0.02489115111529827,
+      "beta_dpo/beta_margin_mean": 0.10804824531078339,
+      "beta_dpo/beta_margin_std": 0.10100562125444412,
+      "beta_dpo/beta_used": 0.10785353183746338,
+      "beta_dpo/beta_used_raw": 0.10785353183746338,
+      "beta_dpo/gap_mean": 0.5772824883460999,
+      "beta_dpo/gap_std": 0.6622889637947083,
+      "beta_dpo/loss_margin_mean": 0.9983453750610352,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.0513950073421439,
+      "grad_norm": 77.56873321533203,
+      "learning_rate": 2.463768115942029e-07,
+      "logits/chosen": -0.5331075191497803,
+      "logits/rejected": -0.49618980288505554,
+      "loss": 1.3114,
+      "step": 35
+    },
+    {
+      "beta_dpo/beta": 0.10545908659696579,
+      "beta_dpo/beta_margin_grad_mean": -0.4742385447025299,
+      "beta_dpo/beta_margin_grad_std": 0.030729172751307487,
+      "beta_dpo/beta_margin_mean": 0.10363934934139252,
+      "beta_dpo/beta_margin_std": 0.12403807044029236,
+      "beta_dpo/beta_used": 0.10545908659696579,
+      "beta_dpo/beta_used_raw": 0.10545908659696579,
+      "beta_dpo/gap_mean": 0.6375015377998352,
+      "beta_dpo/gap_std": 0.7486386299133301,
+      "beta_dpo/loss_margin_mean": 0.9657546281814575,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.05286343612334802,
+      "grad_norm": 73.26063537597656,
+      "learning_rate": 2.536231884057971e-07,
+      "logits/chosen": -0.5830014944076538,
+      "logits/rejected": -0.5479526519775391,
+      "loss": 1.3121,
+      "step": 36
+    },
+    {
+      "beta_dpo/beta": 0.0942203551530838,
+      "beta_dpo/beta_margin_grad_mean": -0.47738873958587646,
+      "beta_dpo/beta_margin_grad_std": 0.03081784024834633,
+      "beta_dpo/beta_margin_mean": 0.09107129275798798,
+      "beta_dpo/beta_margin_std": 0.1248544380068779,
+      "beta_dpo/beta_used": 0.0942203551530838,
+      "beta_dpo/beta_used_raw": 0.0942203551530838,
+      "beta_dpo/gap_mean": 0.7214508056640625,
+      "beta_dpo/gap_std": 0.8505280017852783,
+      "beta_dpo/loss_margin_mean": 0.9462437629699707,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.05433186490455213,
+      "grad_norm": 50.44397735595703,
+      "learning_rate": 2.6086956521739126e-07,
+      "logits/chosen": -0.5012315511703491,
+      "logits/rejected": -0.45690277218818665,
+      "loss": 1.3286,
+      "step": 37
+    },
+    {
+      "beta_dpo/beta": 0.1041734591126442,
+      "beta_dpo/beta_margin_grad_mean": -0.4682784676551819,
+      "beta_dpo/beta_margin_grad_std": 0.03961404040455818,
+      "beta_dpo/beta_margin_mean": 0.12841160595417023,
+      "beta_dpo/beta_margin_std": 0.16240736842155457,
+      "beta_dpo/beta_used": 0.1041734591126442,
+      "beta_dpo/beta_used_raw": 0.1041734591126442,
+      "beta_dpo/gap_mean": 0.7879455089569092,
+      "beta_dpo/gap_std": 0.9812790155410767,
+      "beta_dpo/loss_margin_mean": 1.224595069885254,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.055800293685756244,
+      "grad_norm": 67.5627212524414,
+      "learning_rate": 2.681159420289855e-07,
+      "logits/chosen": -0.5276659727096558,
+      "logits/rejected": -0.4949561655521393,
+      "loss": 1.2998,
+      "step": 38
+    },
+    {
+      "beta_dpo/beta": 0.10857867449522018,
+      "beta_dpo/beta_margin_grad_mean": -0.46116903424263,
+      "beta_dpo/beta_margin_grad_std": 0.03715595230460167,
+      "beta_dpo/beta_margin_mean": 0.15660372376441956,
+      "beta_dpo/beta_margin_std": 0.15102945268154144,
+      "beta_dpo/beta_used": 0.10857867449522018,
+      "beta_dpo/beta_used_raw": 0.10857867449522018,
+      "beta_dpo/gap_mean": 0.9118002653121948,
+      "beta_dpo/gap_std": 1.0534446239471436,
+      "beta_dpo/loss_margin_mean": 1.4260352849960327,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.05726872246696035,
+      "grad_norm": 74.21395874023438,
+      "learning_rate": 2.753623188405797e-07,
+      "logits/chosen": -0.5588313341140747,
+      "logits/rejected": -0.5193623304367065,
+      "loss": 1.275,
+      "step": 39
+    },
+    {
+      "beta_dpo/beta": 0.0998622328042984,
+      "beta_dpo/beta_margin_grad_mean": -0.4660206437110901,
+      "beta_dpo/beta_margin_grad_std": 0.03987602889537811,
+      "beta_dpo/beta_margin_mean": 0.13751423358917236,
+      "beta_dpo/beta_margin_std": 0.16336165368556976,
+      "beta_dpo/beta_used": 0.0998622328042984,
+      "beta_dpo/beta_used_raw": 0.0998622328042984,
+      "beta_dpo/gap_mean": 0.9838204383850098,
+      "beta_dpo/gap_std": 1.121214509010315,
+      "beta_dpo/loss_margin_mean": 1.3697092533111572,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.05873715124816446,
+      "grad_norm": 55.91511154174805,
+      "learning_rate": 2.8260869565217386e-07,
+      "logits/chosen": -0.4998742341995239,
+      "logits/rejected": -0.46878963708877563,
+      "loss": 1.2931,
+      "step": 40
+    },
+    {
+      "beta_dpo/beta": 0.09814733266830444,
+      "beta_dpo/beta_margin_grad_mean": -0.4590160846710205,
+      "beta_dpo/beta_margin_grad_std": 0.04150310531258583,
+      "beta_dpo/beta_margin_mean": 0.1658371239900589,
+      "beta_dpo/beta_margin_std": 0.16969500482082367,
+      "beta_dpo/beta_used": 0.09814733266830444,
+      "beta_dpo/beta_used_raw": 0.09814733266830444,
+      "beta_dpo/gap_mean": 1.111755609512329,
+      "beta_dpo/gap_std": 1.2354657649993896,
+      "beta_dpo/loss_margin_mean": 1.6996898651123047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.06020558002936858,
+      "grad_norm": 59.53895950317383,
+      "learning_rate": 2.898550724637681e-07,
+      "logits/chosen": -0.5415744781494141,
+      "logits/rejected": -0.5051206350326538,
+      "loss": 1.2849,
+      "step": 41
+    },
+    {
+      "beta_dpo/beta": 0.11233452707529068,
+      "beta_dpo/beta_margin_grad_mean": -0.43761613965034485,
+      "beta_dpo/beta_margin_grad_std": 0.055440664291381836,
+      "beta_dpo/beta_margin_mean": 0.25520431995391846,
+      "beta_dpo/beta_margin_std": 0.23295927047729492,
+      "beta_dpo/beta_used": 0.11233452707529068,
+      "beta_dpo/beta_used_raw": 0.11233452707529068,
+      "beta_dpo/gap_mean": 1.3095552921295166,
+      "beta_dpo/gap_std": 1.4133354425430298,
+      "beta_dpo/loss_margin_mean": 2.2716450691223145,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.06167400881057269,
+      "grad_norm": 74.77738189697266,
+      "learning_rate": 2.971014492753623e-07,
+      "logits/chosen": -0.5276546478271484,
+      "logits/rejected": -0.4807955324649811,
+      "loss": 1.2274,
+      "step": 42
+    },
+    {
+      "beta_dpo/beta": 0.11648497730493546,
+      "beta_dpo/beta_margin_grad_mean": -0.4362444281578064,
+      "beta_dpo/beta_margin_grad_std": 0.05007302016019821,
+      "beta_dpo/beta_margin_mean": 0.2601800560951233,
+      "beta_dpo/beta_margin_std": 0.2120179980993271,
+      "beta_dpo/beta_used": 0.11648497730493546,
+      "beta_dpo/beta_used_raw": 0.11648497730493546,
+      "beta_dpo/gap_mean": 1.495275855064392,
+      "beta_dpo/gap_std": 1.494248390197754,
+      "beta_dpo/loss_margin_mean": 2.2226815223693848,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.0631424375917768,
+      "grad_norm": 79.2459487915039,
+      "learning_rate": 3.043478260869565e-07,
+      "logits/chosen": -0.5580309629440308,
+      "logits/rejected": -0.5340878963470459,
+      "loss": 1.1947,
+      "step": 43
+    },
+    {
+      "beta_dpo/beta": 0.11155369877815247,
+      "beta_dpo/beta_margin_grad_mean": -0.4344336986541748,
+      "beta_dpo/beta_margin_grad_std": 0.05017215758562088,
+      "beta_dpo/beta_margin_mean": 0.2672099471092224,
+      "beta_dpo/beta_margin_std": 0.20892754197120667,
+      "beta_dpo/beta_used": 0.11155369877815247,
+      "beta_dpo/beta_used_raw": 0.11155369877815247,
+      "beta_dpo/gap_mean": 1.653472900390625,
+      "beta_dpo/gap_std": 1.5553144216537476,
+      "beta_dpo/loss_margin_mean": 2.398895740509033,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.06461086637298091,
+      "grad_norm": 80.41355895996094,
+      "learning_rate": 3.115942028985507e-07,
+      "logits/chosen": -0.47205644845962524,
+      "logits/rejected": -0.45171642303466797,
+      "loss": 1.1951,
+      "step": 44
+    },
+    {
+      "beta_dpo/beta": 0.07954459637403488,
+      "beta_dpo/beta_margin_grad_mean": -0.4617185890674591,
+      "beta_dpo/beta_margin_grad_std": 0.043333351612091064,
+      "beta_dpo/beta_margin_mean": 0.15512201189994812,
+      "beta_dpo/beta_margin_std": 0.17768782377243042,
+      "beta_dpo/beta_used": 0.07954459637403488,
+      "beta_dpo/beta_used_raw": 0.07954459637403488,
+      "beta_dpo/gap_mean": 1.7186641693115234,
+      "beta_dpo/gap_std": 1.6547086238861084,
+      "beta_dpo/loss_margin_mean": 1.9536571502685547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.06607929515418502,
+      "grad_norm": 47.4119987487793,
+      "learning_rate": 3.188405797101449e-07,
+      "logits/chosen": -0.45731085538864136,
+      "logits/rejected": -0.4441610276699066,
+      "loss": 1.2831,
+      "step": 45
+    },
+    {
+      "beta_dpo/beta": 0.08992807567119598,
+      "beta_dpo/beta_margin_grad_mean": -0.44419437646865845,
+      "beta_dpo/beta_margin_grad_std": 0.060576457530260086,
+      "beta_dpo/beta_margin_mean": 0.22959379851818085,
+      "beta_dpo/beta_margin_std": 0.2589755356311798,
+      "beta_dpo/beta_used": 0.08992807567119598,
+      "beta_dpo/beta_used_raw": 0.08992807567119598,
+      "beta_dpo/gap_mean": 1.8407939672470093,
+      "beta_dpo/gap_std": 1.877316951751709,
+      "beta_dpo/loss_margin_mean": 2.509418249130249,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.06754772393538913,
+      "grad_norm": 66.04317474365234,
+      "learning_rate": 3.260869565217391e-07,
+      "logits/chosen": -0.517339289188385,
+      "logits/rejected": -0.46569010615348816,
+      "loss": 1.244,
+      "step": 46
+    },
+    {
+      "beta_dpo/beta": 0.10393651574850082,
+      "beta_dpo/beta_margin_grad_mean": -0.43122005462646484,
+      "beta_dpo/beta_margin_grad_std": 0.062102172523736954,
+      "beta_dpo/beta_margin_mean": 0.28237393498420715,
+      "beta_dpo/beta_margin_std": 0.2598910629749298,
+      "beta_dpo/beta_used": 0.10393651574850082,
+      "beta_dpo/beta_used_raw": 0.10393651574850082,
+      "beta_dpo/gap_mean": 1.97328519821167,
+      "beta_dpo/gap_std": 1.9843567609786987,
+      "beta_dpo/loss_margin_mean": 2.603851795196533,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.06901615271659324,
+      "grad_norm": 67.16490173339844,
+      "learning_rate": 3.333333333333333e-07,
+      "logits/chosen": -0.5952492952346802,
+      "logits/rejected": -0.5439423322677612,
+      "loss": 1.1832,
+      "step": 47
+    },
+    {
+      "beta_dpo/beta": 0.09790638089179993,
+      "beta_dpo/beta_margin_grad_mean": -0.43831878900527954,
+      "beta_dpo/beta_margin_grad_std": 0.06469718366861343,
+      "beta_dpo/beta_margin_mean": 0.2532716393470764,
+      "beta_dpo/beta_margin_std": 0.272605299949646,
+      "beta_dpo/beta_used": 0.09790638089179993,
+      "beta_dpo/beta_used_raw": 0.09790638089179993,
+      "beta_dpo/gap_mean": 2.1250531673431396,
+      "beta_dpo/gap_std": 2.0948853492736816,
+      "beta_dpo/loss_margin_mean": 2.544447422027588,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.07048458149779736,
+      "grad_norm": 78.59500122070312,
+      "learning_rate": 3.4057971014492755e-07,
+      "logits/chosen": -0.5685693025588989,
+      "logits/rejected": -0.5092687606811523,
+      "loss": 1.1987,
+      "step": 48
+    },
+    {
+      "beta_dpo/beta": 0.11987863481044769,
+      "beta_dpo/beta_margin_grad_mean": -0.41220971941947937,
+      "beta_dpo/beta_margin_grad_std": 0.08246695250272751,
+      "beta_dpo/beta_margin_mean": 0.3685282766819,
+      "beta_dpo/beta_margin_std": 0.3620261251926422,
+      "beta_dpo/beta_used": 0.11987863481044769,
+      "beta_dpo/beta_used_raw": 0.11987863481044769,
+      "beta_dpo/gap_mean": 2.2471675872802734,
+      "beta_dpo/gap_std": 2.2004098892211914,
+      "beta_dpo/loss_margin_mean": 3.125662088394165,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.07195301027900147,
+      "grad_norm": 240.3484344482422,
+      "learning_rate": 3.478260869565217e-07,
+      "logits/chosen": -0.5591256618499756,
+      "logits/rejected": -0.5024401545524597,
+      "loss": 1.1095,
+      "step": 49
+    },
+    {
+      "beta_dpo/beta": 0.10016916692256927,
+      "beta_dpo/beta_margin_grad_mean": -0.4190990924835205,
+      "beta_dpo/beta_margin_grad_std": 0.07547645270824432,
+      "beta_dpo/beta_margin_mean": 0.3364598751068115,
+      "beta_dpo/beta_margin_std": 0.32345935702323914,
+      "beta_dpo/beta_used": 0.10016916692256927,
+      "beta_dpo/beta_used_raw": 0.10016916692256927,
+      "beta_dpo/gap_mean": 2.4781899452209473,
+      "beta_dpo/gap_std": 2.4213905334472656,
+      "beta_dpo/loss_margin_mean": 3.3676936626434326,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.07342143906020558,
+      "grad_norm": 64.82975769042969,
+      "learning_rate": 3.5507246376811595e-07,
+      "logits/chosen": -0.5334613919258118,
+      "logits/rejected": -0.497406542301178,
+      "loss": 1.1672,
+      "step": 50
+    },
+    {
+      "beta_dpo/beta": 0.0657687559723854,
+      "beta_dpo/beta_margin_grad_mean": -0.44602659344673157,
+      "beta_dpo/beta_margin_grad_std": 0.06567390263080597,
+      "beta_dpo/beta_margin_mean": 0.22254019975662231,
+      "beta_dpo/beta_margin_std": 0.2765715718269348,
+      "beta_dpo/beta_used": 0.0657687559723854,
+      "beta_dpo/beta_used_raw": 0.0657687559723854,
+      "beta_dpo/gap_mean": 2.662703275680542,
+      "beta_dpo/gap_std": 2.715353012084961,
+      "beta_dpo/loss_margin_mean": 3.3309483528137207,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.07488986784140969,
+      "grad_norm": 36.31479263305664,
+      "learning_rate": 3.6231884057971015e-07,
+      "logits/chosen": -0.5016952753067017,
+      "logits/rejected": -0.4681543707847595,
+      "loss": 1.2592,
+      "step": 51
+    },
+    {
+      "beta_dpo/beta": 0.13919858634471893,
+      "beta_dpo/beta_margin_grad_mean": -0.34051814675331116,
+      "beta_dpo/beta_margin_grad_std": 0.11514287441968918,
+      "beta_dpo/beta_margin_mean": 0.7171680927276611,
+      "beta_dpo/beta_margin_std": 0.5753344297409058,
+      "beta_dpo/beta_used": 0.13919858634471893,
+      "beta_dpo/beta_used_raw": 0.13919858634471893,
+      "beta_dpo/gap_mean": 3.020768404006958,
+      "beta_dpo/gap_std": 2.9662249088287354,
+      "beta_dpo/loss_margin_mean": 5.1557536125183105,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.0763582966226138,
+      "grad_norm": 85.15430450439453,
+      "learning_rate": 3.695652173913043e-07,
+      "logits/chosen": -0.5425816774368286,
+      "logits/rejected": -0.4867020845413208,
+      "loss": 0.9776,
+      "step": 52
+    },
+    {
+      "beta_dpo/beta": 0.10637001693248749,
+      "beta_dpo/beta_margin_grad_mean": -0.3794803321361542,
+      "beta_dpo/beta_margin_grad_std": 0.10878144204616547,
+      "beta_dpo/beta_margin_mean": 0.5370194315910339,
+      "beta_dpo/beta_margin_std": 0.5486578345298767,
+      "beta_dpo/beta_used": 0.10637001693248749,
+      "beta_dpo/beta_used_raw": 0.10637001693248749,
+      "beta_dpo/gap_mean": 3.373033046722412,
+      "beta_dpo/gap_std": 3.254366874694824,
+      "beta_dpo/loss_margin_mean": 5.15134334564209,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.07782672540381791,
+      "grad_norm": 66.78472137451172,
+      "learning_rate": 3.7681159420289855e-07,
+      "logits/chosen": -0.5930138826370239,
+      "logits/rejected": -0.5710781812667847,
+      "loss": 1.0761,
+      "step": 53
+    },
+    {
+      "beta_dpo/beta": 0.09235785901546478,
+      "beta_dpo/beta_margin_grad_mean": -0.4021127223968506,
+      "beta_dpo/beta_margin_grad_std": 0.09637561440467834,
+      "beta_dpo/beta_margin_mean": 0.42590391635894775,
+      "beta_dpo/beta_margin_std": 0.46513980627059937,
+      "beta_dpo/beta_used": 0.09235785901546478,
+      "beta_dpo/beta_used_raw": 0.09235785901546478,
+      "beta_dpo/gap_mean": 3.6533608436584473,
+      "beta_dpo/gap_std": 3.5544323921203613,
+      "beta_dpo/loss_margin_mean": 4.466633319854736,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.07929515418502203,
+      "grad_norm": 54.912174224853516,
+      "learning_rate": 3.8405797101449274e-07,
+      "logits/chosen": -0.5769028663635254,
+      "logits/rejected": -0.5225714445114136,
+      "loss": 1.0957,
+      "step": 54
+    },
+    {
+      "beta_dpo/beta": 0.12684877216815948,
+      "beta_dpo/beta_margin_grad_mean": -0.3536130487918854,
+      "beta_dpo/beta_margin_grad_std": 0.14455373585224152,
+      "beta_dpo/beta_margin_mean": 0.690856397151947,
+      "beta_dpo/beta_margin_std": 0.7624755501747131,
+      "beta_dpo/beta_used": 0.12684877216815948,
+      "beta_dpo/beta_used_raw": 0.12684877216815948,
+      "beta_dpo/gap_mean": 3.942603826522827,
+      "beta_dpo/gap_std": 3.9598231315612793,
+      "beta_dpo/loss_margin_mean": 5.50035285949707,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.08076358296622614,
+      "grad_norm": 70.0872573852539,
+      "learning_rate": 3.9130434782608694e-07,
+      "logits/chosen": -0.6278643608093262,
+      "logits/rejected": -0.5644968748092651,
+      "loss": 0.9505,
+      "step": 55
+    },
+    {
+      "beta_dpo/beta": 0.08802211284637451,
+      "beta_dpo/beta_margin_grad_mean": -0.39712223410606384,
+      "beta_dpo/beta_margin_grad_std": 0.1159137487411499,
+      "beta_dpo/beta_margin_mean": 0.45057377219200134,
+      "beta_dpo/beta_margin_std": 0.5337446928024292,
+      "beta_dpo/beta_used": 0.08802211284637451,
+      "beta_dpo/beta_used_raw": 0.08802211284637451,
+      "beta_dpo/gap_mean": 4.207155227661133,
+      "beta_dpo/gap_std": 4.369948387145996,
+      "beta_dpo/loss_margin_mean": 5.1305742263793945,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.08223201174743025,
+      "grad_norm": 50.04378128051758,
+      "learning_rate": 3.9855072463768114e-07,
+      "logits/chosen": -0.6108717918395996,
+      "logits/rejected": -0.5681912899017334,
+      "loss": 1.0989,
+      "step": 56
+    },
+    {
+      "beta_dpo/beta": 0.151127427816391,
+      "beta_dpo/beta_margin_grad_mean": -0.31904980540275574,
+      "beta_dpo/beta_margin_grad_std": 0.14913946390151978,
+      "beta_dpo/beta_margin_mean": 0.8648303747177124,
+      "beta_dpo/beta_margin_std": 0.7930364012718201,
+      "beta_dpo/beta_used": 0.151127427816391,
+      "beta_dpo/beta_used_raw": 0.151127427816391,
+      "beta_dpo/gap_mean": 4.442320823669434,
+      "beta_dpo/gap_std": 4.536768436431885,
+      "beta_dpo/loss_margin_mean": 5.748650074005127,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.08370044052863436,
+      "grad_norm": 76.4854736328125,
+      "learning_rate": 4.057971014492754e-07,
+      "logits/chosen": -0.5923542976379395,
+      "logits/rejected": -0.5654958486557007,
+      "loss": 0.8215,
+      "step": 57
+    },
+    {
+      "beta_dpo/beta": 0.09416334331035614,
+      "beta_dpo/beta_margin_grad_mean": -0.3633388876914978,
+      "beta_dpo/beta_margin_grad_std": 0.13083474338054657,
+      "beta_dpo/beta_margin_mean": 0.6299749612808228,
+      "beta_dpo/beta_margin_std": 0.6659680008888245,
+      "beta_dpo/beta_used": 0.09416334331035614,
+      "beta_dpo/beta_used_raw": 0.09416334331035614,
+      "beta_dpo/gap_mean": 4.803388595581055,
+      "beta_dpo/gap_std": 4.8988494873046875,
+      "beta_dpo/loss_margin_mean": 6.5755534172058105,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.08516886930983847,
+      "grad_norm": 63.09685134887695,
+      "learning_rate": 4.1304347826086954e-07,
+      "logits/chosen": -0.595874547958374,
+      "logits/rejected": -0.5206152200698853,
+      "loss": 1.0303,
+      "step": 58
+    },
+    {
+      "beta_dpo/beta": 0.10466543585062027,
+      "beta_dpo/beta_margin_grad_mean": -0.34448105096817017,
+      "beta_dpo/beta_margin_grad_std": 0.15328913927078247,
+      "beta_dpo/beta_margin_mean": 0.829659640789032,
+      "beta_dpo/beta_margin_std": 1.0400630235671997,
+      "beta_dpo/beta_used": 0.10466543585062027,
+      "beta_dpo/beta_used_raw": 0.10466543585062027,
+      "beta_dpo/gap_mean": 5.30738639831543,
+      "beta_dpo/gap_std": 5.2926130294799805,
+      "beta_dpo/loss_margin_mean": 6.950667381286621,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.08663729809104258,
+      "grad_norm": 60.62688064575195,
+      "learning_rate": 4.2028985507246374e-07,
+      "logits/chosen": -0.5974893569946289,
+      "logits/rejected": -0.5545705556869507,
+      "loss": 0.9537,
+      "step": 59
+    },
+    {
+      "beta_dpo/beta": 0.11850239336490631,
+      "beta_dpo/beta_margin_grad_mean": -0.3506718575954437,
+      "beta_dpo/beta_margin_grad_std": 0.15503977239131927,
+      "beta_dpo/beta_margin_mean": 0.7030664086341858,
+      "beta_dpo/beta_margin_std": 0.7772324085235596,
+      "beta_dpo/beta_used": 0.11850239336490631,
+      "beta_dpo/beta_used_raw": 0.11850239336490631,
+      "beta_dpo/gap_mean": 5.407642364501953,
+      "beta_dpo/gap_std": 5.513436317443848,
+      "beta_dpo/loss_margin_mean": 5.766895294189453,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.0881057268722467,
+      "grad_norm": 69.3149185180664,
+      "learning_rate": 4.2753623188405794e-07,
+      "logits/chosen": -0.5805940628051758,
+      "logits/rejected": -0.5189210772514343,
+      "loss": 0.8759,
+      "step": 60
+    },
+    {
+      "beta_dpo/beta": 0.08738794177770615,
+      "beta_dpo/beta_margin_grad_mean": -0.37938931584358215,
+      "beta_dpo/beta_margin_grad_std": 0.15377961099147797,
+      "beta_dpo/beta_margin_mean": 0.6398810744285583,
+      "beta_dpo/beta_margin_std": 1.0747108459472656,
+      "beta_dpo/beta_used": 0.08738794177770615,
+      "beta_dpo/beta_used_raw": 0.08738794177770615,
+      "beta_dpo/gap_mean": 5.656585693359375,
+      "beta_dpo/gap_std": 6.2068586349487305,
+      "beta_dpo/loss_margin_mean": 6.976743221282959,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.08957415565345081,
+      "grad_norm": 49.676326751708984,
+      "learning_rate": 4.3478260869565214e-07,
+      "logits/chosen": -0.5972954034805298,
+      "logits/rejected": -0.5621410608291626,
+      "loss": 1.0428,
+      "step": 61
+    },
+    {
+      "beta_dpo/beta": 0.07970167696475983,
+      "beta_dpo/beta_margin_grad_mean": -0.4036404490470886,
+      "beta_dpo/beta_margin_grad_std": 0.1279177963733673,
+      "beta_dpo/beta_margin_mean": 0.45351850986480713,
+      "beta_dpo/beta_margin_std": 0.6815299987792969,
+      "beta_dpo/beta_used": 0.07970167696475983,
+      "beta_dpo/beta_used_raw": 0.07970167696475983,
+      "beta_dpo/gap_mean": 5.591924667358398,
+      "beta_dpo/gap_std": 6.288469314575195,
+      "beta_dpo/loss_margin_mean": 5.3183794021606445,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.09104258443465492,
+      "grad_norm": 49.01858901977539,
+      "learning_rate": 4.420289855072464e-07,
+      "logits/chosen": -0.5811234712600708,
+      "logits/rejected": -0.5460039973258972,
+      "loss": 1.0477,
+      "step": 62
+    },
+    {
+      "beta_dpo/beta": 0.10061165690422058,
+      "beta_dpo/beta_margin_grad_mean": -0.3452926576137543,
+      "beta_dpo/beta_margin_grad_std": 0.16270661354064941,
+      "beta_dpo/beta_margin_mean": 0.8012576103210449,
+      "beta_dpo/beta_margin_std": 0.977336049079895,
+      "beta_dpo/beta_used": 0.10061165690422058,
+      "beta_dpo/beta_used_raw": 0.10061165690422058,
+      "beta_dpo/gap_mean": 5.912351608276367,
+      "beta_dpo/gap_std": 6.507175445556641,
+      "beta_dpo/loss_margin_mean": 7.235960006713867,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.09251101321585903,
+      "grad_norm": 54.96387481689453,
+      "learning_rate": 4.4927536231884053e-07,
+      "logits/chosen": -0.5760135650634766,
+      "logits/rejected": -0.5288089513778687,
+      "loss": 0.934,
+      "step": 63
+    },
+    {
+      "beta_dpo/beta": 0.11127346754074097,
+      "beta_dpo/beta_margin_grad_mean": -0.32286009192466736,
+      "beta_dpo/beta_margin_grad_std": 0.17790742218494415,
+      "beta_dpo/beta_margin_mean": 1.0696979761123657,
+      "beta_dpo/beta_margin_std": 1.435511589050293,
+      "beta_dpo/beta_used": 0.11127346754074097,
+      "beta_dpo/beta_used_raw": 0.11127346754074097,
+      "beta_dpo/gap_mean": 6.382755279541016,
+      "beta_dpo/gap_std": 7.030701637268066,
+      "beta_dpo/loss_margin_mean": 8.447539329528809,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.09397944199706314,
+      "grad_norm": 54.98874282836914,
+      "learning_rate": 4.5652173913043473e-07,
+      "logits/chosen": -0.5682976245880127,
+      "logits/rejected": -0.5359951257705688,
+      "loss": 0.892,
+      "step": 64
+    },
+    {
+      "beta_dpo/beta": 0.15355268120765686,
+      "beta_dpo/beta_margin_grad_mean": -0.28559890389442444,
+      "beta_dpo/beta_margin_grad_std": 0.21047906577587128,
+      "beta_dpo/beta_margin_mean": 1.3807626962661743,
+      "beta_dpo/beta_margin_std": 1.8169898986816406,
+      "beta_dpo/beta_used": 0.15355268120765686,
+      "beta_dpo/beta_used_raw": 0.15355268120765686,
+      "beta_dpo/gap_mean": 6.738654136657715,
+      "beta_dpo/gap_std": 7.486597061157227,
+      "beta_dpo/loss_margin_mean": 8.504437446594238,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.09544787077826726,
+      "grad_norm": 84.47888946533203,
+      "learning_rate": 4.63768115942029e-07,
+      "logits/chosen": -0.6392999887466431,
+      "logits/rejected": -0.6247435808181763,
+      "loss": 0.7454,
+      "step": 65
+    },
+    {
+      "beta_dpo/beta": 0.038759633898735046,
+      "beta_dpo/beta_margin_grad_mean": -0.42082634568214417,
+      "beta_dpo/beta_margin_grad_std": 0.11057644337415695,
+      "beta_dpo/beta_margin_mean": 0.3621111810207367,
+      "beta_dpo/beta_margin_std": 0.5689931511878967,
+      "beta_dpo/beta_used": 0.038759633898735046,
+      "beta_dpo/beta_used_raw": 0.038759633898735046,
+      "beta_dpo/gap_mean": 7.011206150054932,
+      "beta_dpo/gap_std": 7.803816795349121,
+      "beta_dpo/loss_margin_mean": 7.870203971862793,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.09691629955947137,
+      "grad_norm": 30.142791748046875,
+      "learning_rate": 4.7101449275362313e-07,
+      "logits/chosen": -0.6175287365913391,
+      "logits/rejected": -0.5830913186073303,
+      "loss": 1.1833,
+      "step": 66
+    },
+    {
+      "beta_dpo/beta": 0.06989531219005585,
+      "beta_dpo/beta_margin_grad_mean": -0.38001659512519836,
+      "beta_dpo/beta_margin_grad_std": 0.14094047248363495,
+      "beta_dpo/beta_margin_mean": 0.59562087059021,
+      "beta_dpo/beta_margin_std": 0.8447734117507935,
+      "beta_dpo/beta_used": 0.06989531219005585,
+      "beta_dpo/beta_used_raw": 0.06989531219005585,
+      "beta_dpo/gap_mean": 7.094534873962402,
+      "beta_dpo/gap_std": 8.07803726196289,
+      "beta_dpo/loss_margin_mean": 8.12269401550293,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.09838472834067548,
+      "grad_norm": 44.186004638671875,
+      "learning_rate": 4.782608695652174e-07,
+      "logits/chosen": -0.6101835370063782,
+      "logits/rejected": -0.5699295997619629,
+      "loss": 1.0324,
+      "step": 67
+    },
+    {
+      "beta_dpo/beta": 0.09041684120893478,
+      "beta_dpo/beta_margin_grad_mean": -0.3650799095630646,
+      "beta_dpo/beta_margin_grad_std": 0.1839817315340042,
+      "beta_dpo/beta_margin_mean": 0.7865732908248901,
+      "beta_dpo/beta_margin_std": 1.181038498878479,
+      "beta_dpo/beta_used": 0.09041684120893478,
+      "beta_dpo/beta_used_raw": 0.06118408590555191,
+      "beta_dpo/gap_mean": 7.258274078369141,
+      "beta_dpo/gap_std": 8.184741973876953,
+      "beta_dpo/loss_margin_mean": 7.898317813873291,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.09985315712187959,
+      "grad_norm": 40.886878967285156,
+      "learning_rate": 4.855072463768116e-07,
+      "logits/chosen": -0.6218951940536499,
+      "logits/rejected": -0.5630506873130798,
+      "loss": 0.953,
+      "step": 68
+    },
+    {
+      "beta_dpo/beta": 0.12943625450134277,
+      "beta_dpo/beta_margin_grad_mean": -0.28914546966552734,
+      "beta_dpo/beta_margin_grad_std": 0.1749580055475235,
+      "beta_dpo/beta_margin_mean": 1.2787585258483887,
+      "beta_dpo/beta_margin_std": 1.491976022720337,
+      "beta_dpo/beta_used": 0.12943625450134277,
+      "beta_dpo/beta_used_raw": 0.12943625450134277,
+      "beta_dpo/gap_mean": 7.689189434051514,
+      "beta_dpo/gap_std": 8.327251434326172,
+      "beta_dpo/loss_margin_mean": 9.463652610778809,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1013215859030837,
+      "grad_norm": 72.10195922851562,
+      "learning_rate": 4.927536231884058e-07,
+      "logits/chosen": -0.5902745723724365,
+      "logits/rejected": -0.5661255717277527,
+      "loss": 0.7568,
+      "step": 69
+    },
+    {
+      "beta_dpo/beta": 0.0740790069103241,
+      "beta_dpo/beta_margin_grad_mean": -0.369037926197052,
+      "beta_dpo/beta_margin_grad_std": 0.1858556717634201,
+      "beta_dpo/beta_margin_mean": 0.8269989490509033,
+      "beta_dpo/beta_margin_std": 1.3370610475540161,
+      "beta_dpo/beta_used": 0.0740790069103241,
+      "beta_dpo/beta_used_raw": 0.06600124388933182,
+      "beta_dpo/gap_mean": 8.018512725830078,
+      "beta_dpo/gap_std": 8.71467399597168,
+      "beta_dpo/loss_margin_mean": 10.070143699645996,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1027900146842878,
+      "grad_norm": 58.23539352416992,
+      "learning_rate": 5e-07,
+      "logits/chosen": -0.6226065158843994,
+      "logits/rejected": -0.5874596834182739,
+      "loss": 1.0241,
+      "step": 70
+    },
+    {
+      "beta_dpo/beta": 0.10465647280216217,
+      "beta_dpo/beta_margin_grad_mean": -0.29003310203552246,
+      "beta_dpo/beta_margin_grad_std": 0.17214025557041168,
+      "beta_dpo/beta_margin_mean": 1.1773220300674438,
+      "beta_dpo/beta_margin_std": 1.2341235876083374,
+      "beta_dpo/beta_used": 0.10465647280216217,
+      "beta_dpo/beta_used_raw": 0.10465647280216217,
+      "beta_dpo/gap_mean": 8.682525634765625,
+      "beta_dpo/gap_std": 9.29095458984375,
+      "beta_dpo/loss_margin_mean": 11.49172306060791,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.10425844346549193,
+      "grad_norm": 47.67396545410156,
+      "learning_rate": 4.999967061337492e-07,
+      "logits/chosen": -0.6586190462112427,
+      "logits/rejected": -0.6172687411308289,
+      "loss": 0.8167,
+      "step": 71
+    },
+    {
+      "beta_dpo/beta": 0.1546517014503479,
+      "beta_dpo/beta_margin_grad_mean": -0.24096769094467163,
+      "beta_dpo/beta_margin_grad_std": 0.22502072155475616,
+      "beta_dpo/beta_margin_mean": 1.905733585357666,
+      "beta_dpo/beta_margin_std": 2.095893383026123,
+      "beta_dpo/beta_used": 0.1546517014503479,
+      "beta_dpo/beta_used_raw": 0.1546517014503479,
+      "beta_dpo/gap_mean": 9.315265655517578,
+      "beta_dpo/gap_std": 9.664226531982422,
+      "beta_dpo/loss_margin_mean": 12.12594985961914,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.10572687224669604,
+      "grad_norm": 75.66039276123047,
+      "learning_rate": 4.999868246217933e-07,
+      "logits/chosen": -0.6442696452140808,
+      "logits/rejected": -0.6082816123962402,
+      "loss": 0.5912,
+      "step": 72
+    },
+    {
+      "beta_dpo/beta": 0.09382159262895584,
+      "beta_dpo/beta_margin_grad_mean": -0.3226276934146881,
+      "beta_dpo/beta_margin_grad_std": 0.23689226806163788,
+      "beta_dpo/beta_margin_mean": 1.1267133951187134,
+      "beta_dpo/beta_margin_std": 1.6691551208496094,
+      "beta_dpo/beta_used": 0.09382159262895584,
+      "beta_dpo/beta_used_raw": 0.09382159262895584,
+      "beta_dpo/gap_mean": 9.892107009887695,
+      "beta_dpo/gap_std": 10.947005271911621,
+      "beta_dpo/loss_margin_mean": 12.176095008850098,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.10719530102790015,
+      "grad_norm": 63.61186981201172,
+      "learning_rate": 4.999703557245192e-07,
+      "logits/chosen": -0.6697020530700684,
+      "logits/rejected": -0.6270005702972412,
+      "loss": 0.877,
+      "step": 73
+    },
+    {
+      "beta_dpo/beta": 0.0458955280482769,
+      "beta_dpo/beta_margin_grad_mean": -0.38849544525146484,
+      "beta_dpo/beta_margin_grad_std": 0.181712806224823,
+      "beta_dpo/beta_margin_mean": 0.6362202763557434,
+      "beta_dpo/beta_margin_std": 1.2357457876205444,
+      "beta_dpo/beta_used": 0.0458955280482769,
+      "beta_dpo/beta_used_raw": 0.04306982085108757,
+      "beta_dpo/gap_mean": 10.440993309020996,
+      "beta_dpo/gap_std": 12.396344184875488,
+      "beta_dpo/loss_margin_mean": 13.167186737060547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.10866372980910426,
+      "grad_norm": 36.97188949584961,
+      "learning_rate": 4.999472998758977e-07,
+      "logits/chosen": -0.605143129825592,
+      "logits/rejected": -0.5923604965209961,
+      "loss": 1.0827,
+      "step": 74
+    },
+    {
+      "beta_dpo/beta": 0.1566300094127655,
+      "beta_dpo/beta_margin_grad_mean": -0.19501835107803345,
+      "beta_dpo/beta_margin_grad_std": 0.2327680140733719,
+      "beta_dpo/beta_margin_mean": 3.023698568344116,
+      "beta_dpo/beta_margin_std": 3.2827866077423096,
+      "beta_dpo/beta_used": 0.1566300094127655,
+      "beta_dpo/beta_used_raw": 0.1566300094127655,
+      "beta_dpo/gap_mean": 11.546646118164062,
+      "beta_dpo/gap_std": 13.614230155944824,
+      "beta_dpo/loss_margin_mean": 18.43977165222168,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.11013215859030837,
+      "grad_norm": 92.53497314453125,
+      "learning_rate": 4.999176576834721e-07,
+      "logits/chosen": -0.6607112288475037,
+      "logits/rejected": -0.6499860286712646,
+      "loss": 0.6467,
+      "step": 75
+    },
+    {
+      "beta_dpo/beta": 0.05693836510181427,
+      "beta_dpo/beta_margin_grad_mean": -0.3819631040096283,
+      "beta_dpo/beta_margin_grad_std": 0.20355312526226044,
+      "beta_dpo/beta_margin_mean": 0.6884029507637024,
+      "beta_dpo/beta_margin_std": 1.4083665609359741,
+      "beta_dpo/beta_used": 0.05693836510181427,
+      "beta_dpo/beta_used_raw": 0.004215408116579056,
+      "beta_dpo/gap_mean": 12.032630920410156,
+      "beta_dpo/gap_std": 13.884933471679688,
+      "beta_dpo/loss_margin_mean": 11.839239120483398,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.11160058737151249,
+      "grad_norm": 44.36159133911133,
+      "learning_rate": 4.998814299283415e-07,
+      "logits/chosen": -0.6945298910140991,
+      "logits/rejected": -0.6507744789123535,
+      "loss": 1.0088,
+      "step": 76
+    },
+    {
+      "beta_dpo/beta": 0.3072592616081238,
+      "beta_dpo/beta_margin_grad_mean": -0.16621431708335876,
+      "beta_dpo/beta_margin_grad_std": 0.2623097002506256,
+      "beta_dpo/beta_margin_mean": 6.070537090301514,
+      "beta_dpo/beta_margin_std": 7.8197712898254395,
+      "beta_dpo/beta_used": 0.3072592616081238,
+      "beta_dpo/beta_used_raw": 0.3072592616081238,
+      "beta_dpo/gap_mean": 13.085380554199219,
+      "beta_dpo/gap_std": 14.796323776245117,
+      "beta_dpo/loss_margin_mean": 18.652969360351562,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1130690161527166,
+      "grad_norm": 122.56193542480469,
+      "learning_rate": 4.998386175651409e-07,
+      "logits/chosen": -0.6592667102813721,
+      "logits/rejected": -0.6153388023376465,
+      "loss": 0.3922,
+      "step": 77
+    },
+    {
+      "beta_dpo/beta": 0.14949087798595428,
+      "beta_dpo/beta_margin_grad_mean": -0.3154319226741791,
+      "beta_dpo/beta_margin_grad_std": 0.24938298761844635,
+      "beta_dpo/beta_margin_mean": 2.418715238571167,
+      "beta_dpo/beta_margin_std": 3.7272212505340576,
+      "beta_dpo/beta_used": 0.14949087798595428,
+      "beta_dpo/beta_used_raw": 0.12561628222465515,
+      "beta_dpo/gap_mean": 13.365839958190918,
+      "beta_dpo/gap_std": 15.315971374511719,
+      "beta_dpo/loss_margin_mean": 14.452160835266113,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1145374449339207,
+      "grad_norm": 55.331443786621094,
+      "learning_rate": 4.997892217220159e-07,
+      "logits/chosen": -0.6192628145217896,
+      "logits/rejected": -0.5899114608764648,
+      "loss": 0.7759,
+      "step": 78
+    },
+    {
+      "beta_dpo/beta": 0.11019716411828995,
+      "beta_dpo/beta_margin_grad_mean": -0.3492397964000702,
+      "beta_dpo/beta_margin_grad_std": 0.24441301822662354,
+      "beta_dpo/beta_margin_mean": 1.7321070432662964,
+      "beta_dpo/beta_margin_std": 3.166022777557373,
+      "beta_dpo/beta_used": 0.11019716411828995,
+      "beta_dpo/beta_used_raw": -0.001482747495174408,
+      "beta_dpo/gap_mean": 13.848381042480469,
+      "beta_dpo/gap_std": 16.022428512573242,
+      "beta_dpo/loss_margin_mean": 15.7933349609375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.11600587371512482,
+      "grad_norm": 69.28112030029297,
+      "learning_rate": 4.997332437005931e-07,
+      "logits/chosen": -0.6417551636695862,
+      "logits/rejected": -0.608524739742279,
+      "loss": 0.8819,
+      "step": 79
+    },
+    {
+      "beta_dpo/beta": 0.001718068728223443,
+      "beta_dpo/beta_margin_grad_mean": -0.49326348304748535,
+      "beta_dpo/beta_margin_grad_std": 0.011248563416302204,
+      "beta_dpo/beta_margin_mean": 0.02697627618908882,
+      "beta_dpo/beta_margin_std": 0.04508247226476669,
+      "beta_dpo/beta_used": 0.001718068728223443,
+      "beta_dpo/beta_used_raw": -0.12951478362083435,
+      "beta_dpo/gap_mean": 14.141023635864258,
+      "beta_dpo/gap_std": 16.736181259155273,
+      "beta_dpo/loss_margin_mean": 14.089604377746582,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.11747430249632893,
+      "grad_norm": 2.357767343521118,
+      "learning_rate": 4.996706849759452e-07,
+      "logits/chosen": -0.7271322011947632,
+      "logits/rejected": -0.6814069747924805,
+      "loss": 1.3671,
+      "step": 80
+    },
+    {
+      "beta_dpo/beta": 0.1173420324921608,
+      "beta_dpo/beta_margin_grad_mean": -0.3296668529510498,
+      "beta_dpo/beta_margin_grad_std": 0.2772652506828308,
+      "beta_dpo/beta_margin_mean": 2.6220462322235107,
+      "beta_dpo/beta_margin_std": 4.677156925201416,
+      "beta_dpo/beta_used": 0.1173420324921608,
+      "beta_dpo/beta_used_raw": 0.08890701830387115,
+      "beta_dpo/gap_mean": 14.902729034423828,
+      "beta_dpo/gap_std": 17.593263626098633,
+      "beta_dpo/loss_margin_mean": 19.815006256103516,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.11894273127753303,
+      "grad_norm": 137.00436401367188,
+      "learning_rate": 4.996015471965529e-07,
+      "logits/chosen": -0.7320711016654968,
+      "logits/rejected": -0.699401319026947,
+      "loss": 1.0778,
+      "step": 81
+    },
+    {
+      "beta_dpo/beta": 0.04351024702191353,
+      "beta_dpo/beta_margin_grad_mean": -0.40177345275878906,
+      "beta_dpo/beta_margin_grad_std": 0.19916068017482758,
+      "beta_dpo/beta_margin_mean": 0.48920586705207825,
+      "beta_dpo/beta_margin_std": 1.2577557563781738,
+      "beta_dpo/beta_used": 0.04351024702191353,
+      "beta_dpo/beta_used_raw": 0.04351024702191353,
+      "beta_dpo/gap_mean": 14.832651138305664,
+      "beta_dpo/gap_std": 18.701509475708008,
+      "beta_dpo/loss_margin_mean": 15.354249954223633,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.12041116005873716,
+      "grad_norm": 50.82543182373047,
+      "learning_rate": 4.995258321842611e-07,
+      "logits/chosen": -0.649533748626709,
+      "logits/rejected": -0.6332418918609619,
+      "loss": 1.0506,
+      "step": 82
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4955040216445923,
+      "beta_dpo/beta_margin_grad_std": 0.0052512530237436295,
+      "beta_dpo/beta_margin_mean": 0.017986806109547615,
+      "beta_dpo/beta_margin_std": 0.021009791642427444,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.06825613230466843,
+      "beta_dpo/gap_mean": 15.605181694030762,
+      "beta_dpo/gap_std": 19.392963409423828,
+      "beta_dpo/loss_margin_mean": 17.986804962158203,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.12187958883994127,
+      "grad_norm": 1.6841143369674683,
+      "learning_rate": 4.994435419342304e-07,
+      "logits/chosen": -0.6862367391586304,
+      "logits/rejected": -0.643555760383606,
+      "loss": 1.3736,
+      "step": 83
+    },
+    {
+      "beta_dpo/beta": 0.14811725914478302,
+      "beta_dpo/beta_margin_grad_mean": -0.2708915174007416,
+      "beta_dpo/beta_margin_grad_std": 0.20906409621238708,
+      "beta_dpo/beta_margin_mean": 2.8868696689605713,
+      "beta_dpo/beta_margin_std": 4.1358442306518555,
+      "beta_dpo/beta_used": 0.14811725914478302,
+      "beta_dpo/beta_used_raw": 0.14811725914478302,
+      "beta_dpo/gap_mean": 15.893194198608398,
+      "beta_dpo/gap_std": 18.990737915039062,
+      "beta_dpo/loss_margin_mean": 15.966986656188965,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.12334801762114538,
+      "grad_norm": 86.9267349243164,
+      "learning_rate": 4.993546786148857e-07,
+      "logits/chosen": -0.6301603317260742,
+      "logits/rejected": -0.5886775851249695,
+      "loss": 0.7014,
+      "step": 84
+    },
+    {
+      "beta_dpo/beta": 0.05548453703522682,
+      "beta_dpo/beta_margin_grad_mean": -0.3620225489139557,
+      "beta_dpo/beta_margin_grad_std": 0.21889419853687286,
+      "beta_dpo/beta_margin_mean": 1.1414363384246826,
+      "beta_dpo/beta_margin_std": 1.9398654699325562,
+      "beta_dpo/beta_used": 0.05548453703522682,
+      "beta_dpo/beta_used_raw": -0.06038748845458031,
+      "beta_dpo/gap_mean": 15.512821197509766,
+      "beta_dpo/gap_std": 18.84861183166504,
+      "beta_dpo/loss_margin_mean": 15.94063663482666,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.12481644640234948,
+      "grad_norm": 61.42685317993164,
+      "learning_rate": 4.992592445678582e-07,
+      "logits/chosen": -0.6268604397773743,
+      "logits/rejected": -0.5931763648986816,
+      "loss": 1.0304,
+      "step": 85
+    },
+    {
+      "beta_dpo/beta": 0.08018074184656143,
+      "beta_dpo/beta_margin_grad_mean": -0.3861086666584015,
+      "beta_dpo/beta_margin_grad_std": 0.2810457944869995,
+      "beta_dpo/beta_margin_mean": 1.180087924003601,
+      "beta_dpo/beta_margin_std": 3.0287249088287354,
+      "beta_dpo/beta_used": 0.08018074184656143,
+      "beta_dpo/beta_used_raw": -0.07008485496044159,
+      "beta_dpo/gap_mean": 15.852239608764648,
+      "beta_dpo/gap_std": 20.208812713623047,
+      "beta_dpo/loss_margin_mean": 16.962554931640625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1262848751835536,
+      "grad_norm": 116.6102523803711,
+      "learning_rate": 4.991572423079235e-07,
+      "logits/chosen": -0.6792384386062622,
+      "logits/rejected": -0.6633239984512329,
+      "loss": 1.17,
+      "step": 86
+    },
+    {
+      "beta_dpo/beta": 0.12275532633066177,
+      "beta_dpo/beta_margin_grad_mean": -0.2609297037124634,
+      "beta_dpo/beta_margin_grad_std": 0.26698076725006104,
+      "beta_dpo/beta_margin_mean": 2.5129313468933105,
+      "beta_dpo/beta_margin_std": 3.3721165657043457,
+      "beta_dpo/beta_used": 0.12275532633066177,
+      "beta_dpo/beta_used_raw": 0.12275532633066177,
+      "beta_dpo/gap_mean": 16.574663162231445,
+      "beta_dpo/gap_std": 21.20650863647461,
+      "beta_dpo/loss_margin_mean": 18.905868530273438,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1277533039647577,
+      "grad_norm": 81.023681640625,
+      "learning_rate": 4.990486745229364e-07,
+      "logits/chosen": -0.7079585790634155,
+      "logits/rejected": -0.675015389919281,
+      "loss": 0.7054,
+      "step": 87
+    },
+    {
+      "beta_dpo/beta": 0.10302203893661499,
+      "beta_dpo/beta_margin_grad_mean": -0.38228002190589905,
+      "beta_dpo/beta_margin_grad_std": 0.26822036504745483,
+      "beta_dpo/beta_margin_mean": 1.8344087600708008,
+      "beta_dpo/beta_margin_std": 4.733022689819336,
+      "beta_dpo/beta_used": 0.10302203893661499,
+      "beta_dpo/beta_used_raw": 0.07114126533269882,
+      "beta_dpo/gap_mean": 16.420879364013672,
+      "beta_dpo/gap_std": 22.033344268798828,
+      "beta_dpo/loss_margin_mean": 14.693923950195312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.12922173274596183,
+      "grad_norm": 91.79285430908203,
+      "learning_rate": 4.989335440737586e-07,
+      "logits/chosen": -0.661591649055481,
+      "logits/rejected": -0.6481854915618896,
+      "loss": 1.0505,
+      "step": 88
+    },
+    {
+      "beta_dpo/beta": 0.12089363485574722,
+      "beta_dpo/beta_margin_grad_mean": -0.32127439975738525,
+      "beta_dpo/beta_margin_grad_std": 0.2475607842206955,
+      "beta_dpo/beta_margin_mean": 2.3120830059051514,
+      "beta_dpo/beta_margin_std": 3.9636423587799072,
+      "beta_dpo/beta_used": 0.12089363485574722,
+      "beta_dpo/beta_used_raw": -0.0026644468307495117,
+      "beta_dpo/gap_mean": 15.963903427124023,
+      "beta_dpo/gap_std": 21.23855209350586,
+      "beta_dpo/loss_margin_mean": 15.816018104553223,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.13069016152716592,
+      "grad_norm": 84.89918518066406,
+      "learning_rate": 4.988118539941847e-07,
+      "logits/chosen": -0.7054777145385742,
+      "logits/rejected": -0.666853129863739,
+      "loss": 0.8893,
+      "step": 89
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4948834478855133,
+      "beta_dpo/beta_margin_grad_std": 0.007280984427779913,
+      "beta_dpo/beta_margin_mean": 0.020473351702094078,
+      "beta_dpo/beta_margin_std": 0.029139788821339607,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.10932803153991699,
+      "beta_dpo/gap_mean": 16.511451721191406,
+      "beta_dpo/gap_std": 22.19609832763672,
+      "beta_dpo/loss_margin_mean": 20.473350524902344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.13215859030837004,
+      "grad_norm": 1.6320456266403198,
+      "learning_rate": 4.986836074908615e-07,
+      "logits/chosen": -0.6601126194000244,
+      "logits/rejected": -0.6607536673545837,
+      "loss": 1.3734,
+      "step": 90
+    },
+    {
+      "beta_dpo/beta": 0.0956064909696579,
+      "beta_dpo/beta_margin_grad_mean": -0.36107704043388367,
+      "beta_dpo/beta_margin_grad_std": 0.26534104347229004,
+      "beta_dpo/beta_margin_mean": 1.9452344179153442,
+      "beta_dpo/beta_margin_std": 3.7261810302734375,
+      "beta_dpo/beta_used": 0.0956064909696579,
+      "beta_dpo/beta_used_raw": 0.060106635093688965,
+      "beta_dpo/gap_mean": 16.999650955200195,
+      "beta_dpo/gap_std": 22.816213607788086,
+      "beta_dpo/loss_margin_mean": 17.7425594329834,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.13362701908957417,
+      "grad_norm": 163.5145721435547,
+      "learning_rate": 4.985488079432037e-07,
+      "logits/chosen": -0.683163583278656,
+      "logits/rejected": -0.6435012817382812,
+      "loss": 1.135,
+      "step": 91
+    },
+    {
+      "beta_dpo/beta": 0.004416329320520163,
+      "beta_dpo/beta_margin_grad_mean": -0.47850051522254944,
+      "beta_dpo/beta_margin_grad_std": 0.033828821033239365,
+      "beta_dpo/beta_margin_mean": 0.08677387237548828,
+      "beta_dpo/beta_margin_std": 0.1371731013059616,
+      "beta_dpo/beta_used": 0.004416329320520163,
+      "beta_dpo/beta_used_raw": -0.09906575083732605,
+      "beta_dpo/gap_mean": 17.035350799560547,
+      "beta_dpo/gap_std": 22.991302490234375,
+      "beta_dpo/loss_margin_mean": 17.186429977416992,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.13509544787077826,
+      "grad_norm": 7.026480197906494,
+      "learning_rate": 4.984074589033043e-07,
+      "logits/chosen": -0.714478611946106,
+      "logits/rejected": -0.685989499092102,
+      "loss": 1.3231,
+      "step": 92
+    },
+    {
+      "beta_dpo/beta": 0.012795208021998405,
+      "beta_dpo/beta_margin_grad_mean": -0.4487362504005432,
+      "beta_dpo/beta_margin_grad_std": 0.08327450603246689,
+      "beta_dpo/beta_margin_mean": 0.21816346049308777,
+      "beta_dpo/beta_margin_std": 0.3640429377555847,
+      "beta_dpo/beta_used": 0.012795208021998405,
+      "beta_dpo/beta_used_raw": 0.003189191222190857,
+      "beta_dpo/gap_mean": 17.194652557373047,
+      "beta_dpo/gap_std": 22.38436508178711,
+      "beta_dpo/loss_margin_mean": 17.124244689941406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.13656387665198239,
+      "grad_norm": 17.654693603515625,
+      "learning_rate": 4.982595640958425e-07,
+      "logits/chosen": -0.7458562850952148,
+      "logits/rejected": -0.6881492137908936,
+      "loss": 1.216,
+      "step": 93
+    },
+    {
+      "beta_dpo/beta": 0.08266030997037888,
+      "beta_dpo/beta_margin_grad_mean": -0.34286096692085266,
+      "beta_dpo/beta_margin_grad_std": 0.254118949174881,
+      "beta_dpo/beta_margin_mean": 1.8386805057525635,
+      "beta_dpo/beta_margin_std": 3.1514334678649902,
+      "beta_dpo/beta_used": 0.08266030997037888,
+      "beta_dpo/beta_used_raw": 0.05387556180357933,
+      "beta_dpo/gap_mean": 17.62067222595215,
+      "beta_dpo/gap_std": 22.231197357177734,
+      "beta_dpo/loss_margin_mean": 19.16136932373047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.13803230543318648,
+      "grad_norm": 86.43866729736328,
+      "learning_rate": 4.98105127417984e-07,
+      "logits/chosen": -0.6766291260719299,
+      "logits/rejected": -0.6523104310035706,
+      "loss": 0.9494,
+      "step": 94
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4960479736328125,
+      "beta_dpo/beta_margin_grad_std": 0.00468993978574872,
+      "beta_dpo/beta_margin_mean": 0.015809904783964157,
+      "beta_dpo/beta_margin_std": 0.018763281404972076,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.1939472258090973,
+      "beta_dpo/gap_mean": 17.355606079101562,
+      "beta_dpo/gap_std": 21.673551559448242,
+      "beta_dpo/loss_margin_mean": 15.809903144836426,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1395007342143906,
+      "grad_norm": 1.29397714138031,
+      "learning_rate": 4.979441529392784e-07,
+      "logits/chosen": -0.737293004989624,
+      "logits/rejected": -0.7039185166358948,
+      "loss": 1.3739,
+      "step": 95
+    },
+    {
+      "beta_dpo/beta": 0.1486305147409439,
+      "beta_dpo/beta_margin_grad_mean": -0.30508890748023987,
+      "beta_dpo/beta_margin_grad_std": 0.2417270988225937,
+      "beta_dpo/beta_margin_mean": 3.7028400897979736,
+      "beta_dpo/beta_margin_std": 6.17563533782959,
+      "beta_dpo/beta_used": 0.1486305147409439,
+      "beta_dpo/beta_used_raw": -0.02500748634338379,
+      "beta_dpo/gap_mean": 17.98691177368164,
+      "beta_dpo/gap_std": 21.86615753173828,
+      "beta_dpo/loss_margin_mean": 21.639110565185547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.14096916299559473,
+      "grad_norm": 48.836517333984375,
+      "learning_rate": 4.977766449015534e-07,
+      "logits/chosen": -0.7020214796066284,
+      "logits/rejected": -0.6632054448127747,
+      "loss": 0.7946,
+      "step": 96
+    },
+    {
+      "beta_dpo/beta": 0.06436537951231003,
+      "beta_dpo/beta_margin_grad_mean": -0.3319231867790222,
+      "beta_dpo/beta_margin_grad_std": 0.21798565983772278,
+      "beta_dpo/beta_margin_mean": 1.3948326110839844,
+      "beta_dpo/beta_margin_std": 2.1092705726623535,
+      "beta_dpo/beta_used": 0.06436537951231003,
+      "beta_dpo/beta_used_raw": 0.023374740034341812,
+      "beta_dpo/gap_mean": 17.544296264648438,
+      "beta_dpo/gap_std": 21.351360321044922,
+      "beta_dpo/loss_margin_mean": 16.46492576599121,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.14243759177679882,
+      "grad_norm": 62.58485794067383,
+      "learning_rate": 4.976026077188012e-07,
+      "logits/chosen": -0.6425115466117859,
+      "logits/rejected": -0.5889946818351746,
+      "loss": 0.9477,
+      "step": 97
+    },
+    {
+      "beta_dpo/beta": 0.1993415206670761,
+      "beta_dpo/beta_margin_grad_mean": -0.3418026566505432,
+      "beta_dpo/beta_margin_grad_std": 0.29540500044822693,
+      "beta_dpo/beta_margin_mean": 3.733274221420288,
+      "beta_dpo/beta_margin_std": 8.150524139404297,
+      "beta_dpo/beta_used": 0.1993415206670761,
+      "beta_dpo/beta_used_raw": 0.16680875420570374,
+      "beta_dpo/gap_mean": 17.85407257080078,
+      "beta_dpo/gap_std": 21.613468170166016,
+      "beta_dpo/loss_margin_mean": 18.21445655822754,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.14390602055800295,
+      "grad_norm": 155.92921447753906,
+      "learning_rate": 4.974220459770639e-07,
+      "logits/chosen": -0.6993780136108398,
+      "logits/rejected": -0.6774000525474548,
+      "loss": 1.0858,
+      "step": 98
+    },
+    {
+      "beta_dpo/beta": 0.05922618508338928,
+      "beta_dpo/beta_margin_grad_mean": -0.29211270809173584,
+      "beta_dpo/beta_margin_grad_std": 0.1934242695569992,
+      "beta_dpo/beta_margin_mean": 1.2846572399139404,
+      "beta_dpo/beta_margin_std": 1.4927436113357544,
+      "beta_dpo/beta_used": 0.05922618508338928,
+      "beta_dpo/beta_used_raw": 0.05922618508338928,
+      "beta_dpo/gap_mean": 18.435466766357422,
+      "beta_dpo/gap_std": 22.153942108154297,
+      "beta_dpo/loss_margin_mean": 21.74091911315918,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.14537444933920704,
+      "grad_norm": 45.9489860534668,
+      "learning_rate": 4.972349644343108e-07,
+      "logits/chosen": -0.6738119125366211,
+      "logits/rejected": -0.6671220660209656,
+      "loss": 0.7627,
+      "step": 99
+    },
+    {
+      "beta_dpo/beta": 0.049059588462114334,
+      "beta_dpo/beta_margin_grad_mean": -0.376477986574173,
+      "beta_dpo/beta_margin_grad_std": 0.19105187058448792,
+      "beta_dpo/beta_margin_mean": 0.7820718884468079,
+      "beta_dpo/beta_margin_std": 1.3751544952392578,
+      "beta_dpo/beta_used": 0.049059588462114334,
+      "beta_dpo/beta_used_raw": 0.027484482154250145,
+      "beta_dpo/gap_mean": 17.79035186767578,
+      "beta_dpo/gap_std": 22.48064422607422,
+      "beta_dpo/loss_margin_mean": 13.807634353637695,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.14684287812041116,
+      "grad_norm": 40.60963821411133,
+      "learning_rate": 4.970413680203148e-07,
+      "logits/chosen": -0.6705986261367798,
+      "logits/rejected": -0.62305748462677,
+      "loss": 0.9552,
+      "step": 100
+    },
+    {
+      "epoch": 0.14684287812041116,
+      "eval_beta_dpo/beta": 0.004559545312076807,
+      "eval_beta_dpo/beta_margin_grad_mean": -0.489467054605484,
+      "eval_beta_dpo/beta_margin_grad_std": 0.016749924048781395,
+      "eval_beta_dpo/beta_margin_mean": 0.07250447571277618,
+      "eval_beta_dpo/beta_margin_std": 0.1095583513379097,
+      "eval_beta_dpo/beta_used": 0.004559545312076807,
+      "eval_beta_dpo/beta_used_raw": -0.37313562631607056,
+      "eval_beta_dpo/gap_mean": 17.69536590576172,
+      "eval_beta_dpo/gap_std": 22.184284210205078,
+      "eval_beta_dpo/loss_margin_mean": 9.809774398803711,
+      "eval_beta_dpo/mask_keep_frac": 1.0,
+      "eval_logits/chosen": -0.6697728037834167,
+      "eval_logits/rejected": -0.641778290271759,
+      "eval_loss": 0.6785586476325989,
+      "eval_runtime": 40.2677,
+      "eval_samples_per_second": 58.086,
+      "eval_steps_per_second": 1.838,
+      "step": 100
+    },
+    {
+      "beta_dpo/beta": 0.07321029156446457,
+      "beta_dpo/beta_margin_grad_mean": -0.3686811923980713,
+      "beta_dpo/beta_margin_grad_std": 0.25677189230918884,
+      "beta_dpo/beta_margin_mean": 1.4722819328308105,
+      "beta_dpo/beta_margin_std": 3.1001694202423096,
+      "beta_dpo/beta_used": 0.07321029156446457,
+      "beta_dpo/beta_used_raw": -0.08677682280540466,
+      "beta_dpo/gap_mean": 17.66168975830078,
+      "beta_dpo/gap_std": 22.67660903930664,
+      "beta_dpo/loss_margin_mean": 16.247787475585938,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.14831130690161526,
+      "grad_norm": 78.9544448852539,
+      "learning_rate": 4.968412618365215e-07,
+      "logits/chosen": -0.6895424127578735,
+      "logits/rejected": -0.650581955909729,
+      "loss": 1.0062,
+      "step": 101
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4970797300338745,
+      "beta_dpo/beta_margin_grad_std": 0.005516585893929005,
+      "beta_dpo/beta_margin_mean": 0.011683052405714989,
+      "beta_dpo/beta_margin_std": 0.022071124985814095,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.20228251814842224,
+      "beta_dpo/gap_mean": 16.36496925354004,
+      "beta_dpo/gap_std": 22.436237335205078,
+      "beta_dpo/loss_margin_mean": 11.683052062988281,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.14977973568281938,
+      "grad_norm": 1.3097914457321167,
+      "learning_rate": 4.966346511559149e-07,
+      "logits/chosen": -0.7123202681541443,
+      "logits/rejected": -0.6617774963378906,
+      "loss": 1.3751,
+      "step": 102
+    },
+    {
+      "beta_dpo/beta": 0.12889112532138824,
+      "beta_dpo/beta_margin_grad_mean": -0.33258166909217834,
+      "beta_dpo/beta_margin_grad_std": 0.2698776423931122,
+      "beta_dpo/beta_margin_mean": 2.756754159927368,
+      "beta_dpo/beta_margin_std": 4.887447357177734,
+      "beta_dpo/beta_used": 0.12889112532138824,
+      "beta_dpo/beta_used_raw": 0.11348496377468109,
+      "beta_dpo/gap_mean": 17.27025032043457,
+      "beta_dpo/gap_std": 22.856536865234375,
+      "beta_dpo/loss_margin_mean": 22.42643928527832,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1512481644640235,
+      "grad_norm": 182.22842407226562,
+      "learning_rate": 4.964215414228785e-07,
+      "logits/chosen": -0.6717199087142944,
+      "logits/rejected": -0.6303577423095703,
+      "loss": 1.0281,
+      "step": 103
+    },
+    {
+      "beta_dpo/beta": 0.06325404345989227,
+      "beta_dpo/beta_margin_grad_mean": -0.36961308121681213,
+      "beta_dpo/beta_margin_grad_std": 0.2353500872850418,
+      "beta_dpo/beta_margin_mean": 1.4412060976028442,
+      "beta_dpo/beta_margin_std": 3.0654594898223877,
+      "beta_dpo/beta_used": 0.06325404345989227,
+      "beta_dpo/beta_used_raw": 0.046856410801410675,
+      "beta_dpo/gap_mean": 17.94310760498047,
+      "beta_dpo/gap_std": 23.2835693359375,
+      "beta_dpo/loss_margin_mean": 21.150423049926758,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1527165932452276,
+      "grad_norm": 88.83678436279297,
+      "learning_rate": 4.96201938253052e-07,
+      "logits/chosen": -0.7104257345199585,
+      "logits/rejected": -0.6671864986419678,
+      "loss": 1.0529,
+      "step": 104
+    },
+    {
+      "beta_dpo/beta": 0.36780738830566406,
+      "beta_dpo/beta_margin_grad_mean": -0.08803264796733856,
+      "beta_dpo/beta_margin_grad_std": 0.23639245331287384,
+      "beta_dpo/beta_margin_mean": 10.949403762817383,
+      "beta_dpo/beta_margin_std": 9.001367568969727,
+      "beta_dpo/beta_used": 0.36780738830566406,
+      "beta_dpo/beta_used_raw": 0.36780738830566406,
+      "beta_dpo/gap_mean": 19.79109764099121,
+      "beta_dpo/gap_std": 23.633255004882812,
+      "beta_dpo/loss_margin_mean": 29.683706283569336,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.15418502202643172,
+      "grad_norm": 242.09918212890625,
+      "learning_rate": 4.959758474331832e-07,
+      "logits/chosen": -0.732721209526062,
+      "logits/rejected": -0.7001240849494934,
+      "loss": 0.522,
+      "step": 105
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4954530894756317,
+      "beta_dpo/beta_margin_grad_std": 0.005140354391187429,
+      "beta_dpo/beta_margin_mean": 0.01819043606519699,
+      "beta_dpo/beta_margin_std": 0.020566506311297417,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.09649403393268585,
+      "beta_dpo/gap_mean": 20.10454750061035,
+      "beta_dpo/gap_std": 23.268360137939453,
+      "beta_dpo/loss_margin_mean": 18.190433502197266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.15565345080763582,
+      "grad_norm": 1.546743392944336,
+      "learning_rate": 4.957432749209755e-07,
+      "logits/chosen": -0.6345574855804443,
+      "logits/rejected": -0.5829192399978638,
+      "loss": 1.3696,
+      "step": 106
+    },
+    {
+      "beta_dpo/beta": 0.15242286026477814,
+      "beta_dpo/beta_margin_grad_mean": -0.2269459068775177,
+      "beta_dpo/beta_margin_grad_std": 0.27589160203933716,
+      "beta_dpo/beta_margin_mean": 3.2626266479492188,
+      "beta_dpo/beta_margin_std": 3.9688947200775146,
+      "beta_dpo/beta_used": 0.15242286026477814,
+      "beta_dpo/beta_used_raw": 0.15242286026477814,
+      "beta_dpo/gap_mean": 20.150800704956055,
+      "beta_dpo/gap_std": 23.207382202148438,
+      "beta_dpo/loss_margin_mean": 20.48804473876953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.15712187958883994,
+      "grad_norm": 113.67718505859375,
+      "learning_rate": 4.955042268449307e-07,
+      "logits/chosen": -0.7242048978805542,
+      "logits/rejected": -0.6693615317344666,
+      "loss": 0.559,
+      "step": 107
+    },
+    {
+      "beta_dpo/beta": 0.035163089632987976,
+      "beta_dpo/beta_margin_grad_mean": -0.3810098469257355,
+      "beta_dpo/beta_margin_grad_std": 0.18505938351154327,
+      "beta_dpo/beta_margin_mean": 0.7840278148651123,
+      "beta_dpo/beta_margin_std": 1.483026146888733,
+      "beta_dpo/beta_used": 0.035163089632987976,
+      "beta_dpo/beta_used_raw": 0.017950953915715218,
+      "beta_dpo/gap_mean": 20.339149475097656,
+      "beta_dpo/gap_std": 24.504940032958984,
+      "beta_dpo/loss_margin_mean": 22.11771011352539,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.15859030837004406,
+      "grad_norm": 30.485048294067383,
+      "learning_rate": 4.952587095041881e-07,
+      "logits/chosen": -0.7240760326385498,
+      "logits/rejected": -0.6844010949134827,
+      "loss": 1.0071,
+      "step": 108
+    },
+    {
+      "beta_dpo/beta": 0.08255766332149506,
+      "beta_dpo/beta_margin_grad_mean": -0.24582688510417938,
+      "beta_dpo/beta_margin_grad_std": 0.24141037464141846,
+      "beta_dpo/beta_margin_mean": 2.0719735622406006,
+      "beta_dpo/beta_margin_std": 2.4666452407836914,
+      "beta_dpo/beta_used": 0.08255766332149506,
+      "beta_dpo/beta_used_raw": 0.08255766332149506,
+      "beta_dpo/gap_mean": 21.11379051208496,
+      "beta_dpo/gap_std": 24.862241744995117,
+      "beta_dpo/loss_margin_mean": 24.515644073486328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.16005873715124816,
+      "grad_norm": 72.3277359008789,
+      "learning_rate": 4.95006729368358e-07,
+      "logits/chosen": -0.6247401833534241,
+      "logits/rejected": -0.5946367979049683,
+      "loss": 0.7082,
+      "step": 109
+    },
+    {
+      "beta_dpo/beta": 0.007696578744798899,
+      "beta_dpo/beta_margin_grad_mean": -0.446740984916687,
+      "beta_dpo/beta_margin_grad_std": 0.07942461222410202,
+      "beta_dpo/beta_margin_mean": 0.2259088009595871,
+      "beta_dpo/beta_margin_std": 0.35111066699028015,
+      "beta_dpo/beta_used": 0.007696578744798899,
+      "beta_dpo/beta_used_raw": -0.11108442395925522,
+      "beta_dpo/gap_mean": 21.73975372314453,
+      "beta_dpo/gap_std": 25.069347381591797,
+      "beta_dpo/loss_margin_mean": 22.480884552001953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.16152716593245228,
+      "grad_norm": 12.362462043762207,
+      "learning_rate": 4.947482930773511e-07,
+      "logits/chosen": -0.6756146550178528,
+      "logits/rejected": -0.6260861158370972,
+      "loss": 1.2462,
+      "step": 110
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49404606223106384,
+      "beta_dpo/beta_margin_grad_std": 0.007231460884213448,
+      "beta_dpo/beta_margin_mean": 0.023822510614991188,
+      "beta_dpo/beta_margin_std": 0.028938332572579384,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.0781029760837555,
+      "beta_dpo/gap_mean": 21.86594009399414,
+      "beta_dpo/gap_std": 25.79961395263672,
+      "beta_dpo/loss_margin_mean": 23.822509765625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.16299559471365638,
+      "grad_norm": 1.6921226978302002,
+      "learning_rate": 4.944834074412042e-07,
+      "logits/chosen": -0.6994168758392334,
+      "logits/rejected": -0.6692637801170349,
+      "loss": 1.3676,
+      "step": 111
+    },
+    {
+      "beta_dpo/beta": 0.15165650844573975,
+      "beta_dpo/beta_margin_grad_mean": -0.34309816360473633,
+      "beta_dpo/beta_margin_grad_std": 0.28766128420829773,
+      "beta_dpo/beta_margin_mean": 2.929415702819824,
+      "beta_dpo/beta_margin_std": 5.559157848358154,
+      "beta_dpo/beta_used": 0.15165650844573975,
+      "beta_dpo/beta_used_raw": -0.08103512227535248,
+      "beta_dpo/gap_mean": 21.06276512145996,
+      "beta_dpo/gap_std": 25.198822021484375,
+      "beta_dpo/loss_margin_mean": 15.551918029785156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1644640234948605,
+      "grad_norm": 29.376951217651367,
+      "learning_rate": 4.942120794399002e-07,
+      "logits/chosen": -0.6914588212966919,
+      "logits/rejected": -0.6384344100952148,
+      "loss": 0.7237,
+      "step": 112
+    },
+    {
+      "beta_dpo/beta": 0.06923054903745651,
+      "beta_dpo/beta_margin_grad_mean": -0.37122005224227905,
+      "beta_dpo/beta_margin_grad_std": 0.23908159136772156,
+      "beta_dpo/beta_margin_mean": 1.2863365411758423,
+      "beta_dpo/beta_margin_std": 2.375030994415283,
+      "beta_dpo/beta_used": 0.06923054903745651,
+      "beta_dpo/beta_used_raw": 0.0037154704332351685,
+      "beta_dpo/gap_mean": 20.280515670776367,
+      "beta_dpo/gap_std": 24.34324836730957,
+      "beta_dpo/loss_margin_mean": 18.54205894470215,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.16593245227606462,
+      "grad_norm": 73.8025894165039,
+      "learning_rate": 4.939343162231841e-07,
+      "logits/chosen": -0.6436402797698975,
+      "logits/rejected": -0.5879355669021606,
+      "loss": 1.0275,
+      "step": 113
+    },
+    {
+      "beta_dpo/beta": 0.10792845487594604,
+      "beta_dpo/beta_margin_grad_mean": -0.3395880460739136,
+      "beta_dpo/beta_margin_grad_std": 0.2739325165748596,
+      "beta_dpo/beta_margin_mean": 3.3032939434051514,
+      "beta_dpo/beta_margin_std": 6.392845630645752,
+      "beta_dpo/beta_used": 0.10792845487594604,
+      "beta_dpo/beta_used_raw": 0.0014918148517608643,
+      "beta_dpo/gap_mean": 21.269786834716797,
+      "beta_dpo/gap_std": 25.5091552734375,
+      "beta_dpo/loss_margin_mean": 26.308393478393555,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.16740088105726872,
+      "grad_norm": 182.32144165039062,
+      "learning_rate": 4.936501251103751e-07,
+      "logits/chosen": -0.6645747423171997,
+      "logits/rejected": -0.6166965365409851,
+      "loss": 1.1018,
+      "step": 114
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4950384795665741,
+      "beta_dpo/beta_margin_grad_std": 0.008213133551180363,
+      "beta_dpo/beta_margin_mean": 0.019854702055454254,
+      "beta_dpo/beta_margin_std": 0.03287569805979729,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.13187555968761444,
+      "beta_dpo/gap_mean": 20.974491119384766,
+      "beta_dpo/gap_std": 26.741947174072266,
+      "beta_dpo/loss_margin_mean": 19.854700088500977,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.16886930983847284,
+      "grad_norm": 1.579263687133789,
+      "learning_rate": 4.933595135901732e-07,
+      "logits/chosen": -0.7198022603988647,
+      "logits/rejected": -0.6816444396972656,
+      "loss": 1.3694,
+      "step": 115
+    },
+    {
+      "beta_dpo/beta": 0.14748090505599976,
+      "beta_dpo/beta_margin_grad_mean": -0.3244438171386719,
+      "beta_dpo/beta_margin_grad_std": 0.25262880325317383,
+      "beta_dpo/beta_margin_mean": 3.44006085395813,
+      "beta_dpo/beta_margin_std": 5.296873569488525,
+      "beta_dpo/beta_used": 0.14748090505599976,
+      "beta_dpo/beta_used_raw": 7.016956806182861e-05,
+      "beta_dpo/gap_mean": 20.802410125732422,
+      "beta_dpo/gap_std": 26.271785736083984,
+      "beta_dpo/loss_margin_mean": 20.255638122558594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.17033773861967694,
+      "grad_norm": 229.8918914794922,
+      "learning_rate": 4.930624893204624e-07,
+      "logits/chosen": -0.703331708908081,
+      "logits/rejected": -0.6744290590286255,
+      "loss": 0.9244,
+      "step": 116
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49576959013938904,
+      "beta_dpo/beta_margin_grad_std": 0.0058947219513356686,
+      "beta_dpo/beta_margin_mean": 0.016924891620874405,
+      "beta_dpo/beta_margin_std": 0.023586571216583252,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.11201402544975281,
+      "beta_dpo/gap_mean": 20.31169891357422,
+      "beta_dpo/gap_std": 25.738601684570312,
+      "beta_dpo/loss_margin_mean": 16.92489242553711,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.17180616740088106,
+      "grad_norm": 1.411366581916809,
+      "learning_rate": 4.927590601281083e-07,
+      "logits/chosen": -0.6768569946289062,
+      "logits/rejected": -0.6319583654403687,
+      "loss": 1.3696,
+      "step": 117
+    },
+    {
+      "beta_dpo/beta": 0.05472584441304207,
+      "beta_dpo/beta_margin_grad_mean": -0.3660266399383545,
+      "beta_dpo/beta_margin_grad_std": 0.20633184909820557,
+      "beta_dpo/beta_margin_mean": 1.0326712131500244,
+      "beta_dpo/beta_margin_std": 1.876607060432434,
+      "beta_dpo/beta_used": 0.05472584441304207,
+      "beta_dpo/beta_used_raw": -0.008384305983781815,
+      "beta_dpo/gap_mean": 19.919933319091797,
+      "beta_dpo/gap_std": 25.017112731933594,
+      "beta_dpo/loss_margin_mean": 18.486082077026367,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.17327459618208516,
+      "grad_norm": 34.99771499633789,
+      "learning_rate": 4.924492340087524e-07,
+      "logits/chosen": -0.7068147659301758,
+      "logits/rejected": -0.6715903282165527,
+      "loss": 0.9355,
+      "step": 118
+    },
+    {
+      "beta_dpo/beta": 0.10491637140512466,
+      "beta_dpo/beta_margin_grad_mean": -0.33534765243530273,
+      "beta_dpo/beta_margin_grad_std": 0.2645687460899353,
+      "beta_dpo/beta_margin_mean": 2.3737905025482178,
+      "beta_dpo/beta_margin_std": 4.37314510345459,
+      "beta_dpo/beta_used": 0.10491637140512466,
+      "beta_dpo/beta_used_raw": -0.03881131112575531,
+      "beta_dpo/gap_mean": 19.92425537109375,
+      "beta_dpo/gap_std": 24.904251098632812,
+      "beta_dpo/loss_margin_mean": 19.200084686279297,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.17474302496328928,
+      "grad_norm": 146.54409790039062,
+      "learning_rate": 4.92133019126601e-07,
+      "logits/chosen": -0.7222672700881958,
+      "logits/rejected": -0.6985388994216919,
+      "loss": 1.0162,
+      "step": 119
+    },
+    {
+      "beta_dpo/beta": 0.21818916499614716,
+      "beta_dpo/beta_margin_grad_mean": -0.1877627968788147,
+      "beta_dpo/beta_margin_grad_std": 0.3119850158691406,
+      "beta_dpo/beta_margin_mean": 5.290563106536865,
+      "beta_dpo/beta_margin_std": 6.116404056549072,
+      "beta_dpo/beta_used": 0.21818916499614716,
+      "beta_dpo/beta_used_raw": 0.21818916499614716,
+      "beta_dpo/gap_mean": 20.34283447265625,
+      "beta_dpo/gap_std": 25.407583236694336,
+      "beta_dpo/loss_margin_mean": 24.195154190063477,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1762114537444934,
+      "grad_norm": 204.10935974121094,
+      "learning_rate": 4.918104238142103e-07,
+      "logits/chosen": -0.7220108509063721,
+      "logits/rejected": -0.6780139207839966,
+      "loss": 0.6997,
+      "step": 120
+    },
+    {
+      "beta_dpo/beta": 0.01847536489367485,
+      "beta_dpo/beta_margin_grad_mean": -0.3978184163570404,
+      "beta_dpo/beta_margin_grad_std": 0.16114307940006256,
+      "beta_dpo/beta_margin_mean": 0.5521989464759827,
+      "beta_dpo/beta_margin_std": 0.942378044128418,
+      "beta_dpo/beta_used": 0.01847536489367485,
+      "beta_dpo/beta_used_raw": 0.012065595015883446,
+      "beta_dpo/gap_mean": 21.67633819580078,
+      "beta_dpo/gap_std": 26.208454132080078,
+      "beta_dpo/loss_margin_mean": 27.461488723754883,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1776798825256975,
+      "grad_norm": 23.686054229736328,
+      "learning_rate": 4.91481456572267e-07,
+      "logits/chosen": -0.6834492087364197,
+      "logits/rejected": -0.6698263883590698,
+      "loss": 1.1437,
+      "step": 121
+    },
+    {
+      "beta_dpo/beta": 0.45700308680534363,
+      "beta_dpo/beta_margin_grad_mean": -0.08143386244773865,
+      "beta_dpo/beta_margin_grad_std": 0.2316262423992157,
+      "beta_dpo/beta_margin_mean": 15.591158866882324,
+      "beta_dpo/beta_margin_std": 16.326433181762695,
+      "beta_dpo/beta_used": 0.45700308680534363,
+      "beta_dpo/beta_used_raw": 0.45700308680534363,
+      "beta_dpo/gap_mean": 23.661128997802734,
+      "beta_dpo/gap_std": 26.714675903320312,
+      "beta_dpo/loss_margin_mean": 34.74848175048828,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.17914831130690162,
+      "grad_norm": 238.48973083496094,
+      "learning_rate": 4.911461260693638e-07,
+      "logits/chosen": -0.6555478572845459,
+      "logits/rejected": -0.6584290266036987,
+      "loss": 0.3756,
+      "step": 122
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4943942129611969,
+      "beta_dpo/beta_margin_grad_std": 0.008313042111694813,
+      "beta_dpo/beta_margin_mean": 0.02243146486580372,
+      "beta_dpo/beta_margin_std": 0.033270444720983505,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.1897989809513092,
+      "beta_dpo/gap_mean": 24.12826919555664,
+      "beta_dpo/gap_std": 27.712556838989258,
+      "beta_dpo/loss_margin_mean": 22.43146324157715,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.18061674008810572,
+      "grad_norm": 1.7068573236465454,
+      "learning_rate": 4.908044411417711e-07,
+      "logits/chosen": -0.6849197149276733,
+      "logits/rejected": -0.6539350152015686,
+      "loss": 1.3672,
+      "step": 123
+    },
+    {
+      "beta_dpo/beta": 0.03426466882228851,
+      "beta_dpo/beta_margin_grad_mean": -0.3685888350009918,
+      "beta_dpo/beta_margin_grad_std": 0.2092631459236145,
+      "beta_dpo/beta_margin_mean": 1.0015679597854614,
+      "beta_dpo/beta_margin_std": 1.8775554895401,
+      "beta_dpo/beta_used": 0.03426466882228851,
+      "beta_dpo/beta_used_raw": -0.07082332670688629,
+      "beta_dpo/gap_mean": 24.793880462646484,
+      "beta_dpo/gap_std": 30.202411651611328,
+      "beta_dpo/loss_margin_mean": 29.717092514038086,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.18208516886930984,
+      "grad_norm": 38.06232833862305,
+      "learning_rate": 4.904564107932048e-07,
+      "logits/chosen": -0.6627172231674194,
+      "logits/rejected": -0.6565097570419312,
+      "loss": 1.0074,
+      "step": 124
+    },
+    {
+      "beta_dpo/beta": 0.0012786721345037222,
+      "beta_dpo/beta_margin_grad_mean": -0.4913226366043091,
+      "beta_dpo/beta_margin_grad_std": 0.009015963412821293,
+      "beta_dpo/beta_margin_mean": 0.03472711890935898,
+      "beta_dpo/beta_margin_std": 0.03609345108270645,
+      "beta_dpo/beta_used": 0.0012786721345037222,
+      "beta_dpo/beta_used_raw": -0.12858377397060394,
+      "beta_dpo/gap_mean": 25.316532135009766,
+      "beta_dpo/gap_std": 30.038803100585938,
+      "beta_dpo/loss_margin_mean": 27.47158432006836,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.18355359765051396,
+      "grad_norm": 2.35784649848938,
+      "learning_rate": 4.90102044194588e-07,
+      "logits/chosen": -0.6600132584571838,
+      "logits/rejected": -0.6433917284011841,
+      "loss": 1.3587,
+      "step": 125
+    },
+    {
+      "beta_dpo/beta": 0.0375693216919899,
+      "beta_dpo/beta_margin_grad_mean": -0.3544065058231354,
+      "beta_dpo/beta_margin_grad_std": 0.2188321352005005,
+      "beta_dpo/beta_margin_mean": 0.9979441165924072,
+      "beta_dpo/beta_margin_std": 1.667494297027588,
+      "beta_dpo/beta_used": 0.0375693216919899,
+      "beta_dpo/beta_used_raw": -0.0951186865568161,
+      "beta_dpo/gap_mean": 25.63544464111328,
+      "beta_dpo/gap_std": 29.89664649963379,
+      "beta_dpo/loss_margin_mean": 26.32620620727539,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.18502202643171806,
+      "grad_norm": 47.1953125,
+      "learning_rate": 4.897413506838102e-07,
+      "logits/chosen": -0.6728538274765015,
+      "logits/rejected": -0.6457461714744568,
+      "loss": 0.9888,
+      "step": 126
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49485456943511963,
+      "beta_dpo/beta_margin_grad_std": 0.006044152192771435,
+      "beta_dpo/beta_margin_mean": 0.020585671067237854,
+      "beta_dpo/beta_margin_std": 0.02418256551027298,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.22815854847431183,
+      "beta_dpo/gap_mean": 24.85071563720703,
+      "beta_dpo/gap_std": 29.267414093017578,
+      "beta_dpo/loss_margin_mean": 20.585670471191406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.18649045521292218,
+      "grad_norm": 1.646366834640503,
+      "learning_rate": 4.89374339765481e-07,
+      "logits/chosen": -0.6736807227134705,
+      "logits/rejected": -0.6437186002731323,
+      "loss": 1.3671,
+      "step": 127
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4946313500404358,
+      "beta_dpo/beta_margin_grad_std": 0.007378284819424152,
+      "beta_dpo/beta_margin_mean": 0.021480618044734,
+      "beta_dpo/beta_margin_std": 0.029524413868784904,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.13018402457237244,
+      "beta_dpo/gap_mean": 24.056352615356445,
+      "beta_dpo/gap_std": 29.08978271484375,
+      "beta_dpo/loss_margin_mean": 21.48061752319336,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.18795888399412627,
+      "grad_norm": 1.6088193655014038,
+      "learning_rate": 4.890010211106795e-07,
+      "logits/chosen": -0.6654571294784546,
+      "logits/rejected": -0.62144935131073,
+      "loss": 1.3663,
+      "step": 128
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4943726360797882,
+      "beta_dpo/beta_margin_grad_std": 0.009340907447040081,
+      "beta_dpo/beta_margin_mean": 0.02252124436199665,
+      "beta_dpo/beta_margin_std": 0.037395406514406204,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.12518861889839172,
+      "beta_dpo/gap_mean": 23.854827880859375,
+      "beta_dpo/gap_std": 30.1458740234375,
+      "beta_dpo/loss_margin_mean": 22.521244049072266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.1894273127753304,
+      "grad_norm": 1.709029197692871,
+      "learning_rate": 4.88621404556699e-07,
+      "logits/chosen": -0.6773253679275513,
+      "logits/rejected": -0.6511229276657104,
+      "loss": 1.3665,
+      "step": 129
+    },
+    {
+      "beta_dpo/beta": 0.31604424118995667,
+      "beta_dpo/beta_margin_grad_mean": -0.3025071620941162,
+      "beta_dpo/beta_margin_grad_std": 0.28252968192100525,
+      "beta_dpo/beta_margin_mean": 13.17651653289795,
+      "beta_dpo/beta_margin_std": 20.62891387939453,
+      "beta_dpo/beta_used": 0.31604424118995667,
+      "beta_dpo/beta_used_raw": 0.2993201017379761,
+      "beta_dpo/gap_mean": 24.651588439941406,
+      "beta_dpo/gap_std": 31.216594696044922,
+      "beta_dpo/loss_margin_mean": 32.33549880981445,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.19089574155653452,
+      "grad_norm": 376.320556640625,
+      "learning_rate": 4.882355001067891e-07,
+      "logits/chosen": -0.6749308705329895,
+      "logits/rejected": -0.6657023429870605,
+      "loss": 1.8792,
+      "step": 130
+    },
+    {
+      "beta_dpo/beta": 0.31704258918762207,
+      "beta_dpo/beta_margin_grad_mean": -0.13735538721084595,
+      "beta_dpo/beta_margin_grad_std": 0.2471843659877777,
+      "beta_dpo/beta_margin_mean": 10.250054359436035,
+      "beta_dpo/beta_margin_std": 14.311327934265137,
+      "beta_dpo/beta_used": 0.31704258918762207,
+      "beta_dpo/beta_used_raw": 0.31704258918762207,
+      "beta_dpo/gap_mean": 26.40115737915039,
+      "beta_dpo/gap_std": 31.766616821289062,
+      "beta_dpo/loss_margin_mean": 31.684356689453125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.19236417033773862,
+      "grad_norm": 32.02171325683594,
+      "learning_rate": 4.878433179298909e-07,
+      "logits/chosen": -0.6722965240478516,
+      "logits/rejected": -0.6686934232711792,
+      "loss": 0.2626,
+      "step": 131
+    },
+    {
+      "beta_dpo/beta": 0.07168679684400558,
+      "beta_dpo/beta_margin_grad_mean": -0.3351624310016632,
+      "beta_dpo/beta_margin_grad_std": 0.2476821094751358,
+      "beta_dpo/beta_margin_mean": 2.218749761581421,
+      "beta_dpo/beta_margin_std": 3.9757206439971924,
+      "beta_dpo/beta_used": 0.07168679684400558,
+      "beta_dpo/beta_used_raw": -0.14731627702713013,
+      "beta_dpo/gap_mean": 27.047744750976562,
+      "beta_dpo/gap_std": 32.3395881652832,
+      "beta_dpo/loss_margin_mean": 28.040454864501953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.19383259911894274,
+      "grad_norm": 109.02853393554688,
+      "learning_rate": 4.874448683603694e-07,
+      "logits/chosen": -0.7075382471084595,
+      "logits/rejected": -0.6883822679519653,
+      "loss": 1.0233,
+      "step": 132
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4935277998447418,
+      "beta_dpo/beta_margin_grad_std": 0.009248698130249977,
+      "beta_dpo/beta_margin_mean": 0.025902841240167618,
+      "beta_dpo/beta_margin_std": 0.037025336176157,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.21696753799915314,
+      "beta_dpo/gap_mean": 26.851011276245117,
+      "beta_dpo/gap_std": 33.47434997558594,
+      "beta_dpo/loss_margin_mean": 25.90283966064453,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.19530102790014683,
+      "grad_norm": 1.9039520025253296,
+      "learning_rate": 4.870401618977415e-07,
+      "logits/chosen": -0.6817045211791992,
+      "logits/rejected": -0.6619011163711548,
+      "loss": 1.365,
+      "step": 133
+    },
+    {
+      "beta_dpo/beta": 0.06148982420563698,
+      "beta_dpo/beta_margin_grad_mean": -0.30357643961906433,
+      "beta_dpo/beta_margin_grad_std": 0.22313292324543,
+      "beta_dpo/beta_margin_mean": 1.999468207359314,
+      "beta_dpo/beta_margin_std": 3.1728920936584473,
+      "beta_dpo/beta_used": 0.06148982420563698,
+      "beta_dpo/beta_used_raw": -0.11817823350429535,
+      "beta_dpo/gap_mean": 26.90046501159668,
+      "beta_dpo/gap_std": 33.11681365966797,
+      "beta_dpo/loss_margin_mean": 28.993818283081055,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.19676945668135096,
+      "grad_norm": 41.841182708740234,
+      "learning_rate": 4.866292092063986e-07,
+      "logits/chosen": -0.682968020439148,
+      "logits/rejected": -0.6522467136383057,
+      "loss": 0.8588,
+      "step": 134
+    },
+    {
+      "beta_dpo/beta": 0.2148977667093277,
+      "beta_dpo/beta_margin_grad_mean": -0.30633312463760376,
+      "beta_dpo/beta_margin_grad_std": 0.27675861120224,
+      "beta_dpo/beta_margin_mean": 7.662230968475342,
+      "beta_dpo/beta_margin_std": 12.879323959350586,
+      "beta_dpo/beta_used": 0.2148977667093277,
+      "beta_dpo/beta_used_raw": 0.14902925491333008,
+      "beta_dpo/gap_mean": 28.413272857666016,
+      "beta_dpo/gap_std": 33.834190368652344,
+      "beta_dpo/loss_margin_mean": 35.534969329833984,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.19823788546255505,
+      "grad_norm": 202.7677459716797,
+      "learning_rate": 4.862120211153265e-07,
+      "logits/chosen": -0.6785898208618164,
+      "logits/rejected": -0.6952340602874756,
+      "loss": 0.8377,
+      "step": 135
+    },
+    {
+      "beta_dpo/beta": 0.008590362034738064,
+      "beta_dpo/beta_margin_grad_mean": -0.4468691945075989,
+      "beta_dpo/beta_margin_grad_std": 0.11143101006746292,
+      "beta_dpo/beta_margin_mean": 0.2566927969455719,
+      "beta_dpo/beta_margin_std": 0.5989749431610107,
+      "beta_dpo/beta_used": 0.008590362034738064,
+      "beta_dpo/beta_used_raw": -0.34298622608184814,
+      "beta_dpo/gap_mean": 28.481983184814453,
+      "beta_dpo/gap_std": 35.90342330932617,
+      "beta_dpo/loss_margin_mean": 24.999900817871094,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.19970631424375918,
+      "grad_norm": 16.698957443237305,
+      "learning_rate": 4.857886086178193e-07,
+      "logits/chosen": -0.6989582777023315,
+      "logits/rejected": -0.6765180826187134,
+      "loss": 1.2094,
+      "step": 136
+    },
+    {
+      "beta_dpo/beta": 0.1424337774515152,
+      "beta_dpo/beta_margin_grad_mean": -0.29480937123298645,
+      "beta_dpo/beta_margin_grad_std": 0.2575525939464569,
+      "beta_dpo/beta_margin_mean": 5.513402938842773,
+      "beta_dpo/beta_margin_std": 9.72019100189209,
+      "beta_dpo/beta_used": 0.1424337774515152,
+      "beta_dpo/beta_used_raw": -0.3468559980392456,
+      "beta_dpo/gap_mean": 29.415794372558594,
+      "beta_dpo/gap_std": 37.33689498901367,
+      "beta_dpo/loss_margin_mean": 37.266632080078125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2011747430249633,
+      "grad_norm": 72.38736724853516,
+      "learning_rate": 4.853589828711902e-07,
+      "logits/chosen": -0.6640630960464478,
+      "logits/rejected": -0.6742027401924133,
+      "loss": 0.8399,
+      "step": 137
+    },
+    {
+      "beta_dpo/beta": 0.11884160339832306,
+      "beta_dpo/beta_margin_grad_mean": -0.3148714303970337,
+      "beta_dpo/beta_margin_grad_std": 0.2580578923225403,
+      "beta_dpo/beta_margin_mean": 3.768012046813965,
+      "beta_dpo/beta_margin_std": 7.199725151062012,
+      "beta_dpo/beta_used": 0.11884160339832306,
+      "beta_dpo/beta_used_raw": 0.07956646382808685,
+      "beta_dpo/gap_mean": 29.399906158447266,
+      "beta_dpo/gap_std": 37.75701141357422,
+      "beta_dpo/loss_margin_mean": 28.36585235595703,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2026431718061674,
+      "grad_norm": 56.19173812866211,
+      "learning_rate": 4.849231551964771e-07,
+      "logits/chosen": -0.6535968780517578,
+      "logits/rejected": -0.6304416656494141,
+      "loss": 0.7798,
+      "step": 138
+    },
+    {
+      "beta_dpo/beta": 0.39647993445396423,
+      "beta_dpo/beta_margin_grad_mean": -0.17857220768928528,
+      "beta_dpo/beta_margin_grad_std": 0.34773120284080505,
+      "beta_dpo/beta_margin_mean": 13.393891334533691,
+      "beta_dpo/beta_margin_std": 16.2137393951416,
+      "beta_dpo/beta_used": 0.39647993445396423,
+      "beta_dpo/beta_used_raw": 0.39647993445396423,
+      "beta_dpo/gap_mean": 30.00773811340332,
+      "beta_dpo/gap_std": 37.6620979309082,
+      "beta_dpo/loss_margin_mean": 33.331172943115234,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.20411160058737152,
+      "grad_norm": 566.4978637695312,
+      "learning_rate": 4.844811370781446e-07,
+      "logits/chosen": -0.672115683555603,
+      "logits/rejected": -0.6479353904724121,
+      "loss": 1.5227,
+      "step": 139
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4924333691596985,
+      "beta_dpo/beta_margin_grad_std": 0.009864427149295807,
+      "beta_dpo/beta_margin_mean": 0.030282003805041313,
+      "beta_dpo/beta_margin_std": 0.03948511183261871,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.07030771672725677,
+      "beta_dpo/gap_mean": 30.288619995117188,
+      "beta_dpo/gap_std": 38.075069427490234,
+      "beta_dpo/loss_margin_mean": 30.282001495361328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2055800293685756,
+      "grad_norm": 2.395193576812744,
+      "learning_rate": 4.840329401637809e-07,
+      "logits/chosen": -0.6980350017547607,
+      "logits/rejected": -0.6766492128372192,
+      "loss": 1.3593,
+      "step": 140
+    },
+    {
+      "beta_dpo/beta": 0.20956987142562866,
+      "beta_dpo/beta_margin_grad_mean": -0.19632378220558167,
+      "beta_dpo/beta_margin_grad_std": 0.3448325991630554,
+      "beta_dpo/beta_margin_mean": 6.225460052490234,
+      "beta_dpo/beta_margin_std": 8.140890121459961,
+      "beta_dpo/beta_used": 0.20956987142562866,
+      "beta_dpo/beta_used_raw": 0.20956987142562866,
+      "beta_dpo/gap_mean": 30.184303283691406,
+      "beta_dpo/gap_std": 38.3173828125,
+      "beta_dpo/loss_margin_mean": 29.690879821777344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.20704845814977973,
+      "grad_norm": 249.5445098876953,
+      "learning_rate": 4.83578576263792e-07,
+      "logits/chosen": -0.6725201606750488,
+      "logits/rejected": -0.6453160047531128,
+      "loss": 0.6739,
+      "step": 141
+    },
+    {
+      "beta_dpo/beta": 0.31159713864326477,
+      "beta_dpo/beta_margin_grad_mean": -0.3195469379425049,
+      "beta_dpo/beta_margin_grad_std": 0.2950160801410675,
+      "beta_dpo/beta_margin_mean": 12.820926666259766,
+      "beta_dpo/beta_margin_std": 21.074304580688477,
+      "beta_dpo/beta_used": 0.31159713864326477,
+      "beta_dpo/beta_used_raw": 0.20784735679626465,
+      "beta_dpo/gap_mean": 30.36768341064453,
+      "beta_dpo/gap_std": 39.55695343017578,
+      "beta_dpo/loss_margin_mean": 33.904624938964844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.20851688693098386,
+      "grad_norm": 155.07594299316406,
+      "learning_rate": 4.83118057351089e-07,
+      "logits/chosen": -0.6555507183074951,
+      "logits/rejected": -0.6462887525558472,
+      "loss": 0.9589,
+      "step": 142
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49460893869400024,
+      "beta_dpo/beta_margin_grad_std": 0.008932164870202541,
+      "beta_dpo/beta_margin_mean": 0.021574243903160095,
+      "beta_dpo/beta_margin_std": 0.035751067101955414,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.2274360954761505,
+      "beta_dpo/gap_mean": 29.773212432861328,
+      "beta_dpo/gap_std": 39.13104248046875,
+      "beta_dpo/loss_margin_mean": 21.574241638183594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.20998531571218795,
+      "grad_norm": 2.0018367767333984,
+      "learning_rate": 4.826513955607734e-07,
+      "logits/chosen": -0.6578415632247925,
+      "logits/rejected": -0.6270245313644409,
+      "loss": 1.3623,
+      "step": 143
+    },
+    {
+      "beta_dpo/beta": 0.0523165799677372,
+      "beta_dpo/beta_margin_grad_mean": -0.3649788200855255,
+      "beta_dpo/beta_margin_grad_std": 0.2543392479419708,
+      "beta_dpo/beta_margin_mean": 1.4633898735046387,
+      "beta_dpo/beta_margin_std": 2.898139238357544,
+      "beta_dpo/beta_used": 0.0523165799677372,
+      "beta_dpo/beta_used_raw": -0.1444738358259201,
+      "beta_dpo/gap_mean": 28.968791961669922,
+      "beta_dpo/gap_std": 37.89672088623047,
+      "beta_dpo/loss_margin_mean": 28.176090240478516,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.21145374449339208,
+      "grad_norm": 75.73566436767578,
+      "learning_rate": 4.821786031898176e-07,
+      "logits/chosen": -0.6322454214096069,
+      "logits/rejected": -0.5843130350112915,
+      "loss": 1.0443,
+      "step": 144
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4928479492664337,
+      "beta_dpo/beta_margin_grad_std": 0.008205600082874298,
+      "beta_dpo/beta_margin_mean": 0.028618808835744858,
+      "beta_dpo/beta_margin_std": 0.03283938020467758,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.06517390161752701,
+      "beta_dpo/gap_mean": 28.99945640563965,
+      "beta_dpo/gap_std": 36.7828254699707,
+      "beta_dpo/loss_margin_mean": 28.61880874633789,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.21292217327459617,
+      "grad_norm": 2.1011862754821777,
+      "learning_rate": 4.816996926967401e-07,
+      "logits/chosen": -0.6506826877593994,
+      "logits/rejected": -0.6125441789627075,
+      "loss": 1.3604,
+      "step": 145
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4944137632846832,
+      "beta_dpo/beta_margin_grad_std": 0.008961321786046028,
+      "beta_dpo/beta_margin_mean": 0.022353263571858406,
+      "beta_dpo/beta_margin_std": 0.035862602293491364,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.353656530380249,
+      "beta_dpo/gap_mean": 27.972278594970703,
+      "beta_dpo/gap_std": 36.326202392578125,
+      "beta_dpo/loss_margin_mean": 22.353261947631836,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2143906020558003,
+      "grad_norm": 1.9944401979446411,
+      "learning_rate": 4.812146767012779e-07,
+      "logits/chosen": -0.6603084802627563,
+      "logits/rejected": -0.608822226524353,
+      "loss": 1.3663,
+      "step": 146
+    },
+    {
+      "beta_dpo/beta": 0.06166262924671173,
+      "beta_dpo/beta_margin_grad_mean": -0.35987135767936707,
+      "beta_dpo/beta_margin_grad_std": 0.25737276673316956,
+      "beta_dpo/beta_margin_mean": 2.0429532527923584,
+      "beta_dpo/beta_margin_std": 4.145395278930664,
+      "beta_dpo/beta_used": 0.06166262924671173,
+      "beta_dpo/beta_used_raw": -0.02383120357990265,
+      "beta_dpo/gap_mean": 28.153667449951172,
+      "beta_dpo/gap_std": 37.32135009765625,
+      "beta_dpo/loss_margin_mean": 30.588022232055664,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.21585903083700442,
+      "grad_norm": 132.78941345214844,
+      "learning_rate": 4.807235679840536e-07,
+      "logits/chosen": -0.6173018217086792,
+      "logits/rejected": -0.5760653018951416,
+      "loss": 1.1016,
+      "step": 147
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49364525079727173,
+      "beta_dpo/beta_margin_grad_std": 0.008732988499104977,
+      "beta_dpo/beta_margin_mean": 0.02543247863650322,
+      "beta_dpo/beta_margin_std": 0.03496631607413292,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.20661629736423492,
+      "beta_dpo/gap_mean": 27.30005645751953,
+      "beta_dpo/gap_std": 36.48552703857422,
+      "beta_dpo/loss_margin_mean": 25.432477951049805,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2173274596182085,
+      "grad_norm": 2.2173750400543213,
+      "learning_rate": 4.802263794862384e-07,
+      "logits/chosen": -0.6911383271217346,
+      "logits/rejected": -0.6686098575592041,
+      "loss": 1.3644,
+      "step": 148
+    },
+    {
+      "beta_dpo/beta": 0.2956673502922058,
+      "beta_dpo/beta_margin_grad_mean": -0.30034562945365906,
+      "beta_dpo/beta_margin_grad_std": 0.2807537615299225,
+      "beta_dpo/beta_margin_mean": 12.983054161071777,
+      "beta_dpo/beta_margin_std": 21.63262176513672,
+      "beta_dpo/beta_used": 0.2956673502922058,
+      "beta_dpo/beta_used_raw": 0.21206964552402496,
+      "beta_dpo/gap_mean": 29.230058670043945,
+      "beta_dpo/gap_std": 37.05466079711914,
+      "beta_dpo/loss_margin_mean": 35.43006896972656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.21879588839941264,
+      "grad_norm": 433.311279296875,
+      "learning_rate": 4.797231243092118e-07,
+      "logits/chosen": -0.6822164058685303,
+      "logits/rejected": -0.6580536365509033,
+      "loss": 0.9517,
+      "step": 149
+    },
+    {
+      "beta_dpo/beta": 0.06045344099402428,
+      "beta_dpo/beta_margin_grad_mean": -0.3100597858428955,
+      "beta_dpo/beta_margin_grad_std": 0.23861265182495117,
+      "beta_dpo/beta_margin_mean": 2.6005029678344727,
+      "beta_dpo/beta_margin_std": 4.630469799041748,
+      "beta_dpo/beta_used": 0.06045344099402428,
+      "beta_dpo/beta_used_raw": -0.12643922865390778,
+      "beta_dpo/gap_mean": 30.138582229614258,
+      "beta_dpo/gap_std": 38.105072021484375,
+      "beta_dpo/loss_margin_mean": 33.075477600097656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.22026431718061673,
+      "grad_norm": 67.81720733642578,
+      "learning_rate": 4.792138157142157e-07,
+      "logits/chosen": -0.6348152160644531,
+      "logits/rejected": -0.6246376037597656,
+      "loss": 0.8393,
+      "step": 150
+    },
+    {
+      "beta_dpo/beta": 0.23719097673892975,
+      "beta_dpo/beta_margin_grad_mean": -0.16241075098514557,
+      "beta_dpo/beta_margin_grad_std": 0.31397631764411926,
+      "beta_dpo/beta_margin_mean": 8.125089645385742,
+      "beta_dpo/beta_margin_std": 11.137140274047852,
+      "beta_dpo/beta_used": 0.23719097673892975,
+      "beta_dpo/beta_used_raw": 0.23719097673892975,
+      "beta_dpo/gap_mean": 30.40851593017578,
+      "beta_dpo/gap_std": 38.59818649291992,
+      "beta_dpo/loss_margin_mean": 34.17258071899414,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.22173274596182085,
+      "grad_norm": 232.2014923095703,
+      "learning_rate": 4.786984671220053e-07,
+      "logits/chosen": -0.7024506330490112,
+      "logits/rejected": -0.6618235111236572,
+      "loss": 0.7063,
+      "step": 151
+    },
+    {
+      "beta_dpo/beta": 0.007499909959733486,
+      "beta_dpo/beta_margin_grad_mean": -0.43083834648132324,
+      "beta_dpo/beta_margin_grad_std": 0.12350592017173767,
+      "beta_dpo/beta_margin_mean": 0.3257027268409729,
+      "beta_dpo/beta_margin_std": 0.6100393533706665,
+      "beta_dpo/beta_used": 0.007499909959733486,
+      "beta_dpo/beta_used_raw": -0.09531690180301666,
+      "beta_dpo/gap_mean": 31.590972900390625,
+      "beta_dpo/gap_std": 38.75636291503906,
+      "beta_dpo/loss_margin_mean": 39.02500534057617,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.22320117474302498,
+      "grad_norm": 16.272369384765625,
+      "learning_rate": 4.78177092112495e-07,
+      "logits/chosen": -0.6470739245414734,
+      "logits/rejected": -0.6299198865890503,
+      "loss": 1.2106,
+      "step": 152
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4919048547744751,
+      "beta_dpo/beta_margin_grad_std": 0.011256770230829716,
+      "beta_dpo/beta_margin_mean": 0.03240638226270676,
+      "beta_dpo/beta_margin_std": 0.04508744925260544,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.2720775008201599,
+      "beta_dpo/gap_mean": 32.21462631225586,
+      "beta_dpo/gap_std": 40.65864944458008,
+      "beta_dpo/loss_margin_mean": 32.40637969970703,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.22466960352422907,
+      "grad_norm": 2.2857508659362793,
+      "learning_rate": 4.776497044244016e-07,
+      "logits/chosen": -0.6825876235961914,
+      "logits/rejected": -0.6697901487350464,
+      "loss": 1.3607,
+      "step": 153
+    },
+    {
+      "beta_dpo/beta": 0.05751248076558113,
+      "beta_dpo/beta_margin_grad_mean": -0.37671908736228943,
+      "beta_dpo/beta_margin_grad_std": 0.2820754051208496,
+      "beta_dpo/beta_margin_mean": 2.0761663913726807,
+      "beta_dpo/beta_margin_std": 4.313288688659668,
+      "beta_dpo/beta_used": 0.05751248076558113,
+      "beta_dpo/beta_used_raw": -0.1990230530500412,
+      "beta_dpo/gap_mean": 31.79343605041504,
+      "beta_dpo/gap_std": 42.261234283447266,
+      "beta_dpo/loss_margin_mean": 30.59186553955078,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2261380323054332,
+      "grad_norm": 210.48843383789062,
+      "learning_rate": 4.771163179548808e-07,
+      "logits/chosen": -0.6370819807052612,
+      "logits/rejected": -0.6220649480819702,
+      "loss": 1.5172,
+      "step": 154
+    },
+    {
+      "beta_dpo/beta": 0.05650586262345314,
+      "beta_dpo/beta_margin_grad_mean": -0.34304705262184143,
+      "beta_dpo/beta_margin_grad_std": 0.25319162011146545,
+      "beta_dpo/beta_margin_mean": 2.0134613513946533,
+      "beta_dpo/beta_margin_std": 3.595337152481079,
+      "beta_dpo/beta_used": 0.05650586262345314,
+      "beta_dpo/beta_used_raw": -0.056411731988191605,
+      "beta_dpo/gap_mean": 31.931396484375,
+      "beta_dpo/gap_std": 42.397926330566406,
+      "beta_dpo/loss_margin_mean": 32.39974594116211,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2276064610866373,
+      "grad_norm": 98.22732543945312,
+      "learning_rate": 4.7657694675916247e-07,
+      "logits/chosen": -0.659138560295105,
+      "logits/rejected": -0.6297906041145325,
+      "loss": 1.0261,
+      "step": 155
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49459147453308105,
+      "beta_dpo/beta_margin_grad_std": 0.011738932691514492,
+      "beta_dpo/beta_margin_mean": 0.02164500020444393,
+      "beta_dpo/beta_margin_std": 0.04698922485113144,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.28176349401474,
+      "beta_dpo/gap_mean": 30.717424392700195,
+      "beta_dpo/gap_std": 43.143798828125,
+      "beta_dpo/loss_margin_mean": 21.64499855041504,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2290748898678414,
+      "grad_norm": 2.090728759765625,
+      "learning_rate": 4.7603160505017893e-07,
+      "logits/chosen": -0.6189935803413391,
+      "logits/rejected": -0.5884729623794556,
+      "loss": 1.3623,
+      "step": 156
+    },
+    {
+      "beta_dpo/beta": 0.5229025483131409,
+      "beta_dpo/beta_margin_grad_mean": -0.17714013159275055,
+      "beta_dpo/beta_margin_grad_std": 0.34146979451179504,
+      "beta_dpo/beta_margin_mean": 23.52101707458496,
+      "beta_dpo/beta_margin_std": 28.525287628173828,
+      "beta_dpo/beta_used": 0.5229025483131409,
+      "beta_dpo/beta_used_raw": 0.5229025483131409,
+      "beta_dpo/gap_mean": 31.968534469604492,
+      "beta_dpo/gap_std": 43.23138427734375,
+      "beta_dpo/loss_margin_mean": 41.19452667236328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2305433186490455,
+      "grad_norm": 566.1207885742188,
+      "learning_rate": 4.7548030719819154e-07,
+      "logits/chosen": -0.6501755714416504,
+      "logits/rejected": -0.6394015550613403,
+      "loss": 1.3783,
+      "step": 157
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48920392990112305,
+      "beta_dpo/beta_margin_grad_std": 0.014421283267438412,
+      "beta_dpo/beta_margin_mean": 0.04324439913034439,
+      "beta_dpo/beta_margin_std": 0.057812485843896866,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.2828848361968994,
+      "beta_dpo/gap_mean": 33.84852600097656,
+      "beta_dpo/gap_std": 46.209800720214844,
+      "beta_dpo/loss_margin_mean": 43.2443962097168,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.23201174743024963,
+      "grad_norm": 2.377941131591797,
+      "learning_rate": 4.7492306773041136e-07,
+      "logits/chosen": -0.6457036733627319,
+      "logits/rejected": -0.6453630328178406,
+      "loss": 1.3594,
+      "step": 158
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49216148257255554,
+      "beta_dpo/beta_margin_grad_std": 0.01246555708348751,
+      "beta_dpo/beta_margin_mean": 0.031383663415908813,
+      "beta_dpo/beta_margin_std": 0.04992513731122017,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.592555582523346,
+      "beta_dpo/gap_mean": 33.542808532714844,
+      "beta_dpo/gap_std": 47.51161193847656,
+      "beta_dpo/loss_margin_mean": 31.38365936279297,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.23348017621145375,
+      "grad_norm": 2.286787748336792,
+      "learning_rate": 4.743599013306165e-07,
+      "logits/chosen": -0.6784383058547974,
+      "logits/rejected": -0.6375674605369568,
+      "loss": 1.3647,
+      "step": 159
+    },
+    {
+      "beta_dpo/beta": 0.16555535793304443,
+      "beta_dpo/beta_margin_grad_mean": -0.3650355041027069,
+      "beta_dpo/beta_margin_grad_std": 0.28689926862716675,
+      "beta_dpo/beta_margin_mean": 5.125879287719727,
+      "beta_dpo/beta_margin_std": 12.860206604003906,
+      "beta_dpo/beta_used": 0.16555535793304443,
+      "beta_dpo/beta_used_raw": -0.04903079569339752,
+      "beta_dpo/gap_mean": 34.68842697143555,
+      "beta_dpo/gap_std": 48.956329345703125,
+      "beta_dpo/loss_margin_mean": 37.921714782714844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.23494860499265785,
+      "grad_norm": 179.4539794921875,
+      "learning_rate": 4.737908228387656e-07,
+      "logits/chosen": -0.6441961526870728,
+      "logits/rejected": -0.6223233342170715,
+      "loss": 1.2241,
+      "step": 160
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49170783162117004,
+      "beta_dpo/beta_margin_grad_std": 0.011308044195175171,
+      "beta_dpo/beta_margin_mean": 0.03319420665502548,
+      "beta_dpo/beta_margin_std": 0.04527975618839264,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6533927917480469,
+      "beta_dpo/gap_mean": 34.30507278442383,
+      "beta_dpo/gap_std": 48.81843948364258,
+      "beta_dpo/loss_margin_mean": 33.1942024230957,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.23641703377386197,
+      "grad_norm": 2.1890041828155518,
+      "learning_rate": 4.7321584725060594e-07,
+      "logits/chosen": -0.6661697626113892,
+      "logits/rejected": -0.646446704864502,
+      "loss": 1.365,
+      "step": 161
+    },
+    {
+      "beta_dpo/beta": 0.0633186399936676,
+      "beta_dpo/beta_margin_grad_mean": -0.33688822388648987,
+      "beta_dpo/beta_margin_grad_std": 0.2615722715854645,
+      "beta_dpo/beta_margin_mean": 3.0562398433685303,
+      "beta_dpo/beta_margin_std": 6.056267261505127,
+      "beta_dpo/beta_used": 0.0633186399936676,
+      "beta_dpo/beta_used_raw": 0.001413147896528244,
+      "beta_dpo/gap_mean": 34.92676544189453,
+      "beta_dpo/gap_std": 49.209938049316406,
+      "beta_dpo/loss_margin_mean": 34.6696891784668,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.23788546255506607,
+      "grad_norm": 66.83883666992188,
+      "learning_rate": 4.7263498971727905e-07,
+      "logits/chosen": -0.6479376554489136,
+      "logits/rejected": -0.6184839010238647,
+      "loss": 0.9902,
+      "step": 162
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4915504455566406,
+      "beta_dpo/beta_margin_grad_std": 0.010625366121530533,
+      "beta_dpo/beta_margin_mean": 0.03381972759962082,
+      "beta_dpo/beta_margin_std": 0.04253895580768585,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.27464038133621216,
+      "beta_dpo/gap_mean": 34.13161849975586,
+      "beta_dpo/gap_std": 47.94363021850586,
+      "beta_dpo/loss_margin_mean": 33.819725036621094,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2393538913362702,
+      "grad_norm": 2.279186487197876,
+      "learning_rate": 4.720482655449212e-07,
+      "logits/chosen": -0.6360805630683899,
+      "logits/rejected": -0.6068499684333801,
+      "loss": 1.3589,
+      "step": 163
+    },
+    {
+      "beta_dpo/beta": 0.33781903982162476,
+      "beta_dpo/beta_margin_grad_mean": -0.3097226321697235,
+      "beta_dpo/beta_margin_grad_std": 0.29108506441116333,
+      "beta_dpo/beta_margin_mean": 16.98153305053711,
+      "beta_dpo/beta_margin_std": 27.556440353393555,
+      "beta_dpo/beta_used": 0.33781903982162476,
+      "beta_dpo/beta_used_raw": 0.19692449271678925,
+      "beta_dpo/gap_mean": 35.37065124511719,
+      "beta_dpo/gap_std": 47.215484619140625,
+      "beta_dpo/loss_margin_mean": 39.373016357421875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.24082232011747431,
+      "grad_norm": 561.4354858398438,
+      "learning_rate": 4.714556901942599e-07,
+      "logits/chosen": -0.653258740901947,
+      "logits/rejected": -0.6248881816864014,
+      "loss": 2.7102,
+      "step": 164
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.493878573179245,
+      "beta_dpo/beta_margin_grad_std": 0.01068994589149952,
+      "beta_dpo/beta_margin_mean": 0.024500226601958275,
+      "beta_dpo/beta_margin_std": 0.04279119148850441,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.4569028615951538,
+      "beta_dpo/gap_mean": 33.61799621582031,
+      "beta_dpo/gap_std": 46.200439453125,
+      "beta_dpo/loss_margin_mean": 24.500225067138672,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2422907488986784,
+      "grad_norm": 2.3229660987854004,
+      "learning_rate": 4.708572792802069e-07,
+      "logits/chosen": -0.6612030267715454,
+      "logits/rejected": -0.6200650930404663,
+      "loss": 1.3624,
+      "step": 165
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48799970746040344,
+      "beta_dpo/beta_margin_grad_std": 0.015960004180669785,
+      "beta_dpo/beta_margin_mean": 0.04809439927339554,
+      "beta_dpo/beta_margin_std": 0.06407385319471359,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.17358143627643585,
+      "beta_dpo/gap_mean": 35.345130920410156,
+      "beta_dpo/gap_std": 49.15497589111328,
+      "beta_dpo/loss_margin_mean": 48.09439468383789,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.24375917767988253,
+      "grad_norm": 2.4269919395446777,
+      "learning_rate": 4.702530485714461e-07,
+      "logits/chosen": -0.6051408648490906,
+      "logits/rejected": -0.609076738357544,
+      "loss": 1.356,
+      "step": 166
+    },
+    {
+      "beta_dpo/beta": 0.4378092288970947,
+      "beta_dpo/beta_margin_grad_mean": -0.16084226965904236,
+      "beta_dpo/beta_margin_grad_std": 0.285220742225647,
+      "beta_dpo/beta_margin_mean": 22.484102249145508,
+      "beta_dpo/beta_margin_std": 31.359235763549805,
+      "beta_dpo/beta_used": 0.4378092288970947,
+      "beta_dpo/beta_used_raw": 0.4378092288970947,
+      "beta_dpo/gap_mean": 37.78612518310547,
+      "beta_dpo/gap_std": 49.52611541748047,
+      "beta_dpo/loss_margin_mean": 48.357120513916016,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.24522760646108663,
+      "grad_norm": 453.6042175292969,
+      "learning_rate": 4.6964301399001877e-07,
+      "logits/chosen": -0.5798200368881226,
+      "logits/rejected": -0.5775001049041748,
+      "loss": 1.1373,
+      "step": 167
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4908505380153656,
+      "beta_dpo/beta_margin_grad_std": 0.011183447204530239,
+      "beta_dpo/beta_margin_mean": 0.036625493317842484,
+      "beta_dpo/beta_margin_std": 0.04478682205080986,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.22355516254901886,
+      "beta_dpo/gap_mean": 38.02488327026367,
+      "beta_dpo/gap_std": 49.34698486328125,
+      "beta_dpo/loss_margin_mean": 36.625492095947266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.24669603524229075,
+      "grad_norm": 2.242811679840088,
+      "learning_rate": 4.690271916109034e-07,
+      "logits/chosen": -0.632524847984314,
+      "logits/rejected": -0.611569344997406,
+      "loss": 1.3542,
+      "step": 168
+    },
+    {
+      "beta_dpo/beta": 0.2027139812707901,
+      "beta_dpo/beta_margin_grad_mean": -0.3231821358203888,
+      "beta_dpo/beta_margin_grad_std": 0.286211758852005,
+      "beta_dpo/beta_margin_mean": 9.191436767578125,
+      "beta_dpo/beta_margin_std": 18.672359466552734,
+      "beta_dpo/beta_used": 0.2027139812707901,
+      "beta_dpo/beta_used_raw": -0.21766288578510284,
+      "beta_dpo/gap_mean": 37.77613830566406,
+      "beta_dpo/gap_std": 50.35961151123047,
+      "beta_dpo/loss_margin_mean": 33.702911376953125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.24816446402349487,
+      "grad_norm": 235.57923889160156,
+      "learning_rate": 4.6840559766159235e-07,
+      "logits/chosen": -0.6554511189460754,
+      "logits/rejected": -0.632649838924408,
+      "loss": 1.2102,
+      "step": 169
+    },
+    {
+      "beta_dpo/beta": 0.28471559286117554,
+      "beta_dpo/beta_margin_grad_mean": -0.29542797803878784,
+      "beta_dpo/beta_margin_grad_std": 0.2833177447319031,
+      "beta_dpo/beta_margin_mean": 14.588911056518555,
+      "beta_dpo/beta_margin_std": 24.41724967956543,
+      "beta_dpo/beta_used": 0.28471559286117554,
+      "beta_dpo/beta_used_raw": 0.07621648907661438,
+      "beta_dpo/gap_mean": 38.005332946777344,
+      "beta_dpo/gap_std": 50.405731201171875,
+      "beta_dpo/loss_margin_mean": 41.08964538574219,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.24963289280469897,
+      "grad_norm": 200.22003173828125,
+      "learning_rate": 4.6777824852166437e-07,
+      "logits/chosen": -0.6105868816375732,
+      "logits/rejected": -0.5924707651138306,
+      "loss": 0.8339,
+      "step": 170
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49198728799819946,
+      "beta_dpo/beta_margin_grad_std": 0.01487717404961586,
+      "beta_dpo/beta_margin_mean": 0.03210390359163284,
+      "beta_dpo/beta_margin_std": 0.059691086411476135,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.4475504755973816,
+      "beta_dpo/gap_mean": 36.77374267578125,
+      "beta_dpo/gap_std": 51.403194427490234,
+      "beta_dpo/loss_margin_mean": 32.103904724121094,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2511013215859031,
+      "grad_norm": 2.3106272220611572,
+      "learning_rate": 4.6714516072235273e-07,
+      "logits/chosen": -0.6592748761177063,
+      "logits/rejected": -0.6177250146865845,
+      "loss": 1.3592,
+      "step": 171
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49181634187698364,
+      "beta_dpo/beta_margin_grad_std": 0.012845886871218681,
+      "beta_dpo/beta_margin_mean": 0.03276326134800911,
+      "beta_dpo/beta_margin_std": 0.05145728588104248,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.24236111342906952,
+      "beta_dpo/gap_mean": 36.16783905029297,
+      "beta_dpo/gap_std": 52.5489501953125,
+      "beta_dpo/loss_margin_mean": 32.76325988769531,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2525697503671072,
+      "grad_norm": 2.4713857173919678,
+      "learning_rate": 4.6650635094610966e-07,
+      "logits/chosen": -0.6973352432250977,
+      "logits/rejected": -0.6602545976638794,
+      "loss": 1.3565,
+      "step": 172
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4913583993911743,
+      "beta_dpo/beta_margin_grad_std": 0.011392601765692234,
+      "beta_dpo/beta_margin_mean": 0.03459496796131134,
+      "beta_dpo/beta_margin_std": 0.04563411697745323,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.4711419939994812,
+      "beta_dpo/gap_mean": 35.43373107910156,
+      "beta_dpo/gap_std": 51.29859161376953,
+      "beta_dpo/loss_margin_mean": 34.594966888427734,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2540381791483113,
+      "grad_norm": 2.825610637664795,
+      "learning_rate": 4.6586183602616687e-07,
+      "logits/chosen": -0.658379316329956,
+      "logits/rejected": -0.6150857210159302,
+      "loss": 1.3608,
+      "step": 173
+    },
+    {
+      "beta_dpo/beta": 0.21091538667678833,
+      "beta_dpo/beta_margin_grad_mean": -0.3304974436759949,
+      "beta_dpo/beta_margin_grad_std": 0.27658578753471375,
+      "beta_dpo/beta_margin_mean": 10.612117767333984,
+      "beta_dpo/beta_margin_std": 22.01104736328125,
+      "beta_dpo/beta_used": 0.21091538667678833,
+      "beta_dpo/beta_used_raw": 0.15830256044864655,
+      "beta_dpo/gap_mean": 35.927711486816406,
+      "beta_dpo/gap_std": 51.60816192626953,
+      "beta_dpo/loss_margin_mean": 40.59208679199219,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2555066079295154,
+      "grad_norm": 239.2338409423828,
+      "learning_rate": 4.652116329460919e-07,
+      "logits/chosen": -0.5859450101852417,
+      "logits/rejected": -0.6018394231796265,
+      "loss": 0.906,
+      "step": 174
+    },
+    {
+      "beta_dpo/beta": 0.4976291060447693,
+      "beta_dpo/beta_margin_grad_mean": -0.14816464483737946,
+      "beta_dpo/beta_margin_grad_std": 0.34046775102615356,
+      "beta_dpo/beta_margin_mean": 28.725933074951172,
+      "beta_dpo/beta_margin_std": 33.13698196411133,
+      "beta_dpo/beta_used": 0.4976291060447693,
+      "beta_dpo/beta_used_raw": 0.4976291060447693,
+      "beta_dpo/gap_mean": 39.685943603515625,
+      "beta_dpo/gap_std": 53.021728515625,
+      "beta_dpo/loss_margin_mean": 56.412723541259766,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.25697503671071953,
+      "grad_norm": 1072.8525390625,
+      "learning_rate": 4.645557588393406e-07,
+      "logits/chosen": -0.5577561855316162,
+      "logits/rejected": -0.5457127690315247,
+      "loss": 1.7614,
+      "step": 175
+    },
+    {
+      "beta_dpo/beta": 0.05489476025104523,
+      "beta_dpo/beta_margin_grad_mean": -0.35436689853668213,
+      "beta_dpo/beta_margin_grad_std": 0.25154080986976624,
+      "beta_dpo/beta_margin_mean": 2.9585845470428467,
+      "beta_dpo/beta_margin_std": 6.016172885894775,
+      "beta_dpo/beta_used": 0.05489476025104523,
+      "beta_dpo/beta_used_raw": -0.031695641577243805,
+      "beta_dpo/gap_mean": 41.4671630859375,
+      "beta_dpo/gap_std": 53.848289489746094,
+      "beta_dpo/loss_margin_mean": 49.21371078491211,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.25844346549192365,
+      "grad_norm": 136.2383270263672,
+      "learning_rate": 4.638942309888058e-07,
+      "logits/chosen": -0.5958969593048096,
+      "logits/rejected": -0.6080245971679688,
+      "loss": 1.1292,
+      "step": 176
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48863834142684937,
+      "beta_dpo/beta_margin_grad_std": 0.015036150813102722,
+      "beta_dpo/beta_margin_mean": 0.045510660856962204,
+      "beta_dpo/beta_margin_std": 0.06027425080537796,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.20864097774028778,
+      "beta_dpo/gap_mean": 42.564491271972656,
+      "beta_dpo/gap_std": 55.388065338134766,
+      "beta_dpo/loss_margin_mean": 45.510658264160156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2599118942731278,
+      "grad_norm": 3.158673048019409,
+      "learning_rate": 4.6322706682636137e-07,
+      "logits/chosen": -0.612617015838623,
+      "logits/rejected": -0.5953266024589539,
+      "loss": 1.3498,
+      "step": 177
+    },
+    {
+      "beta_dpo/beta": 0.18339481949806213,
+      "beta_dpo/beta_margin_grad_mean": -0.1955973207950592,
+      "beta_dpo/beta_margin_grad_std": 0.3506017029285431,
+      "beta_dpo/beta_margin_mean": 11.09678840637207,
+      "beta_dpo/beta_margin_std": 12.919548988342285,
+      "beta_dpo/beta_used": 0.18339481949806213,
+      "beta_dpo/beta_used_raw": 0.18339481949806213,
+      "beta_dpo/gap_mean": 45.61469650268555,
+      "beta_dpo/gap_std": 58.27642059326172,
+      "beta_dpo/loss_margin_mean": 61.0152587890625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.26138032305433184,
+      "grad_norm": 433.4047546386719,
+      "learning_rate": 4.6255428393240354e-07,
+      "logits/chosen": -0.5409312844276428,
+      "logits/rejected": -0.5512675642967224,
+      "loss": 1.3433,
+      "step": 178
+    },
+    {
+      "beta_dpo/beta": 0.04584415256977081,
+      "beta_dpo/beta_margin_grad_mean": -0.33513152599334717,
+      "beta_dpo/beta_margin_grad_std": 0.3240673542022705,
+      "beta_dpo/beta_margin_mean": 1.8824143409729004,
+      "beta_dpo/beta_margin_std": 4.4029927253723145,
+      "beta_dpo/beta_used": 0.04584415256977081,
+      "beta_dpo/beta_used_raw": 0.04584415256977081,
+      "beta_dpo/gap_mean": 46.626121520996094,
+      "beta_dpo/gap_std": 60.98898696899414,
+      "beta_dpo/loss_margin_mean": 46.46109390258789,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.26284875183553597,
+      "grad_norm": 119.420166015625,
+      "learning_rate": 4.6187590003538724e-07,
+      "logits/chosen": -0.555252730846405,
+      "logits/rejected": -0.5443023443222046,
+      "loss": 0.977,
+      "step": 179
+    },
+    {
+      "beta_dpo/beta": 0.34115684032440186,
+      "beta_dpo/beta_margin_grad_mean": -0.3222728371620178,
+      "beta_dpo/beta_margin_grad_std": 0.29305145144462585,
+      "beta_dpo/beta_margin_mean": 18.263864517211914,
+      "beta_dpo/beta_margin_std": 32.01734924316406,
+      "beta_dpo/beta_used": 0.34115684032440186,
+      "beta_dpo/beta_used_raw": 0.2832660675048828,
+      "beta_dpo/gap_mean": 47.3960075378418,
+      "beta_dpo/gap_std": 61.42702102661133,
+      "beta_dpo/loss_margin_mean": 54.383392333984375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2643171806167401,
+      "grad_norm": 654.2474365234375,
+      "learning_rate": 4.611919330113591e-07,
+      "logits/chosen": -0.5455374717712402,
+      "logits/rejected": -0.5354658961296082,
+      "loss": 2.241,
+      "step": 180
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49211806058883667,
+      "beta_dpo/beta_margin_grad_std": 0.01292695663869381,
+      "beta_dpo/beta_margin_mean": 0.031555600464344025,
+      "beta_dpo/beta_margin_std": 0.051769278943538666,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6792909502983093,
+      "beta_dpo/gap_mean": 45.22578430175781,
+      "beta_dpo/gap_std": 59.60420608520508,
+      "beta_dpo/loss_margin_mean": 31.555599212646484,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2657856093979442,
+      "grad_norm": 2.6833486557006836,
+      "learning_rate": 4.605024008834863e-07,
+      "logits/chosen": -0.6246634721755981,
+      "logits/rejected": -0.5926576852798462,
+      "loss": 1.3547,
+      "step": 181
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48541346192359924,
+      "beta_dpo/beta_margin_grad_std": 0.016013246029615402,
+      "beta_dpo/beta_margin_mean": 0.05842866376042366,
+      "beta_dpo/beta_margin_std": 0.06418631225824356,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.13890297710895538,
+      "beta_dpo/gap_mean": 46.82099533081055,
+      "beta_dpo/gap_std": 60.325225830078125,
+      "beta_dpo/loss_margin_mean": 58.42866134643555,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.26725403817914833,
+      "grad_norm": 3.020500659942627,
+      "learning_rate": 4.598073218215817e-07,
+      "logits/chosen": -0.568708062171936,
+      "logits/rejected": -0.5688773989677429,
+      "loss": 1.3445,
+      "step": 182
+    },
+    {
+      "beta_dpo/beta": 0.21429939568042755,
+      "beta_dpo/beta_margin_grad_mean": -0.31174200773239136,
+      "beta_dpo/beta_margin_grad_std": 0.29498615860939026,
+      "beta_dpo/beta_margin_mean": 11.448225975036621,
+      "beta_dpo/beta_margin_std": 18.331274032592773,
+      "beta_dpo/beta_used": 0.21429939568042755,
+      "beta_dpo/beta_used_raw": -0.7067348957061768,
+      "beta_dpo/gap_mean": 46.11639404296875,
+      "beta_dpo/gap_std": 58.62394714355469,
+      "beta_dpo/loss_margin_mean": 33.00257873535156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2687224669603524,
+      "grad_norm": 198.4879608154297,
+      "learning_rate": 4.5910671414162484e-07,
+      "logits/chosen": -0.5793416500091553,
+      "logits/rejected": -0.5485885739326477,
+      "loss": 1.1118,
+      "step": 183
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4913460612297058,
+      "beta_dpo/beta_margin_grad_std": 0.012888733297586441,
+      "beta_dpo/beta_margin_mean": 0.03465365990996361,
+      "beta_dpo/beta_margin_std": 0.05163479968905449,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6931981444358826,
+      "beta_dpo/gap_mean": 42.51811981201172,
+      "beta_dpo/gap_std": 57.046356201171875,
+      "beta_dpo/loss_margin_mean": 34.653656005859375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2701908957415565,
+      "grad_norm": 2.891065835952759,
+      "learning_rate": 4.5840059630527985e-07,
+      "logits/chosen": -0.6110912561416626,
+      "logits/rejected": -0.5948389768600464,
+      "loss": 1.3576,
+      "step": 184
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.49350568652153015,
+      "beta_dpo/beta_margin_grad_std": 0.013207558542490005,
+      "beta_dpo/beta_margin_mean": 0.02600991725921631,
+      "beta_dpo/beta_margin_std": 0.052919141948223114,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.0860377550125122,
+      "beta_dpo/gap_mean": 40.281700134277344,
+      "beta_dpo/gap_std": 56.37439727783203,
+      "beta_dpo/loss_margin_mean": 26.009916305541992,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.27165932452276065,
+      "grad_norm": 2.7128992080688477,
+      "learning_rate": 4.5768898691940836e-07,
+      "logits/chosen": -0.6103675961494446,
+      "logits/rejected": -0.566834032535553,
+      "loss": 1.3663,
+      "step": 185
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4881168007850647,
+      "beta_dpo/beta_margin_grad_std": 0.014697042293846607,
+      "beta_dpo/beta_margin_mean": 0.0475916862487793,
+      "beta_dpo/beta_margin_std": 0.05890846624970436,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.08622078597545624,
+      "beta_dpo/gap_mean": 40.561866760253906,
+      "beta_dpo/gap_std": 56.94186019897461,
+      "beta_dpo/loss_margin_mean": 47.59168243408203,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.27312775330396477,
+      "grad_norm": 2.8734123706817627,
+      "learning_rate": 4.5697190473557947e-07,
+      "logits/chosen": -0.5887362360954285,
+      "logits/rejected": -0.5443171262741089,
+      "loss": 1.3496,
+      "step": 186
+    },
+    {
+      "beta_dpo/beta": 0.09833470731973648,
+      "beta_dpo/beta_margin_grad_mean": -0.29737338423728943,
+      "beta_dpo/beta_margin_grad_std": 0.27039891481399536,
+      "beta_dpo/beta_margin_mean": 5.131124019622803,
+      "beta_dpo/beta_margin_std": 8.384321212768555,
+      "beta_dpo/beta_used": 0.09833470731973648,
+      "beta_dpo/beta_used_raw": -0.1899646818637848,
+      "beta_dpo/gap_mean": 40.478797912597656,
+      "beta_dpo/gap_std": 56.40562438964844,
+      "beta_dpo/loss_margin_mean": 40.979331970214844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2745961820851689,
+      "grad_norm": 143.63812255859375,
+      "learning_rate": 4.5624936864957555e-07,
+      "logits/chosen": -0.5601129531860352,
+      "logits/rejected": -0.5561456680297852,
+      "loss": 0.8623,
+      "step": 187
+    },
+    {
+      "beta_dpo/beta": 0.15021683275699615,
+      "beta_dpo/beta_margin_grad_mean": -0.3293021023273468,
+      "beta_dpo/beta_margin_grad_std": 0.28328651189804077,
+      "beta_dpo/beta_margin_mean": 7.610217571258545,
+      "beta_dpo/beta_margin_std": 14.164756774902344,
+      "beta_dpo/beta_used": 0.15021683275699615,
+      "beta_dpo/beta_used_raw": -0.06993640959262848,
+      "beta_dpo/gap_mean": 42.536376953125,
+      "beta_dpo/gap_std": 56.52394104003906,
+      "beta_dpo/loss_margin_mean": 51.156455993652344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.27606461086637296,
+      "grad_norm": 319.3719787597656,
+      "learning_rate": 4.5552139770089454e-07,
+      "logits/chosen": -0.5592831373214722,
+      "logits/rejected": -0.5565686225891113,
+      "loss": 1.1264,
+      "step": 188
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4891382157802582,
+      "beta_dpo/beta_margin_grad_std": 0.01579362154006958,
+      "beta_dpo/beta_margin_mean": 0.04351968318223953,
+      "beta_dpo/beta_margin_std": 0.06336233019828796,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.27419549226760864,
+      "beta_dpo/gap_mean": 42.98434066772461,
+      "beta_dpo/gap_std": 57.9720573425293,
+      "beta_dpo/loss_margin_mean": 43.51968002319336,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2775330396475771,
+      "grad_norm": 2.7365245819091797,
+      "learning_rate": 4.5478801107224794e-07,
+      "logits/chosen": -0.5560922026634216,
+      "logits/rejected": -0.5184494853019714,
+      "loss": 1.3503,
+      "step": 189
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48745664954185486,
+      "beta_dpo/beta_margin_grad_std": 0.016793405637145042,
+      "beta_dpo/beta_margin_mean": 0.05025511234998703,
+      "beta_dpo/beta_margin_std": 0.0673254132270813,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.20993714034557343,
+      "beta_dpo/gap_mean": 43.333824157714844,
+      "beta_dpo/gap_std": 59.198699951171875,
+      "beta_dpo/loss_margin_mean": 50.25510787963867,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2790014684287812,
+      "grad_norm": 3.3970863819122314,
+      "learning_rate": 4.5404922808905543e-07,
+      "logits/chosen": -0.6286275386810303,
+      "logits/rejected": -0.6088818907737732,
+      "loss": 1.349,
+      "step": 190
+    },
+    {
+      "beta_dpo/beta": 0.46209681034088135,
+      "beta_dpo/beta_margin_grad_mean": -0.24650421738624573,
+      "beta_dpo/beta_margin_grad_std": 0.2589731812477112,
+      "beta_dpo/beta_margin_mean": 36.4068603515625,
+      "beta_dpo/beta_margin_std": 57.78350067138672,
+      "beta_dpo/beta_used": 0.46209681034088135,
+      "beta_dpo/beta_used_raw": 0.46209681034088135,
+      "beta_dpo/gap_mean": 48.85545349121094,
+      "beta_dpo/gap_std": 62.08613586425781,
+      "beta_dpo/loss_margin_mean": 71.1089096069336,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.28046989720998533,
+      "grad_norm": 471.61907958984375,
+      "learning_rate": 4.5330506821893565e-07,
+      "logits/chosen": -0.5496765375137329,
+      "logits/rejected": -0.5357059240341187,
+      "loss": 1.0202,
+      "step": 191
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48698392510414124,
+      "beta_dpo/beta_margin_grad_std": 0.018710140138864517,
+      "beta_dpo/beta_margin_mean": 0.05218232050538063,
+      "beta_dpo/beta_margin_std": 0.07510577142238617,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.5453534126281738,
+      "beta_dpo/gap_mean": 49.61614227294922,
+      "beta_dpo/gap_std": 65.27165222167969,
+      "beta_dpo/loss_margin_mean": 52.18231964111328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.28193832599118945,
+      "grad_norm": 2.940540075302124,
+      "learning_rate": 4.5255555107119336e-07,
+      "logits/chosen": -0.5459074974060059,
+      "logits/rejected": -0.5400164127349854,
+      "loss": 1.3484,
+      "step": 192
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4925091862678528,
+      "beta_dpo/beta_margin_grad_std": 0.017181508243083954,
+      "beta_dpo/beta_margin_mean": 0.02998378500342369,
+      "beta_dpo/beta_margin_std": 0.06887201964855194,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6699286103248596,
+      "beta_dpo/gap_mean": 46.75275421142578,
+      "beta_dpo/gap_std": 65.9295425415039,
+      "beta_dpo/loss_margin_mean": 29.983781814575195,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2834067547723935,
+      "grad_norm": 3.5088882446289062,
+      "learning_rate": 4.5180069639630236e-07,
+      "logits/chosen": -0.5572738647460938,
+      "logits/rejected": -0.5282651782035828,
+      "loss": 1.3531,
+      "step": 193
+    },
+    {
+      "beta_dpo/beta": 0.19052860140800476,
+      "beta_dpo/beta_margin_grad_mean": -0.20192070305347443,
+      "beta_dpo/beta_margin_grad_std": 0.34633687138557434,
+      "beta_dpo/beta_margin_mean": 8.937496185302734,
+      "beta_dpo/beta_margin_std": 12.730754852294922,
+      "beta_dpo/beta_used": 0.19052860140800476,
+      "beta_dpo/beta_used_raw": 0.19052860140800476,
+      "beta_dpo/gap_mean": 46.84581756591797,
+      "beta_dpo/gap_std": 64.2998046875,
+      "beta_dpo/loss_margin_mean": 48.318939208984375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.28487518355359764,
+      "grad_norm": 662.7078857421875,
+      "learning_rate": 4.510405240853854e-07,
+      "logits/chosen": -0.46685880422592163,
+      "logits/rejected": -0.44785797595977783,
+      "loss": 1.67,
+      "step": 194
+    },
+    {
+      "beta_dpo/beta": 0.34017544984817505,
+      "beta_dpo/beta_margin_grad_mean": -0.24558886885643005,
+      "beta_dpo/beta_margin_grad_std": 0.3135336637496948,
+      "beta_dpo/beta_margin_mean": 17.846120834350586,
+      "beta_dpo/beta_margin_std": 31.463382720947266,
+      "beta_dpo/beta_used": 0.34017544984817505,
+      "beta_dpo/beta_used_raw": 0.34017544984817505,
+      "beta_dpo/gap_mean": 47.83788299560547,
+      "beta_dpo/gap_std": 64.01758575439453,
+      "beta_dpo/loss_margin_mean": 53.63036346435547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.28634361233480177,
+      "grad_norm": 1409.7032470703125,
+      "learning_rate": 4.5027505416968985e-07,
+      "logits/chosen": -0.4705166518688202,
+      "logits/rejected": -0.48458150029182434,
+      "loss": 2.5194,
+      "step": 195
+    },
+    {
+      "beta_dpo/beta": 0.13741353154182434,
+      "beta_dpo/beta_margin_grad_mean": -0.3610975742340088,
+      "beta_dpo/beta_margin_grad_std": 0.3129690885543823,
+      "beta_dpo/beta_margin_mean": 9.195865631103516,
+      "beta_dpo/beta_margin_std": 19.96077537536621,
+      "beta_dpo/beta_used": 0.13741353154182434,
+      "beta_dpo/beta_used_raw": -0.07183443009853363,
+      "beta_dpo/gap_mean": 49.88597869873047,
+      "beta_dpo/gap_std": 66.26655578613281,
+      "beta_dpo/loss_margin_mean": 57.657196044921875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2878120411160059,
+      "grad_norm": 580.5075073242188,
+      "learning_rate": 4.495043068200599e-07,
+      "logits/chosen": -0.49783796072006226,
+      "logits/rejected": -0.4742533564567566,
+      "loss": 2.7513,
+      "step": 196
+    },
+    {
+      "beta_dpo/beta": 0.009012533351778984,
+      "beta_dpo/beta_margin_grad_mean": -0.4102240204811096,
+      "beta_dpo/beta_margin_grad_std": 0.14067673683166504,
+      "beta_dpo/beta_margin_mean": 0.44567611813545227,
+      "beta_dpo/beta_margin_std": 0.761162519454956,
+      "beta_dpo/beta_used": 0.009012533351778984,
+      "beta_dpo/beta_used_raw": -0.20918835699558258,
+      "beta_dpo/gap_mean": 48.81125259399414,
+      "beta_dpo/gap_std": 64.20172119140625,
+      "beta_dpo/loss_margin_mean": 44.6383056640625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.28928046989721,
+      "grad_norm": 23.286901473999023,
+      "learning_rate": 4.4872830234640493e-07,
+      "logits/chosen": -0.48581668734550476,
+      "logits/rejected": -0.47287267446517944,
+      "loss": 1.1075,
+      "step": 197
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4868345856666565,
+      "beta_dpo/beta_margin_grad_std": 0.0170100387185812,
+      "beta_dpo/beta_margin_mean": 0.05277407914400101,
+      "beta_dpo/beta_margin_std": 0.06834717839956284,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7153933048248291,
+      "beta_dpo/gap_mean": 49.21632385253906,
+      "beta_dpo/gap_std": 63.374412536621094,
+      "beta_dpo/loss_margin_mean": 52.77407455444336,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2907488986784141,
+      "grad_norm": 3.0157718658447266,
+      "learning_rate": 4.479470611971645e-07,
+      "logits/chosen": -0.5509780645370483,
+      "logits/rejected": -0.5530319213867188,
+      "loss": 1.3515,
+      "step": 198
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48704952001571655,
+      "beta_dpo/beta_margin_grad_std": 0.01737978495657444,
+      "beta_dpo/beta_margin_mean": 0.05188674107193947,
+      "beta_dpo/beta_margin_std": 0.06968604773283005,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.5050678253173828,
+      "beta_dpo/gap_mean": 50.510684967041016,
+      "beta_dpo/gap_std": 65.09575653076172,
+      "beta_dpo/loss_margin_mean": 51.886741638183594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2922173274596182,
+      "grad_norm": 3.9049272537231445,
+      "learning_rate": 4.471606039587695e-07,
+      "logits/chosen": -0.5343225002288818,
+      "logits/rejected": -0.5195610523223877,
+      "loss": 1.3469,
+      "step": 199
+    },
+    {
+      "beta_dpo/beta": 0.09858327358961105,
+      "beta_dpo/beta_margin_grad_mean": -0.3039037585258484,
+      "beta_dpo/beta_margin_grad_std": 0.26042643189430237,
+      "beta_dpo/beta_margin_mean": 5.793294429779053,
+      "beta_dpo/beta_margin_std": 12.536651611328125,
+      "beta_dpo/beta_used": 0.09858327358961105,
+      "beta_dpo/beta_used_raw": -0.24377571046352386,
+      "beta_dpo/gap_mean": 50.77419662475586,
+      "beta_dpo/gap_std": 67.68488311767578,
+      "beta_dpo/loss_margin_mean": 54.00712966918945,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2936857562408223,
+      "grad_norm": 191.8094024658203,
+      "learning_rate": 4.4636895135509966e-07,
+      "logits/chosen": -0.5364083647727966,
+      "logits/rejected": -0.5175313949584961,
+      "loss": 0.8706,
+      "step": 200
+    },
+    {
+      "epoch": 0.2936857562408223,
+      "eval_beta_dpo/beta": 0.004597905091941357,
+      "eval_beta_dpo/beta_margin_grad_mean": -0.49029847979545593,
+      "eval_beta_dpo/beta_margin_grad_std": 0.022800996899604797,
+      "eval_beta_dpo/beta_margin_mean": 0.21994154155254364,
+      "eval_beta_dpo/beta_margin_std": 0.3260399401187897,
+      "eval_beta_dpo/beta_used": 0.004597905091941357,
+      "eval_beta_dpo/beta_used_raw": -1.2767338752746582,
+      "eval_beta_dpo/gap_mean": 50.691349029541016,
+      "eval_beta_dpo/gap_std": 68.24334716796875,
+      "eval_beta_dpo/loss_margin_mean": 27.745779037475586,
+      "eval_beta_dpo/mask_keep_frac": 1.0,
+      "eval_logits/chosen": -0.6063677668571472,
+      "eval_logits/rejected": -0.5873017311096191,
+      "eval_loss": 0.6904171705245972,
+      "eval_runtime": 40.1818,
+      "eval_samples_per_second": 58.21,
+      "eval_steps_per_second": 1.842,
+      "step": 200
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48646533489227295,
+      "beta_dpo/beta_margin_grad_std": 0.017951475456357002,
+      "beta_dpo/beta_margin_mean": 0.05423285812139511,
+      "beta_dpo/beta_margin_std": 0.07199931889772415,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.24471929669380188,
+      "beta_dpo/gap_mean": 51.0998420715332,
+      "beta_dpo/gap_std": 69.32807922363281,
+      "beta_dpo/loss_margin_mean": 54.232852935791016,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.29515418502202645,
+      "grad_norm": 3.234513282775879,
+      "learning_rate": 4.455721242469372e-07,
+      "logits/chosen": -0.5788037776947021,
+      "logits/rejected": -0.5658458471298218,
+      "loss": 1.3421,
+      "step": 201
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4899270534515381,
+      "beta_dpo/beta_margin_grad_std": 0.017768291756510735,
+      "beta_dpo/beta_margin_mean": 0.040362436324357986,
+      "beta_dpo/beta_margin_std": 0.07123276591300964,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.5578510165214539,
+      "beta_dpo/gap_mean": 49.74256896972656,
+      "beta_dpo/gap_std": 69.538330078125,
+      "beta_dpo/loss_margin_mean": 40.36243438720703,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.2966226138032305,
+      "grad_norm": 3.0596237182617188,
+      "learning_rate": 4.4477014363141755e-07,
+      "logits/chosen": -0.5542974472045898,
+      "logits/rejected": -0.557321310043335,
+      "loss": 1.3486,
+      "step": 202
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48856452107429504,
+      "beta_dpo/beta_margin_grad_std": 0.015608040615916252,
+      "beta_dpo/beta_margin_mean": 0.04581226408481598,
+      "beta_dpo/beta_margin_std": 0.06257802248001099,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.41438037157058716,
+      "beta_dpo/gap_mean": 48.89398193359375,
+      "beta_dpo/gap_std": 68.63645935058594,
+      "beta_dpo/loss_margin_mean": 45.81226348876953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.29809104258443464,
+      "grad_norm": 3.645709753036499,
+      "learning_rate": 4.439630306414758e-07,
+      "logits/chosen": -0.571040153503418,
+      "logits/rejected": -0.5497109293937683,
+      "loss": 1.347,
+      "step": 203
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.489501029253006,
+      "beta_dpo/beta_margin_grad_std": 0.01954388990998268,
+      "beta_dpo/beta_margin_mean": 0.04208584129810333,
+      "beta_dpo/beta_margin_std": 0.07838640362024307,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.0310747623443604,
+      "beta_dpo/gap_mean": 47.7497673034668,
+      "beta_dpo/gap_std": 70.519287109375,
+      "beta_dpo/loss_margin_mean": 42.08584213256836,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.29955947136563876,
+      "grad_norm": 2.720808982849121,
+      "learning_rate": 4.431508065452897e-07,
+      "logits/chosen": -0.5842176675796509,
+      "logits/rejected": -0.5408717393875122,
+      "loss": 1.3582,
+      "step": 204
+    },
+    {
+      "beta_dpo/beta": 0.2624741196632385,
+      "beta_dpo/beta_margin_grad_mean": -0.29318341612815857,
+      "beta_dpo/beta_margin_grad_std": 0.2785731852054596,
+      "beta_dpo/beta_margin_mean": 21.14405059814453,
+      "beta_dpo/beta_margin_std": 34.92091369628906,
+      "beta_dpo/beta_used": 0.2624741196632385,
+      "beta_dpo/beta_used_raw": 0.12516099214553833,
+      "beta_dpo/gap_mean": 50.11834716796875,
+      "beta_dpo/gap_std": 70.84585571289062,
+      "beta_dpo/loss_margin_mean": 59.972965240478516,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3010279001468429,
+      "grad_norm": 358.5487365722656,
+      "learning_rate": 4.4233349274571974e-07,
+      "logits/chosen": -0.54551100730896,
+      "logits/rejected": -0.5079349875450134,
+      "loss": 0.9147,
+      "step": 205
+    },
+    {
+      "beta_dpo/beta": 0.8118077516555786,
+      "beta_dpo/beta_margin_grad_mean": -0.1911478042602539,
+      "beta_dpo/beta_margin_grad_std": 0.3803271949291229,
+      "beta_dpo/beta_margin_mean": 56.539398193359375,
+      "beta_dpo/beta_margin_std": 60.37042236328125,
+      "beta_dpo/beta_used": 0.8118077516555786,
+      "beta_dpo/beta_used_raw": 0.8118077516555786,
+      "beta_dpo/gap_mean": 52.5726318359375,
+      "beta_dpo/gap_std": 71.26499938964844,
+      "beta_dpo/loss_margin_mean": 68.52181243896484,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.302496328928047,
+      "grad_norm": 1746.28271484375,
+      "learning_rate": 4.415111107797445e-07,
+      "logits/chosen": -0.5080777406692505,
+      "logits/rejected": -0.5112833976745605,
+      "loss": 5.7592,
+      "step": 206
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4823157787322998,
+      "beta_dpo/beta_margin_grad_std": 0.02179008349776268,
+      "beta_dpo/beta_margin_mean": 0.07096053659915924,
+      "beta_dpo/beta_margin_std": 0.08763889223337173,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.22176781296730042,
+      "beta_dpo/gap_mean": 55.76563262939453,
+      "beta_dpo/gap_std": 74.22966766357422,
+      "beta_dpo/loss_margin_mean": 70.96053314208984,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3039647577092511,
+      "grad_norm": 3.9254820346832275,
+      "learning_rate": 4.4068368231789365e-07,
+      "logits/chosen": -0.5645418167114258,
+      "logits/rejected": -0.5385115742683411,
+      "loss": 1.3372,
+      "step": 207
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48605671525001526,
+      "beta_dpo/beta_margin_grad_std": 0.021491041406989098,
+      "beta_dpo/beta_margin_mean": 0.055905092507600784,
+      "beta_dpo/beta_margin_std": 0.08626676350831985,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.131654754281044,
+      "beta_dpo/gap_mean": 56.717201232910156,
+      "beta_dpo/gap_std": 76.8087158203125,
+      "beta_dpo/loss_margin_mean": 55.905086517333984,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3054331864904552,
+      "grad_norm": 3.8811442852020264,
+      "learning_rate": 4.398512291636768e-07,
+      "logits/chosen": -0.5704125761985779,
+      "logits/rejected": -0.5577903985977173,
+      "loss": 1.3351,
+      "step": 208
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48689284920692444,
+      "beta_dpo/beta_margin_grad_std": 0.019833343103528023,
+      "beta_dpo/beta_margin_mean": 0.05253633111715317,
+      "beta_dpo/beta_margin_std": 0.07954316586256027,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.45698946714401245,
+      "beta_dpo/gap_mean": 55.72069549560547,
+      "beta_dpo/gap_std": 78.26738739013672,
+      "beta_dpo/loss_margin_mean": 52.53633117675781,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3069016152716593,
+      "grad_norm": 3.4770359992980957,
+      "learning_rate": 4.3901377325300857e-07,
+      "logits/chosen": -0.5012378692626953,
+      "logits/rejected": -0.4895186424255371,
+      "loss": 1.3415,
+      "step": 209
+    },
+    {
+      "beta_dpo/beta": 0.15351513028144836,
+      "beta_dpo/beta_margin_grad_mean": -0.3444797396659851,
+      "beta_dpo/beta_margin_grad_std": 0.28890836238861084,
+      "beta_dpo/beta_margin_mean": 9.529181480407715,
+      "beta_dpo/beta_margin_std": 20.73506736755371,
+      "beta_dpo/beta_used": 0.15351513028144836,
+      "beta_dpo/beta_used_raw": -0.5257502794265747,
+      "beta_dpo/gap_mean": 55.32640075683594,
+      "beta_dpo/gap_std": 78.07096862792969,
+      "beta_dpo/loss_margin_mean": 55.78252029418945,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.30837004405286345,
+      "grad_norm": 341.5815124511719,
+      "learning_rate": 4.381713366536311e-07,
+      "logits/chosen": -0.4934021234512329,
+      "logits/rejected": -0.48370587825775146,
+      "loss": 1.2834,
+      "step": 210
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4880537688732147,
+      "beta_dpo/beta_margin_grad_std": 0.0234391950070858,
+      "beta_dpo/beta_margin_mean": 0.047958794981241226,
+      "beta_dpo/beta_margin_std": 0.09425321221351624,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.437325358390808,
+      "beta_dpo/gap_mean": 54.482818603515625,
+      "beta_dpo/gap_std": 79.86414337158203,
+      "beta_dpo/loss_margin_mean": 47.95879364013672,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.30983847283406757,
+      "grad_norm": 3.5843217372894287,
+      "learning_rate": 4.373239415645323e-07,
+      "logits/chosen": -0.4944462776184082,
+      "logits/rejected": -0.4566226005554199,
+      "loss": 1.3584,
+      "step": 211
+    },
+    {
+      "beta_dpo/beta": 1.3223354816436768,
+      "beta_dpo/beta_margin_grad_mean": -0.35223668813705444,
+      "beta_dpo/beta_margin_grad_std": 0.32164767384529114,
+      "beta_dpo/beta_margin_mean": 141.0015869140625,
+      "beta_dpo/beta_margin_std": 267.85894775390625,
+      "beta_dpo/beta_used": 1.3223354816436768,
+      "beta_dpo/beta_used_raw": 1.0547301769256592,
+      "beta_dpo/gap_mean": 59.36201477050781,
+      "beta_dpo/gap_std": 85.50032043457031,
+      "beta_dpo/loss_margin_mean": 81.92825317382812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.31130690161527164,
+      "grad_norm": 7063.01416015625,
+      "learning_rate": 4.3647161031536086e-07,
+      "logits/chosen": -0.4703846573829651,
+      "logits/rejected": -0.4657232165336609,
+      "loss": 29.8368,
+      "step": 212
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4821443259716034,
+      "beta_dpo/beta_margin_grad_std": 0.025429587811231613,
+      "beta_dpo/beta_margin_mean": 0.07165674865245819,
+      "beta_dpo/beta_margin_std": 0.10214556753635406,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.37106069922447205,
+      "beta_dpo/gap_mean": 61.29865646362305,
+      "beta_dpo/gap_std": 87.67449951171875,
+      "beta_dpo/loss_margin_mean": 71.65673828125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.31277533039647576,
+      "grad_norm": 4.132566452026367,
+      "learning_rate": 4.3561436536583774e-07,
+      "logits/chosen": -0.47617167234420776,
+      "logits/rejected": -0.44875389337539673,
+      "loss": 1.335,
+      "step": 213
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4833696484565735,
+      "beta_dpo/beta_margin_grad_std": 0.023280689492821693,
+      "beta_dpo/beta_margin_mean": 0.06673929840326309,
+      "beta_dpo/beta_margin_std": 0.09353061765432358,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.2031300812959671,
+      "beta_dpo/gap_mean": 62.14265823364258,
+      "beta_dpo/gap_std": 89.926513671875,
+      "beta_dpo/loss_margin_mean": 66.73929595947266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3142437591776799,
+      "grad_norm": 5.018362998962402,
+      "learning_rate": 4.3475222930516473e-07,
+      "logits/chosen": -0.4100716710090637,
+      "logits/rejected": -0.41462287306785583,
+      "loss": 1.3312,
+      "step": 214
+    },
+    {
+      "beta_dpo/beta": 0.3104745149612427,
+      "beta_dpo/beta_margin_grad_mean": -0.35084572434425354,
+      "beta_dpo/beta_margin_grad_std": 0.3201132118701935,
+      "beta_dpo/beta_margin_mean": 24.29639434814453,
+      "beta_dpo/beta_margin_std": 55.270938873291016,
+      "beta_dpo/beta_used": 0.3104745149612427,
+      "beta_dpo/beta_used_raw": -0.06115126609802246,
+      "beta_dpo/gap_mean": 64.10518646240234,
+      "beta_dpo/gap_std": 91.72321319580078,
+      "beta_dpo/loss_margin_mean": 70.83655548095703,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.315712187958884,
+      "grad_norm": 1893.756103515625,
+      "learning_rate": 4.3388522485142885e-07,
+      "logits/chosen": -0.4227758049964905,
+      "logits/rejected": -0.41368818283081055,
+      "loss": 5.4992,
+      "step": 215
+    },
+    {
+      "beta_dpo/beta": 0.1452518105506897,
+      "beta_dpo/beta_margin_grad_mean": -0.3200395703315735,
+      "beta_dpo/beta_margin_grad_std": 0.28639811277389526,
+      "beta_dpo/beta_margin_mean": 12.094311714172363,
+      "beta_dpo/beta_margin_std": 23.100305557250977,
+      "beta_dpo/beta_used": 0.1452518105506897,
+      "beta_dpo/beta_used_raw": -0.4864157736301422,
+      "beta_dpo/gap_mean": 63.70437240600586,
+      "beta_dpo/gap_std": 92.65457153320312,
+      "beta_dpo/loss_margin_mean": 66.72907257080078,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.31718061674008813,
+      "grad_norm": 478.4328918457031,
+      "learning_rate": 4.330133748510036e-07,
+      "logits/chosen": -0.4186558425426483,
+      "logits/rejected": -0.40211576223373413,
+      "loss": 1.6065,
+      "step": 216
+    },
+    {
+      "beta_dpo/beta": 0.052402470260858536,
+      "beta_dpo/beta_margin_grad_mean": -0.38916242122650146,
+      "beta_dpo/beta_margin_grad_std": 0.3128577768802643,
+      "beta_dpo/beta_margin_mean": 3.8621439933776855,
+      "beta_dpo/beta_margin_std": 9.069067001342773,
+      "beta_dpo/beta_used": 0.052402470260858536,
+      "beta_dpo/beta_used_raw": -0.15126293897628784,
+      "beta_dpo/gap_mean": 67.39096069335938,
+      "beta_dpo/gap_std": 93.9806137084961,
+      "beta_dpo/loss_margin_mean": 80.78280639648438,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3186490455212922,
+      "grad_norm": 547.8667602539062,
+      "learning_rate": 4.3213670227794757e-07,
+      "logits/chosen": -0.4100034236907959,
+      "logits/rejected": -0.407045841217041,
+      "loss": 1.4452,
+      "step": 217
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4856181740760803,
+      "beta_dpo/beta_margin_grad_std": 0.024022625759243965,
+      "beta_dpo/beta_margin_mean": 0.05773010477423668,
+      "beta_dpo/beta_margin_std": 0.09657855331897736,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.1618341207504272,
+      "beta_dpo/gap_mean": 66.28788757324219,
+      "beta_dpo/gap_std": 94.35865783691406,
+      "beta_dpo/loss_margin_mean": 57.7301025390625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3201174743024963,
+      "grad_norm": 5.246548652648926,
+      "learning_rate": 4.3125523023339815e-07,
+      "logits/chosen": -0.431363046169281,
+      "logits/rejected": -0.4271088242530823,
+      "loss": 1.3429,
+      "step": 218
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4872594475746155,
+      "beta_dpo/beta_margin_grad_std": 0.02623271755874157,
+      "beta_dpo/beta_margin_mean": 0.05115894228219986,
+      "beta_dpo/beta_margin_std": 0.10570129752159119,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.3351142406463623,
+      "beta_dpo/gap_mean": 62.747528076171875,
+      "beta_dpo/gap_std": 96.75794982910156,
+      "beta_dpo/loss_margin_mean": 51.15894317626953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.32158590308370044,
+      "grad_norm": 4.286383152008057,
+      "learning_rate": 4.303689819449636e-07,
+      "logits/chosen": -0.4274938106536865,
+      "logits/rejected": -0.41343453526496887,
+      "loss": 1.3488,
+      "step": 219
+    },
+    {
+      "beta_dpo/beta": 0.17918218672275543,
+      "beta_dpo/beta_margin_grad_mean": -0.34378835558891296,
+      "beta_dpo/beta_margin_grad_std": 0.3021136224269867,
+      "beta_dpo/beta_margin_mean": 9.130165100097656,
+      "beta_dpo/beta_margin_std": 20.58268928527832,
+      "beta_dpo/beta_used": 0.17918218672275543,
+      "beta_dpo/beta_used_raw": 0.05747605115175247,
+      "beta_dpo/gap_mean": 60.67655944824219,
+      "beta_dpo/gap_std": 93.46902465820312,
+      "beta_dpo/loss_margin_mean": 43.123931884765625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.32305433186490456,
+      "grad_norm": 1213.65625,
+      "learning_rate": 4.2947798076611047e-07,
+      "logits/chosen": -0.45730453729629517,
+      "logits/rejected": -0.43929389119148254,
+      "loss": 0.914,
+      "step": 220
+    },
+    {
+      "beta_dpo/beta": 1.0828216075897217,
+      "beta_dpo/beta_margin_grad_mean": -0.285607248544693,
+      "beta_dpo/beta_margin_grad_std": 0.28007781505584717,
+      "beta_dpo/beta_margin_mean": 110.4359359741211,
+      "beta_dpo/beta_margin_std": 165.42660522460938,
+      "beta_dpo/beta_used": 1.0828216075897217,
+      "beta_dpo/beta_used_raw": 0.8143908977508545,
+      "beta_dpo/gap_mean": 63.86392593383789,
+      "beta_dpo/gap_std": 92.72855377197266,
+      "beta_dpo/loss_margin_mean": 93.2608871459961,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3245227606461087,
+      "grad_norm": 3353.1982421875,
+      "learning_rate": 4.285822501755485e-07,
+      "logits/chosen": -0.41670554876327515,
+      "logits/rejected": -0.42472323775291443,
+      "loss": 8.7201,
+      "step": 221
+    },
+    {
+      "beta_dpo/beta": 0.24051879346370697,
+      "beta_dpo/beta_margin_grad_mean": -0.19494900107383728,
+      "beta_dpo/beta_margin_grad_std": 0.3727710545063019,
+      "beta_dpo/beta_margin_mean": 14.743354797363281,
+      "beta_dpo/beta_margin_std": 23.80963897705078,
+      "beta_dpo/beta_used": 0.24051879346370697,
+      "beta_dpo/beta_used_raw": 0.24051879346370697,
+      "beta_dpo/gap_mean": 65.32881164550781,
+      "beta_dpo/gap_std": 91.67716979980469,
+      "beta_dpo/loss_margin_mean": 64.1358642578125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.32599118942731276,
+      "grad_norm": 1461.958251953125,
+      "learning_rate": 4.276818137766118e-07,
+      "logits/chosen": -0.4541017413139343,
+      "logits/rejected": -0.45362943410873413,
+      "loss": 3.3505,
+      "step": 222
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48626866936683655,
+      "beta_dpo/beta_margin_grad_std": 0.02382073365151882,
+      "beta_dpo/beta_margin_mean": 0.05513327941298485,
+      "beta_dpo/beta_margin_std": 0.09587711095809937,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6068298816680908,
+      "beta_dpo/gap_mean": 64.32170104980469,
+      "beta_dpo/gap_std": 92.70675659179688,
+      "beta_dpo/loss_margin_mean": 55.133277893066406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3274596182085169,
+      "grad_norm": 5.079369068145752,
+      "learning_rate": 4.2677669529663686e-07,
+      "logits/chosen": -0.4292357563972473,
+      "logits/rejected": -0.41810518503189087,
+      "loss": 1.3355,
+      "step": 223
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4834619462490082,
+      "beta_dpo/beta_margin_grad_std": 0.024282945320010185,
+      "beta_dpo/beta_margin_mean": 0.06639501452445984,
+      "beta_dpo/beta_margin_std": 0.09770266711711884,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.0090042352676392,
+      "beta_dpo/gap_mean": 64.98542785644531,
+      "beta_dpo/gap_std": 92.75971221923828,
+      "beta_dpo/loss_margin_mean": 66.39501190185547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.328928046989721,
+      "grad_norm": 5.289470672607422,
+      "learning_rate": 4.2586691858633747e-07,
+      "logits/chosen": -0.40946879982948303,
+      "logits/rejected": -0.3898620009422302,
+      "loss": 1.3414,
+      "step": 224
+    },
+    {
+      "beta_dpo/beta": 0.5190803408622742,
+      "beta_dpo/beta_margin_grad_mean": -0.22263871133327484,
+      "beta_dpo/beta_margin_grad_std": 0.4009822607040405,
+      "beta_dpo/beta_margin_mean": 43.59006881713867,
+      "beta_dpo/beta_margin_std": 67.32926940917969,
+      "beta_dpo/beta_used": 0.5190803408622742,
+      "beta_dpo/beta_used_raw": 0.5190803408622742,
+      "beta_dpo/gap_mean": 66.35330200195312,
+      "beta_dpo/gap_std": 93.56597137451172,
+      "beta_dpo/loss_margin_mean": 78.7562484741211,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3303964757709251,
+      "grad_norm": 5388.49951171875,
+      "learning_rate": 4.249525076191759e-07,
+      "logits/chosen": -0.42718806862831116,
+      "logits/rejected": -0.4125264286994934,
+      "loss": 2.7657,
+      "step": 225
+    },
+    {
+      "beta_dpo/beta": 0.004440045915544033,
+      "beta_dpo/beta_margin_grad_mean": -0.433518648147583,
+      "beta_dpo/beta_margin_grad_std": 0.11666657030582428,
+      "beta_dpo/beta_margin_mean": 0.30315059423446655,
+      "beta_dpo/beta_margin_std": 0.5602424740791321,
+      "beta_dpo/beta_used": 0.004440045915544033,
+      "beta_dpo/beta_used_raw": -0.38874343037605286,
+      "beta_dpo/gap_mean": 65.67891693115234,
+      "beta_dpo/gap_std": 93.4427490234375,
+      "beta_dpo/loss_margin_mean": 54.554115295410156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.33186490455212925,
+      "grad_norm": 17.83782958984375,
+      "learning_rate": 4.2403348649073167e-07,
+      "logits/chosen": -0.48651188611984253,
+      "logits/rejected": -0.4508872628211975,
+      "loss": 1.1641,
+      "step": 226
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4800347089767456,
+      "beta_dpo/beta_margin_grad_std": 0.023754583671689034,
+      "beta_dpo/beta_margin_mean": 0.08015818148851395,
+      "beta_dpo/beta_margin_std": 0.09570427238941193,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.21814611554145813,
+      "beta_dpo/gap_mean": 66.89671325683594,
+      "beta_dpo/gap_std": 93.85809326171875,
+      "beta_dpo/loss_margin_mean": 80.1581802368164,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3333333333333333,
+      "grad_norm": 4.970055103302002,
+      "learning_rate": 4.2310987941806615e-07,
+      "logits/chosen": -0.46300429105758667,
+      "logits/rejected": -0.4537394046783447,
+      "loss": 1.3266,
+      "step": 227
+    },
+    {
+      "beta_dpo/beta": 0.23101337254047394,
+      "beta_dpo/beta_margin_grad_mean": -0.36090514063835144,
+      "beta_dpo/beta_margin_grad_std": 0.31774094700813293,
+      "beta_dpo/beta_margin_mean": 11.812125205993652,
+      "beta_dpo/beta_margin_std": 30.85622215270996,
+      "beta_dpo/beta_used": 0.23101337254047394,
+      "beta_dpo/beta_used_raw": -0.04854981601238251,
+      "beta_dpo/gap_mean": 65.2583999633789,
+      "beta_dpo/gap_std": 93.36762237548828,
+      "beta_dpo/loss_margin_mean": 55.80860137939453,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.33480176211453744,
+      "grad_norm": 576.836669921875,
+      "learning_rate": 4.2218171073908463e-07,
+      "logits/chosen": -0.46720415353775024,
+      "logits/rejected": -0.4512375593185425,
+      "loss": 2.1248,
+      "step": 228
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.486246794462204,
+      "beta_dpo/beta_margin_grad_std": 0.022847512736916542,
+      "beta_dpo/beta_margin_mean": 0.05515596643090248,
+      "beta_dpo/beta_margin_std": 0.09170445799827576,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.1934027224779129,
+      "beta_dpo/gap_mean": 63.560447692871094,
+      "beta_dpo/gap_std": 93.40653991699219,
+      "beta_dpo/loss_margin_mean": 55.15596389770508,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.33627019089574156,
+      "grad_norm": 5.151296615600586,
+      "learning_rate": 4.212490049118951e-07,
+      "logits/chosen": -0.52690190076828,
+      "logits/rejected": -0.4995231628417969,
+      "loss": 1.3298,
+      "step": 229
+    },
+    {
+      "beta_dpo/beta": 0.7624739408493042,
+      "beta_dpo/beta_margin_grad_mean": -0.14170564711093903,
+      "beta_dpo/beta_margin_grad_std": 0.3462100327014923,
+      "beta_dpo/beta_margin_mean": 65.0893325805664,
+      "beta_dpo/beta_margin_std": 68.40202331542969,
+      "beta_dpo/beta_used": 0.7624739408493042,
+      "beta_dpo/beta_used_raw": 0.7624739408493042,
+      "beta_dpo/gap_mean": 66.75623321533203,
+      "beta_dpo/gap_std": 92.87422180175781,
+      "beta_dpo/loss_margin_mean": 86.35228729248047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3377386196769457,
+      "grad_norm": 2202.667724609375,
+      "learning_rate": 4.203117865141635e-07,
+      "logits/chosen": -0.4267687201499939,
+      "logits/rejected": -0.43476104736328125,
+      "loss": 6.1252,
+      "step": 230
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4862736463546753,
+      "beta_dpo/beta_margin_grad_std": 0.020299429073929787,
+      "beta_dpo/beta_margin_mean": 0.05506381019949913,
+      "beta_dpo/beta_margin_std": 0.0815558135509491,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.2731541395187378,
+      "beta_dpo/gap_mean": 65.62940979003906,
+      "beta_dpo/gap_std": 90.5175552368164,
+      "beta_dpo/loss_margin_mean": 55.06380844116211,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3392070484581498,
+      "grad_norm": 3.6118087768554688,
+      "learning_rate": 4.1937008024246625e-07,
+      "logits/chosen": -0.48225754499435425,
+      "logits/rejected": -0.4550408124923706,
+      "loss": 1.3451,
+      "step": 231
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4886838495731354,
+      "beta_dpo/beta_margin_grad_std": 0.02164299599826336,
+      "beta_dpo/beta_margin_mean": 0.04541696980595589,
+      "beta_dpo/beta_margin_std": 0.08694743365049362,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.4023609161376953,
+      "beta_dpo/gap_mean": 62.820167541503906,
+      "beta_dpo/gap_std": 90.34293365478516,
+      "beta_dpo/loss_margin_mean": 45.41696548461914,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3406754772393539,
+      "grad_norm": 3.735759973526001,
+      "learning_rate": 4.1842391091163933e-07,
+      "logits/chosen": -0.459547221660614,
+      "logits/rejected": -0.43855172395706177,
+      "loss": 1.3498,
+      "step": 232
+    },
+    {
+      "beta_dpo/beta": 0.6553887128829956,
+      "beta_dpo/beta_margin_grad_mean": -0.2702082693576813,
+      "beta_dpo/beta_margin_grad_std": 0.43462416529655457,
+      "beta_dpo/beta_margin_mean": 55.271568298339844,
+      "beta_dpo/beta_margin_std": 99.48710632324219,
+      "beta_dpo/beta_used": 0.6553887128829956,
+      "beta_dpo/beta_used_raw": 0.6553887128829956,
+      "beta_dpo/gap_mean": 63.577369689941406,
+      "beta_dpo/gap_std": 93.35490417480469,
+      "beta_dpo/loss_margin_mean": 80.09815216064453,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.342143906020558,
+      "grad_norm": 2282.5595703125,
+      "learning_rate": 4.174733034541245e-07,
+      "logits/chosen": -0.4606332778930664,
+      "logits/rejected": -0.46368852257728577,
+      "loss": 13.3621,
+      "step": 233
+    },
+    {
+      "beta_dpo/beta": 0.7232382297515869,
+      "beta_dpo/beta_margin_grad_mean": -0.2983703017234802,
+      "beta_dpo/beta_margin_grad_std": 0.284095823764801,
+      "beta_dpo/beta_margin_mean": 74.6033935546875,
+      "beta_dpo/beta_margin_std": 122.55489349365234,
+      "beta_dpo/beta_used": 0.7232382297515869,
+      "beta_dpo/beta_used_raw": 0.4511352777481079,
+      "beta_dpo/gap_mean": 68.05307006835938,
+      "beta_dpo/gap_std": 95.49946594238281,
+      "beta_dpo/loss_margin_mean": 78.76392364501953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3436123348017621,
+      "grad_norm": 2767.52880859375,
+      "learning_rate": 4.165182829193126e-07,
+      "logits/chosen": -0.43197929859161377,
+      "logits/rejected": -0.4625827670097351,
+      "loss": 8.0627,
+      "step": 234
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4878506064414978,
+      "beta_dpo/beta_margin_grad_std": 0.024142302572727203,
+      "beta_dpo/beta_margin_mean": 0.04878600686788559,
+      "beta_dpo/beta_margin_std": 0.09710308909416199,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.6707329750061035,
+      "beta_dpo/gap_mean": 64.27421569824219,
+      "beta_dpo/gap_std": 95.8262939453125,
+      "beta_dpo/loss_margin_mean": 48.786006927490234,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.34508076358296624,
+      "grad_norm": 6.3571929931640625,
+      "learning_rate": 4.1555887447288255e-07,
+      "logits/chosen": -0.4989432692527771,
+      "logits/rejected": -0.4859057068824768,
+      "loss": 1.3526,
+      "step": 235
+    },
+    {
+      "beta_dpo/beta": 0.12677739560604095,
+      "beta_dpo/beta_margin_grad_mean": -0.2837068736553192,
+      "beta_dpo/beta_margin_grad_std": 0.26055774092674255,
+      "beta_dpo/beta_margin_mean": 10.552834510803223,
+      "beta_dpo/beta_margin_std": 17.651796340942383,
+      "beta_dpo/beta_used": 0.12677739560604095,
+      "beta_dpo/beta_used_raw": -0.10223083198070526,
+      "beta_dpo/gap_mean": 65.10395050048828,
+      "beta_dpo/gap_std": 94.22532653808594,
+      "beta_dpo/loss_margin_mean": 74.87934875488281,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3465491923641703,
+      "grad_norm": 211.59228515625,
+      "learning_rate": 4.1459510339613946e-07,
+      "logits/chosen": -0.46568238735198975,
+      "logits/rejected": -0.4750595688819885,
+      "loss": 0.7942,
+      "step": 236
+    },
+    {
+      "beta_dpo/beta": 0.23019856214523315,
+      "beta_dpo/beta_margin_grad_mean": -0.3403577208518982,
+      "beta_dpo/beta_margin_grad_std": 0.2993144690990448,
+      "beta_dpo/beta_margin_mean": 16.547616958618164,
+      "beta_dpo/beta_margin_std": 33.88982391357422,
+      "beta_dpo/beta_used": 0.23019856214523315,
+      "beta_dpo/beta_used_raw": 0.05189155042171478,
+      "beta_dpo/gap_mean": 66.33110046386719,
+      "beta_dpo/gap_std": 94.28207397460938,
+      "beta_dpo/loss_margin_mean": 68.86071014404297,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.34801762114537443,
+      "grad_norm": 1457.3970947265625,
+      "learning_rate": 4.136269950853473e-07,
+      "logits/chosen": -0.4683570861816406,
+      "logits/rejected": -0.4693116545677185,
+      "loss": 4.2522,
+      "step": 237
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48502317070961,
+      "beta_dpo/beta_margin_grad_std": 0.021210981532931328,
+      "beta_dpo/beta_margin_mean": 0.06012243032455444,
+      "beta_dpo/beta_margin_std": 0.08544077724218369,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6816811561584473,
+      "beta_dpo/gap_mean": 66.35641479492188,
+      "beta_dpo/gap_std": 93.38137817382812,
+      "beta_dpo/loss_margin_mean": 60.12242889404297,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.34948604992657856,
+      "grad_norm": 4.830297946929932,
+      "learning_rate": 4.126545750510605e-07,
+      "logits/chosen": -0.4283304214477539,
+      "logits/rejected": -0.4415178894996643,
+      "loss": 1.3348,
+      "step": 238
+    },
+    {
+      "beta_dpo/beta": 1.085011601448059,
+      "beta_dpo/beta_margin_grad_mean": -0.3376123607158661,
+      "beta_dpo/beta_margin_grad_std": 0.3144451677799225,
+      "beta_dpo/beta_margin_mean": 92.08358001708984,
+      "beta_dpo/beta_margin_std": 171.84555053710938,
+      "beta_dpo/beta_used": 1.085011601448059,
+      "beta_dpo/beta_used_raw": 0.1778862476348877,
+      "beta_dpo/gap_mean": 66.31056213378906,
+      "beta_dpo/gap_std": 91.886962890625,
+      "beta_dpo/loss_margin_mean": 67.11627197265625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3509544787077827,
+      "grad_norm": 3145.790283203125,
+      "learning_rate": 4.116778689174514e-07,
+      "logits/chosen": -0.46962711215019226,
+      "logits/rejected": -0.45392659306526184,
+      "loss": 5.1543,
+      "step": 239
+    },
+    {
+      "beta_dpo/beta": 0.01710430718958378,
+      "beta_dpo/beta_margin_grad_mean": -0.35482582449913025,
+      "beta_dpo/beta_margin_grad_std": 0.23242245614528656,
+      "beta_dpo/beta_margin_mean": 1.1268202066421509,
+      "beta_dpo/beta_margin_std": 2.160505771636963,
+      "beta_dpo/beta_used": 0.01710430718958378,
+      "beta_dpo/beta_used_raw": -0.3118809163570404,
+      "beta_dpo/gap_mean": 64.25852966308594,
+      "beta_dpo/gap_std": 89.93122863769531,
+      "beta_dpo/loss_margin_mean": 53.26530075073242,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3524229074889868,
+      "grad_norm": 40.69264602661133,
+      "learning_rate": 4.106969024216348e-07,
+      "logits/chosen": -0.4985065460205078,
+      "logits/rejected": -0.48068171739578247,
+      "loss": 1.003,
+      "step": 240
+    },
+    {
+      "beta_dpo/beta": 0.15345998108386993,
+      "beta_dpo/beta_margin_grad_mean": -0.2729555368423462,
+      "beta_dpo/beta_margin_grad_std": 0.2604886293411255,
+      "beta_dpo/beta_margin_mean": 10.851144790649414,
+      "beta_dpo/beta_margin_std": 16.8941593170166,
+      "beta_dpo/beta_used": 0.15345998108386993,
+      "beta_dpo/beta_used_raw": -0.44774329662323,
+      "beta_dpo/gap_mean": 65.07862854003906,
+      "beta_dpo/gap_std": 90.019287109375,
+      "beta_dpo/loss_margin_mean": 80.56120300292969,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.35389133627019087,
+      "grad_norm": 423.2123107910156,
+      "learning_rate": 4.097117014129903e-07,
+      "logits/chosen": -0.509527862071991,
+      "logits/rejected": -0.4832276701927185,
+      "loss": 0.7624,
+      "step": 241
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4855991005897522,
+      "beta_dpo/beta_margin_grad_std": 0.023397963494062424,
+      "beta_dpo/beta_margin_mean": 0.05778844282031059,
+      "beta_dpo/beta_margin_std": 0.094021275639534,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.40156319737434387,
+      "beta_dpo/gap_mean": 64.53580474853516,
+      "beta_dpo/gap_std": 93.37384033203125,
+      "beta_dpo/loss_margin_mean": 57.7884407043457,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.355359765051395,
+      "grad_norm": 4.439099311828613,
+      "learning_rate": 4.087222918524807e-07,
+      "logits/chosen": -0.45422351360321045,
+      "logits/rejected": -0.42984485626220703,
+      "loss": 1.3321,
+      "step": 242
+    },
+    {
+      "beta_dpo/beta": 0.30491340160369873,
+      "beta_dpo/beta_margin_grad_mean": -0.3281807005405426,
+      "beta_dpo/beta_margin_grad_std": 0.29721781611442566,
+      "beta_dpo/beta_margin_mean": 22.148780822753906,
+      "beta_dpo/beta_margin_std": 43.37929153442383,
+      "beta_dpo/beta_used": 0.30491340160369873,
+      "beta_dpo/beta_used_raw": -0.12471228837966919,
+      "beta_dpo/gap_mean": 65.9927978515625,
+      "beta_dpo/gap_std": 92.37184143066406,
+      "beta_dpo/loss_margin_mean": 72.20804595947266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3568281938325991,
+      "grad_norm": 1469.662841796875,
+      "learning_rate": 4.07728699811968e-07,
+      "logits/chosen": -0.44465339183807373,
+      "logits/rejected": -0.4099007844924927,
+      "loss": 4.1283,
+      "step": 243
+    },
+    {
+      "beta_dpo/beta": 0.12539884448051453,
+      "beta_dpo/beta_margin_grad_mean": -0.33266112208366394,
+      "beta_dpo/beta_margin_grad_std": 0.2994270622730255,
+      "beta_dpo/beta_margin_mean": 8.772866249084473,
+      "beta_dpo/beta_margin_std": 14.808113098144531,
+      "beta_dpo/beta_used": 0.12539884448051453,
+      "beta_dpo/beta_used_raw": -0.010177649557590485,
+      "beta_dpo/gap_mean": 67.40866088867188,
+      "beta_dpo/gap_std": 90.40948486328125,
+      "beta_dpo/loss_margin_mean": 73.00894165039062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.35829662261380324,
+      "grad_norm": 321.0909118652344,
+      "learning_rate": 4.067309514735267e-07,
+      "logits/chosen": -0.49787259101867676,
+      "logits/rejected": -0.4910111427307129,
+      "loss": 1.3698,
+      "step": 244
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48563241958618164,
+      "beta_dpo/beta_margin_grad_std": 0.025404594838619232,
+      "beta_dpo/beta_margin_mean": 0.057682327926158905,
+      "beta_dpo/beta_margin_std": 0.10235247761011124,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.7166011333465576,
+      "beta_dpo/gap_mean": 67.58259582519531,
+      "beta_dpo/gap_std": 91.15482330322266,
+      "beta_dpo/loss_margin_mean": 57.68232727050781,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.35976505139500736,
+      "grad_norm": 3.6279404163360596,
+      "learning_rate": 4.057290731287531e-07,
+      "logits/chosen": -0.5001641511917114,
+      "logits/rejected": -0.4671769142150879,
+      "loss": 1.3501,
+      "step": 245
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48544150590896606,
+      "beta_dpo/beta_margin_grad_std": 0.021831955760717392,
+      "beta_dpo/beta_margin_mean": 0.05841972678899765,
+      "beta_dpo/beta_margin_std": 0.08776440471410751,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.5867970585823059,
+      "beta_dpo/gap_mean": 64.41853332519531,
+      "beta_dpo/gap_std": 90.19287872314453,
+      "beta_dpo/loss_margin_mean": 58.41972351074219,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.36123348017621143,
+      "grad_norm": 4.705582618713379,
+      "learning_rate": 4.047230911780736e-07,
+      "logits/chosen": -0.5271105766296387,
+      "logits/rejected": -0.49014580249786377,
+      "loss": 1.3351,
+      "step": 246
+    },
+    {
+      "beta_dpo/beta": 0.1847115010023117,
+      "beta_dpo/beta_margin_grad_mean": -0.2965923547744751,
+      "beta_dpo/beta_margin_grad_std": 0.28494712710380554,
+      "beta_dpo/beta_margin_mean": 15.352115631103516,
+      "beta_dpo/beta_margin_std": 25.77711296081543,
+      "beta_dpo/beta_used": 0.1847115010023117,
+      "beta_dpo/beta_used_raw": 0.06344389915466309,
+      "beta_dpo/gap_mean": 68.1501235961914,
+      "beta_dpo/gap_std": 92.23121643066406,
+      "beta_dpo/loss_margin_mean": 90.32220458984375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.36270190895741555,
+      "grad_norm": 471.9046325683594,
+      "learning_rate": 4.0371303213004814e-07,
+      "logits/chosen": -0.44840526580810547,
+      "logits/rejected": -0.45401185750961304,
+      "loss": 2.3625,
+      "step": 247
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48346683382987976,
+      "beta_dpo/beta_margin_grad_std": 0.018162554129958153,
+      "beta_dpo/beta_margin_mean": 0.06628952920436859,
+      "beta_dpo/beta_margin_std": 0.07302607595920563,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.5669313669204712,
+      "beta_dpo/gap_mean": 68.87054443359375,
+      "beta_dpo/gap_std": 89.18070220947266,
+      "beta_dpo/loss_margin_mean": 66.2895278930664,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3641703377386197,
+      "grad_norm": 4.8645339012146,
+      "learning_rate": 4.0269892260067197e-07,
+      "logits/chosen": -0.45725005865097046,
+      "logits/rejected": -0.47495073080062866,
+      "loss": 1.3302,
+      "step": 248
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48953747749328613,
+      "beta_dpo/beta_margin_grad_std": 0.019871097058057785,
+      "beta_dpo/beta_margin_mean": 0.041934434324502945,
+      "beta_dpo/beta_margin_std": 0.07966778427362442,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.1384837627410889,
+      "beta_dpo/gap_mean": 64.90923309326172,
+      "beta_dpo/gap_std": 87.11177825927734,
+      "beta_dpo/loss_margin_mean": 41.93442916870117,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3656387665198238,
+      "grad_norm": 6.0476884841918945,
+      "learning_rate": 4.0168078931267426e-07,
+      "logits/chosen": -0.47966477274894714,
+      "logits/rejected": -0.45807725191116333,
+      "loss": 1.3437,
+      "step": 249
+    },
+    {
+      "beta_dpo/beta": 0.3004174530506134,
+      "beta_dpo/beta_margin_grad_mean": -0.277651309967041,
+      "beta_dpo/beta_margin_grad_std": 0.2621324062347412,
+      "beta_dpo/beta_margin_mean": 21.81104278564453,
+      "beta_dpo/beta_margin_std": 32.62987518310547,
+      "beta_dpo/beta_used": 0.3004174530506134,
+      "beta_dpo/beta_used_raw": 0.17717288434505463,
+      "beta_dpo/gap_mean": 62.63585662841797,
+      "beta_dpo/gap_std": 83.05741119384766,
+      "beta_dpo/loss_margin_mean": 62.211456298828125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3671071953010279,
+      "grad_norm": 598.4202270507812,
+      "learning_rate": 4.006586590948141e-07,
+      "logits/chosen": -0.458739697933197,
+      "logits/rejected": -0.40397346019744873,
+      "loss": 0.7885,
+      "step": 250
+    },
+    {
+      "beta_dpo/beta": 0.25873419642448425,
+      "beta_dpo/beta_margin_grad_mean": -0.35796087980270386,
+      "beta_dpo/beta_margin_grad_std": 0.3145868182182312,
+      "beta_dpo/beta_margin_mean": 16.468461990356445,
+      "beta_dpo/beta_margin_std": 38.37507629394531,
+      "beta_dpo/beta_used": 0.25873419642448425,
+      "beta_dpo/beta_used_raw": -0.07390487194061279,
+      "beta_dpo/gap_mean": 62.36948013305664,
+      "beta_dpo/gap_std": 82.18414306640625,
+      "beta_dpo/loss_margin_mean": 55.00004959106445,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.368575624082232,
+      "grad_norm": 993.1358032226562,
+      "learning_rate": 3.9963255888117325e-07,
+      "logits/chosen": -0.45881718397140503,
+      "logits/rejected": -0.43461471796035767,
+      "loss": 1.1642,
+      "step": 251
+    },
+    {
+      "beta_dpo/beta": 0.43845975399017334,
+      "beta_dpo/beta_margin_grad_mean": -0.27507588267326355,
+      "beta_dpo/beta_margin_grad_std": 0.2723042070865631,
+      "beta_dpo/beta_margin_mean": 30.300657272338867,
+      "beta_dpo/beta_margin_std": 50.934173583984375,
+      "beta_dpo/beta_used": 0.43845975399017334,
+      "beta_dpo/beta_used_raw": 0.2833039164543152,
+      "beta_dpo/gap_mean": 61.836875915527344,
+      "beta_dpo/gap_std": 78.91354370117188,
+      "beta_dpo/loss_margin_mean": 61.227333068847656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3700440528634361,
+      "grad_norm": 1931.18115234375,
+      "learning_rate": 3.9860251571044666e-07,
+      "logits/chosen": -0.5125927925109863,
+      "logits/rejected": -0.47563207149505615,
+      "loss": 1.6671,
+      "step": 252
+    },
+    {
+      "beta_dpo/beta": 0.13669037818908691,
+      "beta_dpo/beta_margin_grad_mean": -0.31530076265335083,
+      "beta_dpo/beta_margin_grad_std": 0.2846486270427704,
+      "beta_dpo/beta_margin_mean": 11.10105037689209,
+      "beta_dpo/beta_margin_std": 19.28214454650879,
+      "beta_dpo/beta_used": 0.13669037818908691,
+      "beta_dpo/beta_used_raw": -0.5888211727142334,
+      "beta_dpo/gap_mean": 60.489776611328125,
+      "beta_dpo/gap_std": 77.81178283691406,
+      "beta_dpo/loss_margin_mean": 61.38548278808594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.37151248164464024,
+      "grad_norm": 569.2015991210938,
+      "learning_rate": 3.9756855672522986e-07,
+      "logits/chosen": -0.49557358026504517,
+      "logits/rejected": -0.4879855513572693,
+      "loss": 1.364,
+      "step": 253
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4855990707874298,
+      "beta_dpo/beta_margin_grad_std": 0.02238706313073635,
+      "beta_dpo/beta_margin_mean": 0.05776969715952873,
+      "beta_dpo/beta_margin_std": 0.08991079777479172,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.21809083223342896,
+      "beta_dpo/gap_mean": 61.257843017578125,
+      "beta_dpo/gap_std": 80.37059020996094,
+      "beta_dpo/loss_margin_mean": 57.76969528198242,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.37298091042584436,
+      "grad_norm": 4.005491733551025,
+      "learning_rate": 3.965307091713037e-07,
+      "logits/chosen": -0.47500473260879517,
+      "logits/rejected": -0.46256011724472046,
+      "loss": 1.3323,
+      "step": 254
+    },
+    {
+      "beta_dpo/beta": 0.21867026388645172,
+      "beta_dpo/beta_margin_grad_mean": -0.3410184681415558,
+      "beta_dpo/beta_margin_grad_std": 0.3134188652038574,
+      "beta_dpo/beta_margin_mean": 18.47532844543457,
+      "beta_dpo/beta_margin_std": 37.53182601928711,
+      "beta_dpo/beta_used": 0.21867026388645172,
+      "beta_dpo/beta_used_raw": -0.4761512279510498,
+      "beta_dpo/gap_mean": 61.839927673339844,
+      "beta_dpo/gap_std": 83.36296844482422,
+      "beta_dpo/loss_margin_mean": 60.37783432006836,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3744493392070485,
+      "grad_norm": 1103.354248046875,
+      "learning_rate": 3.954890003969163e-07,
+      "logits/chosen": -0.4370883107185364,
+      "logits/rejected": -0.4320235848426819,
+      "loss": 2.8414,
+      "step": 255
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48553693294525146,
+      "beta_dpo/beta_margin_grad_std": 0.021008189767599106,
+      "beta_dpo/beta_margin_mean": 0.05798688158392906,
+      "beta_dpo/beta_margin_std": 0.08430825173854828,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7590247988700867,
+      "beta_dpo/gap_mean": 60.238243103027344,
+      "beta_dpo/gap_std": 83.42945861816406,
+      "beta_dpo/loss_margin_mean": 57.98687744140625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.37591776798825255,
+      "grad_norm": 5.088190078735352,
+      "learning_rate": 3.944434578520628e-07,
+      "logits/chosen": -0.43487805128097534,
+      "logits/rejected": -0.4386810064315796,
+      "loss": 1.3417,
+      "step": 256
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48144304752349854,
+      "beta_dpo/beta_margin_grad_std": 0.024765780195593834,
+      "beta_dpo/beta_margin_mean": 0.07454907149076462,
+      "beta_dpo/beta_margin_std": 0.09976498037576675,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.8660670518875122,
+      "beta_dpo/gap_mean": 63.066001892089844,
+      "beta_dpo/gap_std": 86.74974060058594,
+      "beta_dpo/loss_margin_mean": 74.549072265625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.37738619676945667,
+      "grad_norm": 4.403605937957764,
+      "learning_rate": 3.933941090877615e-07,
+      "logits/chosen": -0.4413556456565857,
+      "logits/rejected": -0.42769724130630493,
+      "loss": 1.3407,
+      "step": 257
+    },
+    {
+      "beta_dpo/beta": 0.8561594486236572,
+      "beta_dpo/beta_margin_grad_mean": -0.24124778807163239,
+      "beta_dpo/beta_margin_grad_std": 0.42249229550361633,
+      "beta_dpo/beta_margin_mean": 54.67416000366211,
+      "beta_dpo/beta_margin_std": 84.30635070800781,
+      "beta_dpo/beta_used": 0.8561594486236572,
+      "beta_dpo/beta_used_raw": 0.8561594486236572,
+      "beta_dpo/gap_mean": 62.323787689208984,
+      "beta_dpo/gap_std": 87.7547607421875,
+      "beta_dpo/loss_margin_mean": 63.648921966552734,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3788546255506608,
+      "grad_norm": 3212.95654296875,
+      "learning_rate": 3.923409817553284e-07,
+      "logits/chosen": -0.39796602725982666,
+      "logits/rejected": -0.39811059832572937,
+      "loss": 6.21,
+      "step": 258
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48512884974479675,
+      "beta_dpo/beta_margin_grad_std": 0.02116353064775467,
+      "beta_dpo/beta_margin_mean": 0.05964351072907448,
+      "beta_dpo/beta_margin_std": 0.08494514971971512,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.3002283573150635,
+      "beta_dpo/gap_mean": 62.94316864013672,
+      "beta_dpo/gap_std": 88.68659973144531,
+      "beta_dpo/loss_margin_mean": 59.64350891113281,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3803230543318649,
+      "grad_norm": 5.502564430236816,
+      "learning_rate": 3.9128410360564793e-07,
+      "logits/chosen": -0.45921239256858826,
+      "logits/rejected": -0.4577338993549347,
+      "loss": 1.3481,
+      "step": 259
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48271456360816956,
+      "beta_dpo/beta_margin_grad_std": 0.022007808089256287,
+      "beta_dpo/beta_margin_mean": 0.06942640990018845,
+      "beta_dpo/beta_margin_std": 0.08899199217557907,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.4817598760128021,
+      "beta_dpo/gap_mean": 62.76177215576172,
+      "beta_dpo/gap_std": 87.07768249511719,
+      "beta_dpo/loss_margin_mean": 69.42640686035156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.38179148311306904,
+      "grad_norm": 6.234367847442627,
+      "learning_rate": 3.9022350248844246e-07,
+      "logits/chosen": -0.42374077439308167,
+      "logits/rejected": -0.44464540481567383,
+      "loss": 1.3345,
+      "step": 260
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48329126834869385,
+      "beta_dpo/beta_margin_grad_std": 0.022538091987371445,
+      "beta_dpo/beta_margin_mean": 0.06707046180963516,
+      "beta_dpo/beta_margin_std": 0.09085685759782791,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.943615198135376,
+      "beta_dpo/gap_mean": 64.44114685058594,
+      "beta_dpo/gap_std": 89.06988525390625,
+      "beta_dpo/loss_margin_mean": 67.0704574584961,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3832599118942731,
+      "grad_norm": 4.799732208251953,
+      "learning_rate": 3.891592063515376e-07,
+      "logits/chosen": -0.3694385290145874,
+      "logits/rejected": -0.3720252513885498,
+      "loss": 1.3409,
+      "step": 261
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4851832985877991,
+      "beta_dpo/beta_margin_grad_std": 0.018579039722681046,
+      "beta_dpo/beta_margin_mean": 0.05938103049993515,
+      "beta_dpo/beta_margin_std": 0.07453680038452148,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.3785286545753479,
+      "beta_dpo/gap_mean": 63.341896057128906,
+      "beta_dpo/gap_std": 86.87582397460938,
+      "beta_dpo/loss_margin_mean": 59.38102722167969,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.38472834067547723,
+      "grad_norm": 4.288631916046143,
+      "learning_rate": 3.880912432401264e-07,
+      "logits/chosen": -0.3830975890159607,
+      "logits/rejected": -0.3654525876045227,
+      "loss": 1.3326,
+      "step": 262
+    },
+    {
+      "beta_dpo/beta": 0.7164207696914673,
+      "beta_dpo/beta_margin_grad_mean": -0.31974849104881287,
+      "beta_dpo/beta_margin_grad_std": 0.30375197529792786,
+      "beta_dpo/beta_margin_mean": 71.56385803222656,
+      "beta_dpo/beta_margin_std": 131.27561950683594,
+      "beta_dpo/beta_used": 0.7164207696914673,
+      "beta_dpo/beta_used_raw": 0.651368260383606,
+      "beta_dpo/gap_mean": 66.71192932128906,
+      "beta_dpo/gap_std": 88.3709487915039,
+      "beta_dpo/loss_margin_mean": 81.06204986572266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.38619676945668135,
+      "grad_norm": 1847.1041259765625,
+      "learning_rate": 3.870196412960302e-07,
+      "logits/chosen": -0.43336668610572815,
+      "logits/rejected": -0.40536999702453613,
+      "loss": 3.3255,
+      "step": 263
+    },
+    {
+      "beta_dpo/beta": 0.32210445404052734,
+      "beta_dpo/beta_margin_grad_mean": -0.3196498155593872,
+      "beta_dpo/beta_margin_grad_std": 0.2992617189884186,
+      "beta_dpo/beta_margin_mean": 26.927030563354492,
+      "beta_dpo/beta_margin_std": 47.48490524291992,
+      "beta_dpo/beta_used": 0.32210445404052734,
+      "beta_dpo/beta_used_raw": -0.5231786966323853,
+      "beta_dpo/gap_mean": 66.88683319091797,
+      "beta_dpo/gap_std": 88.364501953125,
+      "beta_dpo/loss_margin_mean": 62.8607292175293,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3876651982378855,
+      "grad_norm": 1272.9935302734375,
+      "learning_rate": 3.8594442875695665e-07,
+      "logits/chosen": -0.47683650255203247,
+      "logits/rejected": -0.4689565896987915,
+      "loss": 3.0123,
+      "step": 264
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4836253225803375,
+      "beta_dpo/beta_margin_grad_std": 0.024147428572177887,
+      "beta_dpo/beta_margin_mean": 0.06574657559394836,
+      "beta_dpo/beta_margin_std": 0.097164586186409,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7309384942054749,
+      "beta_dpo/gap_mean": 65.43952941894531,
+      "beta_dpo/gap_std": 89.35261535644531,
+      "beta_dpo/loss_margin_mean": 65.74657440185547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3891336270190896,
+      "grad_norm": 5.106090545654297,
+      "learning_rate": 3.848656339557562e-07,
+      "logits/chosen": -0.44355565309524536,
+      "logits/rejected": -0.42892855405807495,
+      "loss": 1.3367,
+      "step": 265
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48562902212142944,
+      "beta_dpo/beta_margin_grad_std": 0.02202366106212139,
+      "beta_dpo/beta_margin_mean": 0.05766104906797409,
+      "beta_dpo/beta_margin_std": 0.08847023546695709,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.3030107021331787,
+      "beta_dpo/gap_mean": 64.68086242675781,
+      "beta_dpo/gap_std": 90.58798217773438,
+      "beta_dpo/loss_margin_mean": 57.66104507446289,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.39060205580029367,
+      "grad_norm": 3.584993362426758,
+      "learning_rate": 3.8378328531967507e-07,
+      "logits/chosen": -0.5003777146339417,
+      "logits/rejected": -0.4550362229347229,
+      "loss": 1.3305,
+      "step": 266
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4839051365852356,
+      "beta_dpo/beta_margin_grad_std": 0.021753991022706032,
+      "beta_dpo/beta_margin_mean": 0.06459161639213562,
+      "beta_dpo/beta_margin_std": 0.08754534274339676,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.679577112197876,
+      "beta_dpo/gap_mean": 64.24443817138672,
+      "beta_dpo/gap_std": 89.84454345703125,
+      "beta_dpo/loss_margin_mean": 64.59161376953125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3920704845814978,
+      "grad_norm": 5.026149272918701,
+      "learning_rate": 3.8269741136960646e-07,
+      "logits/chosen": -0.46633046865463257,
+      "logits/rejected": -0.4374736547470093,
+      "loss": 1.3368,
+      "step": 267
+    },
+    {
+      "beta_dpo/beta": 0.4272679090499878,
+      "beta_dpo/beta_margin_grad_mean": -0.3774115741252899,
+      "beta_dpo/beta_margin_grad_std": 0.3255773186683655,
+      "beta_dpo/beta_margin_mean": 26.88530731201172,
+      "beta_dpo/beta_margin_std": 64.07011413574219,
+      "beta_dpo/beta_used": 0.4272679090499878,
+      "beta_dpo/beta_used_raw": 0.28859809041023254,
+      "beta_dpo/gap_mean": 64.24163055419922,
+      "beta_dpo/gap_std": 89.63772583007812,
+      "beta_dpo/loss_margin_mean": 64.2711410522461,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3935389133627019,
+      "grad_norm": 2970.7353515625,
+      "learning_rate": 3.8160804071933894e-07,
+      "logits/chosen": -0.4358275532722473,
+      "logits/rejected": -0.44389188289642334,
+      "loss": 5.9535,
+      "step": 268
+    },
+    {
+      "beta_dpo/beta": 0.7696582078933716,
+      "beta_dpo/beta_margin_grad_mean": -0.31902071833610535,
+      "beta_dpo/beta_margin_grad_std": 0.45872315764427185,
+      "beta_dpo/beta_margin_mean": 70.0230484008789,
+      "beta_dpo/beta_margin_std": 98.9859390258789,
+      "beta_dpo/beta_used": 0.7696582078933716,
+      "beta_dpo/beta_used_raw": 0.7696582078933716,
+      "beta_dpo/gap_mean": 67.56047821044922,
+      "beta_dpo/gap_std": 95.0364990234375,
+      "beta_dpo/loss_margin_mean": 89.27982330322266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.39500734214390604,
+      "grad_norm": 6386.1025390625,
+      "learning_rate": 3.8051520207480204e-07,
+      "logits/chosen": -0.4257703721523285,
+      "logits/rejected": -0.40664464235305786,
+      "loss": 17.9159,
+      "step": 269
+    },
+    {
+      "beta_dpo/beta": 0.31599855422973633,
+      "beta_dpo/beta_margin_grad_mean": -0.1990150511264801,
+      "beta_dpo/beta_margin_grad_std": 0.38719597458839417,
+      "beta_dpo/beta_margin_mean": 21.739652633666992,
+      "beta_dpo/beta_margin_std": 33.68879318237305,
+      "beta_dpo/beta_used": 0.31599855422973633,
+      "beta_dpo/beta_used_raw": 0.31599855422973633,
+      "beta_dpo/gap_mean": 68.88189697265625,
+      "beta_dpo/gap_std": 98.04679870605469,
+      "beta_dpo/loss_margin_mean": 69.03794860839844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.3964757709251101,
+      "grad_norm": 782.6886596679688,
+      "learning_rate": 3.794189242333106e-07,
+      "logits/chosen": -0.5228564739227295,
+      "logits/rejected": -0.5192960500717163,
+      "loss": 2.5132,
+      "step": 270
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48039206862449646,
+      "beta_dpo/beta_margin_grad_std": 0.026033930480480194,
+      "beta_dpo/beta_margin_mean": 0.07876794040203094,
+      "beta_dpo/beta_margin_std": 0.10474507510662079,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6152107119560242,
+      "beta_dpo/gap_mean": 70.80068969726562,
+      "beta_dpo/gap_std": 99.597412109375,
+      "beta_dpo/loss_margin_mean": 78.76793670654297,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.39794419970631423,
+      "grad_norm": 5.687714576721191,
+      "learning_rate": 3.7831923608280514e-07,
+      "logits/chosen": -0.45079296827316284,
+      "logits/rejected": -0.4350966811180115,
+      "loss": 1.3298,
+      "step": 271
+    },
+    {
+      "beta_dpo/beta": 0.2916773557662964,
+      "beta_dpo/beta_margin_grad_mean": -0.34444308280944824,
+      "beta_dpo/beta_margin_grad_std": 0.3155882954597473,
+      "beta_dpo/beta_margin_mean": 26.473766326904297,
+      "beta_dpo/beta_margin_std": 43.10868835449219,
+      "beta_dpo/beta_used": 0.2916773557662964,
+      "beta_dpo/beta_used_raw": 0.21146634221076965,
+      "beta_dpo/gap_mean": 74.29582214355469,
+      "beta_dpo/gap_std": 98.69171905517578,
+      "beta_dpo/loss_margin_mean": 96.75138854980469,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.39941262848751835,
+      "grad_norm": 3469.978759765625,
+      "learning_rate": 3.772161666010912e-07,
+      "logits/chosen": -0.4280936121940613,
+      "logits/rejected": -0.4439089596271515,
+      "loss": 2.403,
+      "step": 272
+    },
+    {
+      "beta_dpo/beta": 0.4497944712638855,
+      "beta_dpo/beta_margin_grad_mean": -0.30444207787513733,
+      "beta_dpo/beta_margin_grad_std": 0.294939249753952,
+      "beta_dpo/beta_margin_mean": 40.1925048828125,
+      "beta_dpo/beta_margin_std": 79.06779479980469,
+      "beta_dpo/beta_used": 0.4497944712638855,
+      "beta_dpo/beta_used_raw": -0.13546743988990784,
+      "beta_dpo/gap_mean": 76.61572265625,
+      "beta_dpo/gap_std": 100.23278045654297,
+      "beta_dpo/loss_margin_mean": 77.89697265625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4008810572687225,
+      "grad_norm": 1977.9761962890625,
+      "learning_rate": 3.761097448550755e-07,
+      "logits/chosen": -0.4547615647315979,
+      "logits/rejected": -0.4396814703941345,
+      "loss": 3.9441,
+      "step": 273
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48395276069641113,
+      "beta_dpo/beta_margin_grad_std": 0.021796153858304024,
+      "beta_dpo/beta_margin_mean": 0.06436125934123993,
+      "beta_dpo/beta_margin_std": 0.08749227970838547,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.6583735942840576,
+      "beta_dpo/gap_mean": 73.87464141845703,
+      "beta_dpo/gap_std": 97.98983001708984,
+      "beta_dpo/loss_margin_mean": 64.36125183105469,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4023494860499266,
+      "grad_norm": 4.778660774230957,
+      "learning_rate": 3.75e-07,
+      "logits/chosen": -0.4540286064147949,
+      "logits/rejected": -0.43437108397483826,
+      "loss": 1.3435,
+      "step": 274
+    },
+    {
+      "beta_dpo/beta": 0.3658776581287384,
+      "beta_dpo/beta_margin_grad_mean": -0.30500340461730957,
+      "beta_dpo/beta_margin_grad_std": 0.2937050759792328,
+      "beta_dpo/beta_margin_mean": 28.91089630126953,
+      "beta_dpo/beta_margin_std": 53.39341354370117,
+      "beta_dpo/beta_used": 0.3658776581287384,
+      "beta_dpo/beta_used_raw": -0.2188054919242859,
+      "beta_dpo/gap_mean": 73.8324203491211,
+      "beta_dpo/gap_std": 97.02469635009766,
+      "beta_dpo/loss_margin_mean": 74.46902465820312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.40381791483113066,
+      "grad_norm": 1107.3209228515625,
+      "learning_rate": 3.738869612786737e-07,
+      "logits/chosen": -0.48561912775039673,
+      "logits/rejected": -0.4850524365901947,
+      "loss": 1.4477,
+      "step": 275
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48285502195358276,
+      "beta_dpo/beta_margin_grad_std": 0.027132032439112663,
+      "beta_dpo/beta_margin_mean": 0.06888844817876816,
+      "beta_dpo/beta_margin_std": 0.10926186293363571,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6487220525741577,
+      "beta_dpo/gap_mean": 73.41490173339844,
+      "beta_dpo/gap_std": 99.17544555664062,
+      "beta_dpo/loss_margin_mean": 68.88844299316406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4052863436123348,
+      "grad_norm": 4.309329986572266,
+      "learning_rate": 3.7277065802070204e-07,
+      "logits/chosen": -0.4739760756492615,
+      "logits/rejected": -0.4428936541080475,
+      "loss": 1.328,
+      "step": 276
+    },
+    {
+      "beta_dpo/beta": 0.2809670865535736,
+      "beta_dpo/beta_margin_grad_mean": -0.3351666331291199,
+      "beta_dpo/beta_margin_grad_std": 0.3102318048477173,
+      "beta_dpo/beta_margin_mean": 21.383647918701172,
+      "beta_dpo/beta_margin_std": 38.81602478027344,
+      "beta_dpo/beta_used": 0.2809670865535736,
+      "beta_dpo/beta_used_raw": -0.2556490898132324,
+      "beta_dpo/gap_mean": 71.44065856933594,
+      "beta_dpo/gap_std": 96.77009582519531,
+      "beta_dpo/loss_margin_mean": 65.0876693725586,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4067547723935389,
+      "grad_norm": 959.0798950195312,
+      "learning_rate": 3.71651119641714e-07,
+      "logits/chosen": -0.4775172770023346,
+      "logits/rejected": -0.4674876928329468,
+      "loss": 3.3232,
+      "step": 277
+    },
+    {
+      "beta_dpo/beta": 0.09777142852544785,
+      "beta_dpo/beta_margin_grad_mean": -0.3435121774673462,
+      "beta_dpo/beta_margin_grad_std": 0.3006548285484314,
+      "beta_dpo/beta_margin_mean": 9.16122055053711,
+      "beta_dpo/beta_margin_std": 16.98973274230957,
+      "beta_dpo/beta_used": 0.09777142852544785,
+      "beta_dpo/beta_used_raw": -0.4377209544181824,
+      "beta_dpo/gap_mean": 73.7154541015625,
+      "beta_dpo/gap_std": 97.09827423095703,
+      "beta_dpo/loss_margin_mean": 81.99968719482422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.40822320117474303,
+      "grad_norm": 546.0422973632812,
+      "learning_rate": 3.705283756425872e-07,
+      "logits/chosen": -0.5163074731826782,
+      "logits/rejected": -0.5155045390129089,
+      "loss": 1.8696,
+      "step": 278
+    },
+    {
+      "beta_dpo/beta": 0.1939535290002823,
+      "beta_dpo/beta_margin_grad_mean": -0.31403571367263794,
+      "beta_dpo/beta_margin_grad_std": 0.2941286265850067,
+      "beta_dpo/beta_margin_mean": 18.408206939697266,
+      "beta_dpo/beta_margin_std": 33.89780807495117,
+      "beta_dpo/beta_used": 0.1939535290002823,
+      "beta_dpo/beta_used_raw": -0.6678704023361206,
+      "beta_dpo/gap_mean": 75.48173522949219,
+      "beta_dpo/gap_std": 98.2899169921875,
+      "beta_dpo/loss_margin_mean": 83.40555572509766,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.40969162995594716,
+      "grad_norm": 677.2081909179688,
+      "learning_rate": 3.6940245560867e-07,
+      "logits/chosen": -0.4336978495121002,
+      "logits/rejected": -0.42833346128463745,
+      "loss": 2.2112,
+      "step": 279
+    },
+    {
+      "beta_dpo/beta": 0.5752575993537903,
+      "beta_dpo/beta_margin_grad_mean": -0.13274730741977692,
+      "beta_dpo/beta_margin_grad_std": 0.31232884526252747,
+      "beta_dpo/beta_margin_mean": 43.74085235595703,
+      "beta_dpo/beta_margin_std": 54.59124755859375,
+      "beta_dpo/beta_used": 0.5752575993537903,
+      "beta_dpo/beta_used_raw": 0.5752575993537903,
+      "beta_dpo/gap_mean": 75.63088989257812,
+      "beta_dpo/gap_std": 95.76606750488281,
+      "beta_dpo/loss_margin_mean": 77.03679656982422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4111600587371512,
+      "grad_norm": 373.3504943847656,
+      "learning_rate": 3.6827338920900253e-07,
+      "logits/chosen": -0.4546999931335449,
+      "logits/rejected": -0.45433032512664795,
+      "loss": 0.6316,
+      "step": 280
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.483308345079422,
+      "beta_dpo/beta_margin_grad_std": 0.020045718178153038,
+      "beta_dpo/beta_margin_mean": 0.06684371829032898,
+      "beta_dpo/beta_margin_std": 0.0805417075753212,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.12925973534584045,
+      "beta_dpo/gap_mean": 73.92355346679688,
+      "beta_dpo/gap_std": 93.38307189941406,
+      "beta_dpo/loss_margin_mean": 66.84371185302734,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.41262848751835535,
+      "grad_norm": 8.058195114135742,
+      "learning_rate": 3.6714120619553435e-07,
+      "logits/chosen": -0.49369382858276367,
+      "logits/rejected": -0.46913886070251465,
+      "loss": 1.3182,
+      "step": 281
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48673728108406067,
+      "beta_dpo/beta_margin_grad_std": 0.019268635660409927,
+      "beta_dpo/beta_margin_mean": 0.05318976566195488,
+      "beta_dpo/beta_margin_std": 0.07743314653635025,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.6386913061141968,
+      "beta_dpo/gap_mean": 70.5438003540039,
+      "beta_dpo/gap_std": 89.866455078125,
+      "beta_dpo/loss_margin_mean": 53.189762115478516,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.41409691629955947,
+      "grad_norm": 3.629554033279419,
+      "learning_rate": 3.660059364023408e-07,
+      "logits/chosen": -0.5274136066436768,
+      "logits/rejected": -0.5010647773742676,
+      "loss": 1.346,
+      "step": 282
+    },
+    {
+      "beta_dpo/beta": 0.838965654373169,
+      "beta_dpo/beta_margin_grad_mean": -0.12155988812446594,
+      "beta_dpo/beta_margin_grad_std": 0.31926241517066956,
+      "beta_dpo/beta_margin_mean": 74.75791931152344,
+      "beta_dpo/beta_margin_std": 82.98445892333984,
+      "beta_dpo/beta_used": 0.838965654373169,
+      "beta_dpo/beta_used_raw": 0.838965654373169,
+      "beta_dpo/gap_mean": 71.56987762451172,
+      "beta_dpo/gap_std": 89.52423095703125,
+      "beta_dpo/loss_margin_mean": 84.6165771484375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4155653450807636,
+      "grad_norm": 462.5566711425781,
+      "learning_rate": 3.6486760974483685e-07,
+      "logits/chosen": -0.49745476245880127,
+      "logits/rejected": -0.48693162202835083,
+      "loss": 1.5468,
+      "step": 283
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47972315549850464,
+      "beta_dpo/beta_margin_grad_std": 0.02312047965824604,
+      "beta_dpo/beta_margin_mean": 0.08142410963773727,
+      "beta_dpo/beta_margin_std": 0.0932619571685791,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.19312117993831635,
+      "beta_dpo/gap_mean": 74.1982650756836,
+      "beta_dpo/gap_std": 90.27053833007812,
+      "beta_dpo/loss_margin_mean": 81.42410278320312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4170337738619677,
+      "grad_norm": 6.851167678833008,
+      "learning_rate": 3.6372625621898863e-07,
+      "logits/chosen": -0.5042980313301086,
+      "logits/rejected": -0.4991450905799866,
+      "loss": 1.3195,
+      "step": 284
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48195090889930725,
+      "beta_dpo/beta_margin_grad_std": 0.0216471329331398,
+      "beta_dpo/beta_margin_mean": 0.07239013910293579,
+      "beta_dpo/beta_margin_std": 0.08699988573789597,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.30619388818740845,
+      "beta_dpo/gap_mean": 73.66974639892578,
+      "beta_dpo/gap_std": 90.04093933105469,
+      "beta_dpo/loss_margin_mean": 72.39013671875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4185022026431718,
+      "grad_norm": 7.985069274902344,
+      "learning_rate": 3.625819059005228e-07,
+      "logits/chosen": -0.4940687417984009,
+      "logits/rejected": -0.48543840646743774,
+      "loss": 1.3215,
+      "step": 285
+    },
+    {
+      "beta_dpo/beta": 0.07317624241113663,
+      "beta_dpo/beta_margin_grad_mean": -0.3578983247280121,
+      "beta_dpo/beta_margin_grad_std": 0.3003653585910797,
+      "beta_dpo/beta_margin_mean": 5.437658786773682,
+      "beta_dpo/beta_margin_std": 11.020866394042969,
+      "beta_dpo/beta_used": 0.07317624241113663,
+      "beta_dpo/beta_used_raw": -0.39668411016464233,
+      "beta_dpo/gap_mean": 74.31663513183594,
+      "beta_dpo/gap_std": 90.61752319335938,
+      "beta_dpo/loss_margin_mean": 73.65949249267578,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4199706314243759,
+      "grad_norm": 274.8042907714844,
+      "learning_rate": 3.614345889441346e-07,
+      "logits/chosen": -0.4832392930984497,
+      "logits/rejected": -0.46001118421554565,
+      "loss": 1.2468,
+      "step": 286
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48475971817970276,
+      "beta_dpo/beta_margin_grad_std": 0.022152835503220558,
+      "beta_dpo/beta_margin_mean": 0.061166539788246155,
+      "beta_dpo/beta_margin_std": 0.08909157663583755,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9690273404121399,
+      "beta_dpo/gap_mean": 72.43344116210938,
+      "beta_dpo/gap_std": 90.36245727539062,
+      "beta_dpo/loss_margin_mean": 61.16653823852539,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.42143906020558003,
+      "grad_norm": 4.072757720947266,
+      "learning_rate": 3.6028433558269275e-07,
+      "logits/chosen": -0.46784478425979614,
+      "logits/rejected": -0.44443923234939575,
+      "loss": 1.3334,
+      "step": 287
+    },
+    {
+      "beta_dpo/beta": 0.7897164821624756,
+      "beta_dpo/beta_margin_grad_mean": -0.3040521442890167,
+      "beta_dpo/beta_margin_grad_std": 0.2914998233318329,
+      "beta_dpo/beta_margin_mean": 85.403076171875,
+      "beta_dpo/beta_margin_std": 137.9335479736328,
+      "beta_dpo/beta_used": 0.7897164821624756,
+      "beta_dpo/beta_used_raw": 0.6619566082954407,
+      "beta_dpo/gap_mean": 74.12348937988281,
+      "beta_dpo/gap_std": 91.28290557861328,
+      "beta_dpo/loss_margin_mean": 79.14554595947266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.42290748898678415,
+      "grad_norm": 2659.9658203125,
+      "learning_rate": 3.5913117612644327e-07,
+      "logits/chosen": -0.44504302740097046,
+      "logits/rejected": -0.4315459430217743,
+      "loss": 1.2203,
+      "step": 288
+    },
+    {
+      "beta_dpo/beta": 0.629094123840332,
+      "beta_dpo/beta_margin_grad_mean": -0.3004843592643738,
+      "beta_dpo/beta_margin_grad_std": 0.28447577357292175,
+      "beta_dpo/beta_margin_mean": 68.1593246459961,
+      "beta_dpo/beta_margin_std": 111.16494750976562,
+      "beta_dpo/beta_used": 0.629094123840332,
+      "beta_dpo/beta_used_raw": -0.10066229104995728,
+      "beta_dpo/gap_mean": 74.27970886230469,
+      "beta_dpo/gap_std": 92.71040344238281,
+      "beta_dpo/loss_margin_mean": 88.7456283569336,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4243759177679883,
+      "grad_norm": 1766.22216796875,
+      "learning_rate": 3.5797514096221024e-07,
+      "logits/chosen": -0.35877037048339844,
+      "logits/rejected": -0.3598015010356903,
+      "loss": 2.5223,
+      "step": 289
+    },
+    {
+      "beta_dpo/beta": 0.4477105140686035,
+      "beta_dpo/beta_margin_grad_mean": -0.3150025010108948,
+      "beta_dpo/beta_margin_grad_std": 0.30229073762893677,
+      "beta_dpo/beta_margin_mean": 46.98125076293945,
+      "beta_dpo/beta_margin_std": 88.1680908203125,
+      "beta_dpo/beta_used": 0.4477105140686035,
+      "beta_dpo/beta_used_raw": -0.1657930314540863,
+      "beta_dpo/gap_mean": 80.18174743652344,
+      "beta_dpo/gap_std": 98.11917877197266,
+      "beta_dpo/loss_margin_mean": 104.16016387939453,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.42584434654919234,
+      "grad_norm": 1004.2230224609375,
+      "learning_rate": 3.568162605525952e-07,
+      "logits/chosen": -0.3618127703666687,
+      "logits/rejected": -0.38121217489242554,
+      "loss": 3.118,
+      "step": 290
+    },
+    {
+      "beta_dpo/beta": 0.3404870629310608,
+      "beta_dpo/beta_margin_grad_mean": -0.2316586971282959,
+      "beta_dpo/beta_margin_grad_std": 0.40322452783584595,
+      "beta_dpo/beta_margin_mean": 25.296192169189453,
+      "beta_dpo/beta_margin_std": 31.709936141967773,
+      "beta_dpo/beta_used": 0.3404870629310608,
+      "beta_dpo/beta_used_raw": 0.3404870629310608,
+      "beta_dpo/gap_mean": 79.38957214355469,
+      "beta_dpo/gap_std": 99.54486083984375,
+      "beta_dpo/loss_margin_mean": 72.23591613769531,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.42731277533039647,
+      "grad_norm": 952.44775390625,
+      "learning_rate": 3.5565456543517485e-07,
+      "logits/chosen": -0.42019423842430115,
+      "logits/rejected": -0.40653547644615173,
+      "loss": 2.0799,
+      "step": 291
+    },
+    {
+      "beta_dpo/beta": 0.12015949934720993,
+      "beta_dpo/beta_margin_grad_mean": -0.33290329575538635,
+      "beta_dpo/beta_margin_grad_std": 0.30069440603256226,
+      "beta_dpo/beta_margin_mean": 10.655224800109863,
+      "beta_dpo/beta_margin_std": 21.715547561645508,
+      "beta_dpo/beta_used": 0.12015949934720993,
+      "beta_dpo/beta_used_raw": -0.7626643776893616,
+      "beta_dpo/gap_mean": 79.20477294921875,
+      "beta_dpo/gap_std": 100.69721984863281,
+      "beta_dpo/loss_margin_mean": 78.73019409179688,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4287812041116006,
+      "grad_norm": 439.33978271484375,
+      "learning_rate": 3.5449008622169583e-07,
+      "logits/chosen": -0.3626874089241028,
+      "logits/rejected": -0.3548169732093811,
+      "loss": 1.6587,
+      "step": 292
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4831177890300751,
+      "beta_dpo/beta_margin_grad_std": 0.025702647864818573,
+      "beta_dpo/beta_margin_mean": 0.06781422346830368,
+      "beta_dpo/beta_margin_std": 0.10339030623435974,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7132205963134766,
+      "beta_dpo/gap_mean": 77.53086853027344,
+      "beta_dpo/gap_std": 101.82347106933594,
+      "beta_dpo/loss_margin_mean": 67.81421661376953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4302496328928047,
+      "grad_norm": 4.400468349456787,
+      "learning_rate": 3.5332285359726846e-07,
+      "logits/chosen": -0.41298121213912964,
+      "logits/rejected": -0.40352344512939453,
+      "loss": 1.3249,
+      "step": 293
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48102009296417236,
+      "beta_dpo/beta_margin_grad_std": 0.026048097759485245,
+      "beta_dpo/beta_margin_mean": 0.07623665034770966,
+      "beta_dpo/beta_margin_std": 0.10481663793325424,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.2027143239974976,
+      "beta_dpo/gap_mean": 78.0030517578125,
+      "beta_dpo/gap_std": 102.60092163085938,
+      "beta_dpo/loss_margin_mean": 76.23664855957031,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.43171806167400884,
+      "grad_norm": 4.342075347900391,
+      "learning_rate": 3.5215289831955786e-07,
+      "logits/chosen": -0.380662739276886,
+      "logits/rejected": -0.3861265182495117,
+      "loss": 1.3324,
+      "step": 294
+    },
+    {
+      "beta_dpo/beta": 0.2947583496570587,
+      "beta_dpo/beta_margin_grad_mean": -0.40385448932647705,
+      "beta_dpo/beta_margin_grad_std": 0.32800954580307007,
+      "beta_dpo/beta_margin_mean": 19.130741119384766,
+      "beta_dpo/beta_margin_std": 50.656394958496094,
+      "beta_dpo/beta_used": 0.2947583496570587,
+      "beta_dpo/beta_used_raw": 0.05702996253967285,
+      "beta_dpo/gap_mean": 76.71334075927734,
+      "beta_dpo/gap_std": 102.96287536621094,
+      "beta_dpo/loss_margin_mean": 78.26499938964844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4331864904552129,
+      "grad_norm": 1862.5281982421875,
+      "learning_rate": 3.509802512179737e-07,
+      "logits/chosen": -0.37672334909439087,
+      "logits/rejected": -0.3786112368106842,
+      "loss": 8.3528,
+      "step": 295
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48530909419059753,
+      "beta_dpo/beta_margin_grad_std": 0.02513442374765873,
+      "beta_dpo/beta_margin_mean": 0.05899207293987274,
+      "beta_dpo/beta_margin_std": 0.10110720992088318,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.0527881383895874,
+      "beta_dpo/gap_mean": 75.4265365600586,
+      "beta_dpo/gap_std": 102.43699645996094,
+      "beta_dpo/loss_margin_mean": 58.992069244384766,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.434654919236417,
+      "grad_norm": 4.538437366485596,
+      "learning_rate": 3.498049431928577e-07,
+      "logits/chosen": -0.41676008701324463,
+      "logits/rejected": -0.3972277343273163,
+      "loss": 1.3325,
+      "step": 296
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48259493708610535,
+      "beta_dpo/beta_margin_grad_std": 0.022371800616383553,
+      "beta_dpo/beta_margin_mean": 0.06982959061861038,
+      "beta_dpo/beta_margin_std": 0.0898992121219635,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6135008335113525,
+      "beta_dpo/gap_mean": 73.90296936035156,
+      "beta_dpo/gap_std": 100.1375961303711,
+      "beta_dpo/loss_margin_mean": 69.82958984375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.43612334801762115,
+      "grad_norm": 5.51907205581665,
+      "learning_rate": 3.486270052146694e-07,
+      "logits/chosen": -0.35295820236206055,
+      "logits/rejected": -0.3571382761001587,
+      "loss": 1.3264,
+      "step": 297
+    },
+    {
+      "beta_dpo/beta": 0.27431046962738037,
+      "beta_dpo/beta_margin_grad_mean": -0.263118177652359,
+      "beta_dpo/beta_margin_grad_std": 0.33494073152542114,
+      "beta_dpo/beta_margin_mean": 20.479074478149414,
+      "beta_dpo/beta_margin_std": 45.33749008178711,
+      "beta_dpo/beta_used": 0.27431046962738037,
+      "beta_dpo/beta_used_raw": 0.27431046962738037,
+      "beta_dpo/gap_mean": 74.29185485839844,
+      "beta_dpo/gap_std": 102.38994598388672,
+      "beta_dpo/loss_margin_mean": 86.00110626220703,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.43759177679882527,
+      "grad_norm": 738.2294311523438,
+      "learning_rate": 3.474464683231698e-07,
+      "logits/chosen": -0.4162539839744568,
+      "logits/rejected": -0.4425868093967438,
+      "loss": 1.6437,
+      "step": 298
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4808002710342407,
+      "beta_dpo/beta_margin_grad_std": 0.02673073299229145,
+      "beta_dpo/beta_margin_mean": 0.07717499881982803,
+      "beta_dpo/beta_margin_std": 0.10790830105543137,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.10428804159164429,
+      "beta_dpo/gap_mean": 74.65848541259766,
+      "beta_dpo/gap_std": 103.56509399414062,
+      "beta_dpo/loss_margin_mean": 77.17499542236328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4390602055800294,
+      "grad_norm": 5.145935535430908,
+      "learning_rate": 3.462633636266041e-07,
+      "logits/chosen": -0.39493227005004883,
+      "logits/rejected": -0.40073153376579285,
+      "loss": 1.3176,
+      "step": 299
+    },
+    {
+      "beta_dpo/beta": 0.09059438109397888,
+      "beta_dpo/beta_margin_grad_mean": -0.3587842583656311,
+      "beta_dpo/beta_margin_grad_std": 0.31596502661705017,
+      "beta_dpo/beta_margin_mean": 9.376904487609863,
+      "beta_dpo/beta_margin_std": 18.19443702697754,
+      "beta_dpo/beta_used": 0.09059438109397888,
+      "beta_dpo/beta_used_raw": -0.37631434202194214,
+      "beta_dpo/gap_mean": 77.76226806640625,
+      "beta_dpo/gap_std": 109.28889465332031,
+      "beta_dpo/loss_margin_mean": 91.35057830810547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.44052863436123346,
+      "grad_norm": 932.0242919921875,
+      "learning_rate": 3.4507772230088147e-07,
+      "logits/chosen": -0.3533056974411011,
+      "logits/rejected": -0.35223710536956787,
+      "loss": 2.8698,
+      "step": 300
+    },
+    {
+      "epoch": 0.44052863436123346,
+      "eval_beta_dpo/beta": 0.021529680117964745,
+      "eval_beta_dpo/beta_margin_grad_mean": -0.47100841999053955,
+      "eval_beta_dpo/beta_margin_grad_std": 0.05001794174313545,
+      "eval_beta_dpo/beta_margin_mean": 1.7761027812957764,
+      "eval_beta_dpo/beta_margin_std": 2.521554946899414,
+      "eval_beta_dpo/beta_used": 0.021529680117964745,
+      "eval_beta_dpo/beta_used_raw": -1.8358967304229736,
+      "eval_beta_dpo/gap_mean": 79.1242446899414,
+      "eval_beta_dpo/gap_std": 110.1003646850586,
+      "eval_beta_dpo/loss_margin_mean": 46.85930633544922,
+      "eval_beta_dpo/mask_keep_frac": 1.0,
+      "eval_logits/chosen": -0.4178045988082886,
+      "eval_logits/rejected": -0.40100225806236267,
+      "eval_loss": 0.8542339205741882,
+      "eval_runtime": 40.2324,
+      "eval_samples_per_second": 58.137,
+      "eval_steps_per_second": 1.839,
+      "step": 300
+    },
+    {
+      "beta_dpo/beta": 0.2012784332036972,
+      "beta_dpo/beta_margin_grad_mean": -0.31333795189857483,
+      "beta_dpo/beta_margin_grad_std": 0.2758391499519348,
+      "beta_dpo/beta_margin_mean": 21.419300079345703,
+      "beta_dpo/beta_margin_std": 39.65841293334961,
+      "beta_dpo/beta_used": 0.2012784332036972,
+      "beta_dpo/beta_used_raw": 0.05099296569824219,
+      "beta_dpo/gap_mean": 82.58103942871094,
+      "beta_dpo/gap_std": 111.84109497070312,
+      "beta_dpo/loss_margin_mean": 101.39947509765625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4419970631424376,
+      "grad_norm": 1095.8056640625,
+      "learning_rate": 3.4388957558875316e-07,
+      "logits/chosen": -0.36673691868782043,
+      "logits/rejected": -0.3641397953033447,
+      "loss": 2.4685,
+      "step": 301
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48131224513053894,
+      "beta_dpo/beta_margin_grad_std": 0.028863143175840378,
+      "beta_dpo/beta_margin_mean": 0.07514145970344543,
+      "beta_dpo/beta_margin_std": 0.1161830946803093,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.307005763053894,
+      "beta_dpo/gap_mean": 82.75358581542969,
+      "beta_dpo/gap_std": 113.17562103271484,
+      "beta_dpo/loss_margin_mean": 75.1414566040039,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4434654919236417,
+      "grad_norm": 5.6372833251953125,
+      "learning_rate": 3.426989547989902e-07,
+      "logits/chosen": -0.37512508034706116,
+      "logits/rejected": -0.38196590542793274,
+      "loss": 1.3296,
+      "step": 302
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4821236729621887,
+      "beta_dpo/beta_margin_grad_std": 0.03194034472107887,
+      "beta_dpo/beta_margin_mean": 0.07196322828531265,
+      "beta_dpo/beta_margin_std": 0.12872378528118134,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.7821969985961914,
+      "beta_dpo/gap_mean": 80.88421630859375,
+      "beta_dpo/gap_std": 116.31727600097656,
+      "beta_dpo/loss_margin_mean": 71.96322631835938,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.44493392070484583,
+      "grad_norm": 5.255090236663818,
+      "learning_rate": 3.4150589130555773e-07,
+      "logits/chosen": -0.38791757822036743,
+      "logits/rejected": -0.36933159828186035,
+      "loss": 1.3394,
+      "step": 303
+    },
+    {
+      "beta_dpo/beta": 0.45528510212898254,
+      "beta_dpo/beta_margin_grad_mean": -0.3141389787197113,
+      "beta_dpo/beta_margin_grad_std": 0.2951262891292572,
+      "beta_dpo/beta_margin_mean": 40.59646224975586,
+      "beta_dpo/beta_margin_std": 64.21621704101562,
+      "beta_dpo/beta_used": 0.45528510212898254,
+      "beta_dpo/beta_used_raw": 0.308247447013855,
+      "beta_dpo/gap_mean": 78.1776123046875,
+      "beta_dpo/gap_std": 113.8460693359375,
+      "beta_dpo/loss_margin_mean": 74.2430419921875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.44640234948604995,
+      "grad_norm": 2268.49462890625,
+      "learning_rate": 3.403104165467883e-07,
+      "logits/chosen": -0.42312443256378174,
+      "logits/rejected": -0.4081481993198395,
+      "loss": 2.6158,
+      "step": 304
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47965607047080994,
+      "beta_dpo/beta_margin_grad_std": 0.0331178717315197,
+      "beta_dpo/beta_margin_mean": 0.08205502480268478,
+      "beta_dpo/beta_margin_std": 0.13452649116516113,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.13185091316699982,
+      "beta_dpo/gap_mean": 79.73931884765625,
+      "beta_dpo/gap_std": 116.2216567993164,
+      "beta_dpo/loss_margin_mean": 82.05501556396484,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.447870778267254,
+      "grad_norm": 5.800883769989014,
+      "learning_rate": 3.391125620245535e-07,
+      "logits/chosen": -0.4113423824310303,
+      "logits/rejected": -0.39184314012527466,
+      "loss": 1.3143,
+      "step": 305
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4851844310760498,
+      "beta_dpo/beta_margin_grad_std": 0.02573644183576107,
+      "beta_dpo/beta_margin_mean": 0.05950712412595749,
+      "beta_dpo/beta_margin_std": 0.10371576249599457,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.1865973472595215,
+      "beta_dpo/gap_mean": 76.38526916503906,
+      "beta_dpo/gap_std": 114.24805450439453,
+      "beta_dpo/loss_margin_mean": 59.507118225097656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.44933920704845814,
+      "grad_norm": 5.251987457275391,
+      "learning_rate": 3.3791235930343417e-07,
+      "logits/chosen": -0.400661826133728,
+      "logits/rejected": -0.38528114557266235,
+      "loss": 1.3335,
+      "step": 306
+    },
+    {
+      "beta_dpo/beta": 0.3818568289279938,
+      "beta_dpo/beta_margin_grad_mean": -0.34861063957214355,
+      "beta_dpo/beta_margin_grad_std": 0.32014045119285583,
+      "beta_dpo/beta_margin_mean": 27.862314224243164,
+      "beta_dpo/beta_margin_std": 64.0865249633789,
+      "beta_dpo/beta_used": 0.3818568289279938,
+      "beta_dpo/beta_used_raw": 0.1832038164138794,
+      "beta_dpo/gap_mean": 76.5669937133789,
+      "beta_dpo/gap_std": 113.13117218017578,
+      "beta_dpo/loss_margin_mean": 80.41350555419922,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.45080763582966227,
+      "grad_norm": 1632.386474609375,
+      "learning_rate": 3.367098400098881e-07,
+      "logits/chosen": -0.39632394909858704,
+      "logits/rejected": -0.37825697660446167,
+      "loss": 7.6211,
+      "step": 307
+    },
+    {
+      "beta_dpo/beta": 0.35672301054000854,
+      "beta_dpo/beta_margin_grad_mean": -0.21785807609558105,
+      "beta_dpo/beta_margin_grad_std": 0.3981392979621887,
+      "beta_dpo/beta_margin_mean": 32.29079055786133,
+      "beta_dpo/beta_margin_std": 39.89966583251953,
+      "beta_dpo/beta_used": 0.35672301054000854,
+      "beta_dpo/beta_used_raw": 0.35672301054000854,
+      "beta_dpo/gap_mean": 78.43896484375,
+      "beta_dpo/gap_std": 113.47734069824219,
+      "beta_dpo/loss_margin_mean": 90.54447174072266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4522760646108664,
+      "grad_norm": 1437.0244140625,
+      "learning_rate": 3.355050358314172e-07,
+      "logits/chosen": -0.3438449501991272,
+      "logits/rejected": -0.31777122616767883,
+      "loss": 5.1079,
+      "step": 308
+    },
+    {
+      "beta_dpo/beta": 0.36354923248291016,
+      "beta_dpo/beta_margin_grad_mean": -0.22801323235034943,
+      "beta_dpo/beta_margin_grad_std": 0.36051756143569946,
+      "beta_dpo/beta_margin_mean": 37.24231719970703,
+      "beta_dpo/beta_margin_std": 56.5272102355957,
+      "beta_dpo/beta_used": 0.36354923248291016,
+      "beta_dpo/beta_used_raw": 0.36354923248291016,
+      "beta_dpo/gap_mean": 78.77679443359375,
+      "beta_dpo/gap_std": 111.2503433227539,
+      "beta_dpo/loss_margin_mean": 83.59400177001953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.45374449339207046,
+      "grad_norm": 1346.0263671875,
+      "learning_rate": 3.3429797851573183e-07,
+      "logits/chosen": -0.3582022190093994,
+      "logits/rejected": -0.3475998640060425,
+      "loss": 3.7664,
+      "step": 309
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4826306700706482,
+      "beta_dpo/beta_margin_grad_std": 0.0230739563703537,
+      "beta_dpo/beta_margin_mean": 0.06967519968748093,
+      "beta_dpo/beta_margin_std": 0.09265855699777603,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7171174883842468,
+      "beta_dpo/gap_mean": 78.03067016601562,
+      "beta_dpo/gap_std": 107.44921875,
+      "beta_dpo/loss_margin_mean": 69.67520141601562,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4552129221732746,
+      "grad_norm": 5.082400321960449,
+      "learning_rate": 3.3308869986991487e-07,
+      "logits/chosen": -0.39452001452445984,
+      "logits/rejected": -0.3749483823776245,
+      "loss": 1.3247,
+      "step": 310
+    },
+    {
+      "beta_dpo/beta": 0.2502756416797638,
+      "beta_dpo/beta_margin_grad_mean": -0.40929269790649414,
+      "beta_dpo/beta_margin_grad_std": 0.3354220688343048,
+      "beta_dpo/beta_margin_mean": 23.12792205810547,
+      "beta_dpo/beta_margin_std": 54.33233642578125,
+      "beta_dpo/beta_used": 0.2502756416797638,
+      "beta_dpo/beta_used_raw": -0.058561310172080994,
+      "beta_dpo/gap_mean": 79.78893280029297,
+      "beta_dpo/gap_std": 111.02082824707031,
+      "beta_dpo/loss_margin_mean": 86.99933624267578,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4566813509544787,
+      "grad_norm": 2260.131591796875,
+      "learning_rate": 3.3187723175958346e-07,
+      "logits/chosen": -0.3645089864730835,
+      "logits/rejected": -0.349958598613739,
+      "loss": 6.6088,
+      "step": 311
+    },
+    {
+      "beta_dpo/beta": 0.07158917188644409,
+      "beta_dpo/beta_margin_grad_mean": -0.3369253873825073,
+      "beta_dpo/beta_margin_grad_std": 0.29506799578666687,
+      "beta_dpo/beta_margin_mean": 6.374331474304199,
+      "beta_dpo/beta_margin_std": 13.631952285766602,
+      "beta_dpo/beta_used": 0.07158917188644409,
+      "beta_dpo/beta_used_raw": -0.2892300486564636,
+      "beta_dpo/gap_mean": 79.41765594482422,
+      "beta_dpo/gap_std": 112.60750579833984,
+      "beta_dpo/loss_margin_mean": 79.63638305664062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4581497797356828,
+      "grad_norm": 368.40875244140625,
+      "learning_rate": 3.306636061080487e-07,
+      "logits/chosen": -0.3711026608943939,
+      "logits/rejected": -0.36203962564468384,
+      "loss": 2.0408,
+      "step": 312
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48098939657211304,
+      "beta_dpo/beta_margin_grad_std": 0.025076594203710556,
+      "beta_dpo/beta_margin_mean": 0.07637631893157959,
+      "beta_dpo/beta_margin_std": 0.10121695697307587,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.5578416585922241,
+      "beta_dpo/gap_mean": 78.54216003417969,
+      "beta_dpo/gap_std": 110.89816284179688,
+      "beta_dpo/loss_margin_mean": 76.3763198852539,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.45961820851688695,
+      "grad_norm": 4.683560371398926,
+      "learning_rate": 3.2944785489547537e-07,
+      "logits/chosen": -0.39467549324035645,
+      "logits/rejected": -0.38951510190963745,
+      "loss": 1.321,
+      "step": 313
+    },
+    {
+      "beta_dpo/beta": 0.2938551902770996,
+      "beta_dpo/beta_margin_grad_mean": -0.3812112510204315,
+      "beta_dpo/beta_margin_grad_std": 0.33289316296577454,
+      "beta_dpo/beta_margin_mean": 23.5745906829834,
+      "beta_dpo/beta_margin_std": 54.09528350830078,
+      "beta_dpo/beta_used": 0.2938551902770996,
+      "beta_dpo/beta_used_raw": -0.6258662939071655,
+      "beta_dpo/gap_mean": 79.06829833984375,
+      "beta_dpo/gap_std": 112.64566040039062,
+      "beta_dpo/loss_margin_mean": 75.2780532836914,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.461086637298091,
+      "grad_norm": 1395.1510009765625,
+      "learning_rate": 3.2823001015803857e-07,
+      "logits/chosen": -0.4507661461830139,
+      "logits/rejected": -0.44838911294937134,
+      "loss": 3.7032,
+      "step": 314
+    },
+    {
+      "beta_dpo/beta": 0.2281070500612259,
+      "beta_dpo/beta_margin_grad_mean": -0.34743332862854004,
+      "beta_dpo/beta_margin_grad_std": 0.3025640845298767,
+      "beta_dpo/beta_margin_mean": 16.0867919921875,
+      "beta_dpo/beta_margin_std": 31.88882827758789,
+      "beta_dpo/beta_used": 0.2281070500612259,
+      "beta_dpo/beta_used_raw": -0.3934894800186157,
+      "beta_dpo/gap_mean": 76.99462890625,
+      "beta_dpo/gap_std": 110.44047546386719,
+      "beta_dpo/loss_margin_mean": 66.10765075683594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.46255506607929514,
+      "grad_norm": 879.7577514648438,
+      "learning_rate": 3.270101039870797e-07,
+      "logits/chosen": -0.3693186044692993,
+      "logits/rejected": -0.3700152039527893,
+      "loss": 2.1612,
+      "step": 315
+    },
+    {
+      "beta_dpo/beta": 0.716162919998169,
+      "beta_dpo/beta_margin_grad_mean": -0.17893782258033752,
+      "beta_dpo/beta_margin_grad_std": 0.3721279203891754,
+      "beta_dpo/beta_margin_mean": 75.56684112548828,
+      "beta_dpo/beta_margin_std": 110.35047149658203,
+      "beta_dpo/beta_used": 0.716162919998169,
+      "beta_dpo/beta_used_raw": 0.716162919998169,
+      "beta_dpo/gap_mean": 79.88623046875,
+      "beta_dpo/gap_std": 111.00810241699219,
+      "beta_dpo/loss_margin_mean": 95.93524169921875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.46402349486049926,
+      "grad_norm": 1523.668701171875,
+      "learning_rate": 3.2578816852826086e-07,
+      "logits/chosen": -0.4141780734062195,
+      "logits/rejected": -0.426508367061615,
+      "loss": 2.74,
+      "step": 316
+    },
+    {
+      "beta_dpo/beta": 0.6636589169502258,
+      "beta_dpo/beta_margin_grad_mean": -0.2624233067035675,
+      "beta_dpo/beta_margin_grad_std": 0.2798077166080475,
+      "beta_dpo/beta_margin_mean": 66.06298828125,
+      "beta_dpo/beta_margin_std": 109.42732238769531,
+      "beta_dpo/beta_used": 0.6636589169502258,
+      "beta_dpo/beta_used_raw": 0.6636589169502258,
+      "beta_dpo/gap_mean": 83.21510314941406,
+      "beta_dpo/gap_std": 109.098876953125,
+      "beta_dpo/loss_margin_mean": 105.4694595336914,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4654919236417034,
+      "grad_norm": 2744.883056640625,
+      "learning_rate": 3.2456423598071783e-07,
+      "logits/chosen": -0.43852800130844116,
+      "logits/rejected": -0.4249088168144226,
+      "loss": 7.8427,
+      "step": 317
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4800810217857361,
+      "beta_dpo/beta_margin_grad_std": 0.024429909884929657,
+      "beta_dpo/beta_margin_mean": 0.07998356968164444,
+      "beta_dpo/beta_margin_std": 0.09835181385278702,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7813102602958679,
+      "beta_dpo/gap_mean": 83.25845336914062,
+      "beta_dpo/gap_std": 107.83091735839844,
+      "beta_dpo/loss_margin_mean": 79.98356628417969,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4669603524229075,
+      "grad_norm": 5.620822906494141,
+      "learning_rate": 3.233383385962115e-07,
+      "logits/chosen": -0.4964483976364136,
+      "logits/rejected": -0.46540865302085876,
+      "loss": 1.3202,
+      "step": 318
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4783901572227478,
+      "beta_dpo/beta_margin_grad_std": 0.02400689758360386,
+      "beta_dpo/beta_margin_mean": 0.08676531910896301,
+      "beta_dpo/beta_margin_std": 0.09681374579668045,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.41069674491882324,
+      "beta_dpo/gap_mean": 84.244140625,
+      "beta_dpo/gap_std": 106.17644500732422,
+      "beta_dpo/loss_margin_mean": 86.76531219482422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4684287812041116,
+      "grad_norm": 5.136927604675293,
+      "learning_rate": 3.2211050867827805e-07,
+      "logits/chosen": -0.44059932231903076,
+      "logits/rejected": -0.4612247943878174,
+      "loss": 1.3132,
+      "step": 319
+    },
+    {
+      "beta_dpo/beta": 0.028877759352326393,
+      "beta_dpo/beta_margin_grad_mean": -0.3182305097579956,
+      "beta_dpo/beta_margin_grad_std": 0.24575480818748474,
+      "beta_dpo/beta_margin_mean": 2.645266532897949,
+      "beta_dpo/beta_margin_std": 4.285132884979248,
+      "beta_dpo/beta_used": 0.028877759352326393,
+      "beta_dpo/beta_used_raw": -0.33262649178504944,
+      "beta_dpo/gap_mean": 85.014892578125,
+      "beta_dpo/gap_std": 103.82169342041016,
+      "beta_dpo/loss_margin_mean": 86.08537292480469,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4698972099853157,
+      "grad_norm": 51.687992095947266,
+      "learning_rate": 3.208807785813777e-07,
+      "logits/chosen": -0.4929655194282532,
+      "logits/rejected": -0.4922058582305908,
+      "loss": 0.9036,
+      "step": 320
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4800475537776947,
+      "beta_dpo/beta_margin_grad_std": 0.028980152681469917,
+      "beta_dpo/beta_margin_mean": 0.08030161261558533,
+      "beta_dpo/beta_margin_std": 0.11732209473848343,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.5375549793243408,
+      "beta_dpo/gap_mean": 84.98190307617188,
+      "beta_dpo/gap_std": 106.54576110839844,
+      "beta_dpo/loss_margin_mean": 80.3016128540039,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4713656387665198,
+      "grad_norm": 5.877539157867432,
+      "learning_rate": 3.1964918071004217e-07,
+      "logits/chosen": -0.42156291007995605,
+      "logits/rejected": -0.41359078884124756,
+      "loss": 1.3152,
+      "step": 321
+    },
+    {
+      "beta_dpo/beta": 0.6184810400009155,
+      "beta_dpo/beta_margin_grad_mean": -0.202738955616951,
+      "beta_dpo/beta_margin_grad_std": 0.3781369626522064,
+      "beta_dpo/beta_margin_mean": 58.11309814453125,
+      "beta_dpo/beta_margin_std": 91.10275268554688,
+      "beta_dpo/beta_used": 0.6184810400009155,
+      "beta_dpo/beta_used_raw": 0.6184810400009155,
+      "beta_dpo/gap_mean": 84.80892944335938,
+      "beta_dpo/gap_std": 106.46078491210938,
+      "beta_dpo/loss_margin_mean": 88.51132202148438,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.47283406754772395,
+      "grad_norm": 2252.3525390625,
+      "learning_rate": 3.184157475180207e-07,
+      "logits/chosen": -0.4382587671279907,
+      "logits/rejected": -0.4316785931587219,
+      "loss": 5.5448,
+      "step": 322
+    },
+    {
+      "beta_dpo/beta": 0.09758946299552917,
+      "beta_dpo/beta_margin_grad_mean": -0.3393961191177368,
+      "beta_dpo/beta_margin_grad_std": 0.30425986647605896,
+      "beta_dpo/beta_margin_mean": 9.701543807983398,
+      "beta_dpo/beta_margin_std": 19.077165603637695,
+      "beta_dpo/beta_used": 0.09758946299552917,
+      "beta_dpo/beta_used_raw": -0.6850037574768066,
+      "beta_dpo/gap_mean": 85.3616943359375,
+      "beta_dpo/gap_std": 106.0413818359375,
+      "beta_dpo/loss_margin_mean": 85.88945770263672,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.47430249632892807,
+      "grad_norm": 346.4527282714844,
+      "learning_rate": 3.171805115074251e-07,
+      "logits/chosen": -0.4343454837799072,
+      "logits/rejected": -0.4204588532447815,
+      "loss": 1.375,
+      "step": 323
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48019298911094666,
+      "beta_dpo/beta_margin_grad_std": 0.029619457200169563,
+      "beta_dpo/beta_margin_mean": 0.0796787217259407,
+      "beta_dpo/beta_margin_std": 0.11951327323913574,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.1255923509597778,
+      "beta_dpo/gap_mean": 82.46531677246094,
+      "beta_dpo/gap_std": 104.10604858398438,
+      "beta_dpo/loss_margin_mean": 79.67871856689453,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.47577092511013214,
+      "grad_norm": 6.610962390899658,
+      "learning_rate": 3.1594350522787295e-07,
+      "logits/chosen": -0.44873249530792236,
+      "logits/rejected": -0.4262539744377136,
+      "loss": 1.327,
+      "step": 324
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4845367670059204,
+      "beta_dpo/beta_margin_grad_std": 0.02106996439397335,
+      "beta_dpo/beta_margin_mean": 0.06200973317027092,
+      "beta_dpo/beta_margin_std": 0.08459888398647308,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.2990741729736328,
+      "beta_dpo/gap_mean": 81.02421569824219,
+      "beta_dpo/gap_std": 103.86199951171875,
+      "beta_dpo/loss_margin_mean": 62.00973129272461,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.47723935389133626,
+      "grad_norm": 4.3783674240112305,
+      "learning_rate": 3.147047612756302e-07,
+      "logits/chosen": -0.494614839553833,
+      "logits/rejected": -0.46266597509384155,
+      "loss": 1.3307,
+      "step": 325
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4840051829814911,
+      "beta_dpo/beta_margin_grad_std": 0.022391587495803833,
+      "beta_dpo/beta_margin_mean": 0.06417535245418549,
+      "beta_dpo/beta_margin_std": 0.08998852968215942,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.766413688659668,
+      "beta_dpo/gap_mean": 77.61061096191406,
+      "beta_dpo/gap_std": 99.97056579589844,
+      "beta_dpo/loss_margin_mean": 64.17534637451172,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4787077826725404,
+      "grad_norm": 4.2274274826049805,
+      "learning_rate": 3.134643122927519e-07,
+      "logits/chosen": -0.516798198223114,
+      "logits/rejected": -0.48323750495910645,
+      "loss": 1.3416,
+      "step": 326
+    },
+    {
+      "beta_dpo/beta": 0.5268765687942505,
+      "beta_dpo/beta_margin_grad_mean": -0.19231468439102173,
+      "beta_dpo/beta_margin_grad_std": 0.38571032881736755,
+      "beta_dpo/beta_margin_mean": 54.37653732299805,
+      "beta_dpo/beta_margin_std": 60.839786529541016,
+      "beta_dpo/beta_used": 0.5268765687942505,
+      "beta_dpo/beta_used_raw": 0.5268765687942505,
+      "beta_dpo/gap_mean": 81.72610473632812,
+      "beta_dpo/gap_std": 102.8271713256836,
+      "beta_dpo/loss_margin_mean": 105.36248779296875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4801762114537445,
+      "grad_norm": 2141.1357421875,
+      "learning_rate": 3.1222219096622264e-07,
+      "logits/chosen": -0.436132550239563,
+      "logits/rejected": -0.41571980714797974,
+      "loss": 7.9926,
+      "step": 327
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47792962193489075,
+      "beta_dpo/beta_margin_grad_std": 0.027522550895810127,
+      "beta_dpo/beta_margin_mean": 0.08871802687644958,
+      "beta_dpo/beta_margin_std": 0.1109635978937149,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.8078003525733948,
+      "beta_dpo/gap_mean": 83.3543701171875,
+      "beta_dpo/gap_std": 105.11456298828125,
+      "beta_dpo/loss_margin_mean": 88.71802520751953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.48164464023494863,
+      "grad_norm": 5.572524547576904,
+      "learning_rate": 3.1097843002709427e-07,
+      "logits/chosen": -0.42520958185195923,
+      "logits/rejected": -0.4174392819404602,
+      "loss": 1.3207,
+      "step": 328
+    },
+    {
+      "beta_dpo/beta": 1.0845508575439453,
+      "beta_dpo/beta_margin_grad_mean": -0.1470133364200592,
+      "beta_dpo/beta_margin_grad_std": 0.3484492897987366,
+      "beta_dpo/beta_margin_mean": 114.5302505493164,
+      "beta_dpo/beta_margin_std": 163.5399627685547,
+      "beta_dpo/beta_used": 1.0845508575439453,
+      "beta_dpo/beta_used_raw": 1.0845508575439453,
+      "beta_dpo/gap_mean": 87.77429962158203,
+      "beta_dpo/gap_std": 108.42816162109375,
+      "beta_dpo/loss_margin_mean": 109.0322265625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4831130690161527,
+      "grad_norm": 3878.8359375,
+      "learning_rate": 3.0973306224962437e-07,
+      "logits/chosen": -0.3832947015762329,
+      "logits/rejected": -0.36104413866996765,
+      "loss": 12.0021,
+      "step": 329
+    },
+    {
+      "beta_dpo/beta": 0.020872846245765686,
+      "beta_dpo/beta_margin_grad_mean": -0.356696754693985,
+      "beta_dpo/beta_margin_grad_std": 0.2544516921043396,
+      "beta_dpo/beta_margin_mean": 2.022984027862549,
+      "beta_dpo/beta_margin_std": 3.9013209342956543,
+      "beta_dpo/beta_used": 0.020872846245765686,
+      "beta_dpo/beta_used_raw": -0.501742959022522,
+      "beta_dpo/gap_mean": 89.45821380615234,
+      "beta_dpo/gap_std": 113.25923156738281,
+      "beta_dpo/loss_margin_mean": 98.53221893310547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4845814977973568,
+      "grad_norm": 94.45597839355469,
+      "learning_rate": 3.084861204504122e-07,
+      "logits/chosen": -0.3601895570755005,
+      "logits/rejected": -0.36258891224861145,
+      "loss": 1.1195,
+      "step": 330
+    },
+    {
+      "beta_dpo/beta": 0.3303714692592621,
+      "beta_dpo/beta_margin_grad_mean": -0.3008911907672882,
+      "beta_dpo/beta_margin_grad_std": 0.292959600687027,
+      "beta_dpo/beta_margin_mean": 34.38044357299805,
+      "beta_dpo/beta_margin_std": 57.2767333984375,
+      "beta_dpo/beta_used": 0.3303714692592621,
+      "beta_dpo/beta_used_raw": 0.10756845772266388,
+      "beta_dpo/gap_mean": 91.51332092285156,
+      "beta_dpo/gap_std": 111.50447082519531,
+      "beta_dpo/loss_margin_mean": 98.58274841308594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.48604992657856094,
+      "grad_norm": 4.018616199493408,
+      "learning_rate": 3.072376374875335e-07,
+      "logits/chosen": -0.40397077798843384,
+      "logits/rejected": -0.3952021598815918,
+      "loss": 0.6532,
+      "step": 331
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48232200741767883,
+      "beta_dpo/beta_margin_grad_std": 0.023256592452526093,
+      "beta_dpo/beta_margin_mean": 0.07096298784017563,
+      "beta_dpo/beta_margin_std": 0.0935334786772728,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.294619083404541,
+      "beta_dpo/gap_mean": 88.39376831054688,
+      "beta_dpo/gap_std": 107.6720962524414,
+      "beta_dpo/loss_margin_mean": 70.96298217773438,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.48751835535976507,
+      "grad_norm": 5.169561386108398,
+      "learning_rate": 3.059876462596758e-07,
+      "logits/chosen": -0.42340922355651855,
+      "logits/rejected": -0.4118001163005829,
+      "loss": 1.3397,
+      "step": 332
+    },
+    {
+      "beta_dpo/beta": 0.9148516654968262,
+      "beta_dpo/beta_margin_grad_mean": -0.34807515144348145,
+      "beta_dpo/beta_margin_grad_std": 0.3170374631881714,
+      "beta_dpo/beta_margin_mean": 111.1144790649414,
+      "beta_dpo/beta_margin_std": 201.45445251464844,
+      "beta_dpo/beta_used": 0.9148516654968262,
+      "beta_dpo/beta_used_raw": 0.4829646050930023,
+      "beta_dpo/gap_mean": 90.23367309570312,
+      "beta_dpo/gap_std": 110.23046875,
+      "beta_dpo/loss_margin_mean": 97.64309692382812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4889867841409692,
+      "grad_norm": 6724.30078125,
+      "learning_rate": 3.0473617970527015e-07,
+      "logits/chosen": -0.41021233797073364,
+      "logits/rejected": -0.4079732298851013,
+      "loss": 7.7022,
+      "step": 333
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47854748368263245,
+      "beta_dpo/beta_margin_grad_std": 0.028062039986252785,
+      "beta_dpo/beta_margin_mean": 0.08618205785751343,
+      "beta_dpo/beta_margin_std": 0.11291919648647308,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.775077760219574,
+      "beta_dpo/gap_mean": 88.88426208496094,
+      "beta_dpo/gap_std": 111.89533996582031,
+      "beta_dpo/loss_margin_mean": 86.18205261230469,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.49045521292217326,
+      "grad_norm": 5.3802080154418945,
+      "learning_rate": 3.034832708016243e-07,
+      "logits/chosen": -0.45664849877357483,
+      "logits/rejected": -0.44416582584381104,
+      "loss": 1.3155,
+      "step": 334
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48350557684898376,
+      "beta_dpo/beta_margin_grad_std": 0.028902921825647354,
+      "beta_dpo/beta_margin_mean": 0.0663158968091011,
+      "beta_dpo/beta_margin_std": 0.11655885726213455,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.3869401812553406,
+      "beta_dpo/gap_mean": 84.96998596191406,
+      "beta_dpo/gap_std": 111.31343078613281,
+      "beta_dpo/loss_margin_mean": 66.3158950805664,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4919236417033774,
+      "grad_norm": 5.149271488189697,
+      "learning_rate": 3.022289525640531e-07,
+      "logits/chosen": -0.42109692096710205,
+      "logits/rejected": -0.4054427742958069,
+      "loss": 1.3126,
+      "step": 335
+    },
+    {
+      "beta_dpo/beta": 0.7048290371894836,
+      "beta_dpo/beta_margin_grad_mean": -0.12527000904083252,
+      "beta_dpo/beta_margin_grad_std": 0.3306175172328949,
+      "beta_dpo/beta_margin_mean": 86.26851654052734,
+      "beta_dpo/beta_margin_std": 136.75621032714844,
+      "beta_dpo/beta_used": 0.7048290371894836,
+      "beta_dpo/beta_used_raw": 0.7048290371894836,
+      "beta_dpo/gap_mean": 88.45248413085938,
+      "beta_dpo/gap_std": 115.87779998779297,
+      "beta_dpo/loss_margin_mean": 115.32160186767578,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4933920704845815,
+      "grad_norm": 4854.24609375,
+      "learning_rate": 3.009732580450086e-07,
+      "logits/chosen": -0.39914026856422424,
+      "logits/rejected": -0.40446028113365173,
+      "loss": 6.4255,
+      "step": 336
+    },
+    {
+      "beta_dpo/beta": 0.14777547121047974,
+      "beta_dpo/beta_margin_grad_mean": -0.33285483717918396,
+      "beta_dpo/beta_margin_grad_std": 0.31178155541419983,
+      "beta_dpo/beta_margin_mean": 18.477201461791992,
+      "beta_dpo/beta_margin_std": 31.78298568725586,
+      "beta_dpo/beta_used": 0.14777547121047974,
+      "beta_dpo/beta_used_raw": 0.00013016164302825928,
+      "beta_dpo/gap_mean": 93.61722564697266,
+      "beta_dpo/gap_std": 119.06917572021484,
+      "beta_dpo/loss_margin_mean": 105.2668228149414,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4948604992657856,
+      "grad_norm": 1186.75927734375,
+      "learning_rate": 2.9971622033320914e-07,
+      "logits/chosen": -0.4144825041294098,
+      "logits/rejected": -0.41202259063720703,
+      "loss": 2.2556,
+      "step": 337
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47472554445266724,
+      "beta_dpo/beta_margin_grad_std": 0.02603665366768837,
+      "beta_dpo/beta_margin_mean": 0.10154020041227341,
+      "beta_dpo/beta_margin_std": 0.10497380793094635,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.8564766645431519,
+      "beta_dpo/gap_mean": 94.33158874511719,
+      "beta_dpo/gap_std": 117.08407592773438,
+      "beta_dpo/loss_margin_mean": 101.54019927978516,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.49632892804698975,
+      "grad_norm": 7.202863693237305,
+      "learning_rate": 2.984578725527675e-07,
+      "logits/chosen": -0.4074411988258362,
+      "logits/rejected": -0.3915863037109375,
+      "loss": 1.3108,
+      "step": 338
+    },
+    {
+      "beta_dpo/beta": 1.0157151222229004,
+      "beta_dpo/beta_margin_grad_mean": -0.3203289806842804,
+      "beta_dpo/beta_margin_grad_std": 0.3050708770751953,
+      "beta_dpo/beta_margin_mean": 132.27044677734375,
+      "beta_dpo/beta_margin_std": 213.22317504882812,
+      "beta_dpo/beta_used": 1.0157151222229004,
+      "beta_dpo/beta_used_raw": 0.2719331383705139,
+      "beta_dpo/gap_mean": 93.49383544921875,
+      "beta_dpo/gap_std": 113.80068969726562,
+      "beta_dpo/loss_margin_mean": 96.39201354980469,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.4977973568281938,
+      "grad_norm": 4415.94677734375,
+      "learning_rate": 2.9719824786231796e-07,
+      "logits/chosen": -0.4132786989212036,
+      "logits/rejected": -0.4065033197402954,
+      "loss": 5.6395,
+      "step": 339
+    },
+    {
+      "beta_dpo/beta": 0.48150238394737244,
+      "beta_dpo/beta_margin_grad_mean": -0.31963202357292175,
+      "beta_dpo/beta_margin_grad_std": 0.30448395013809204,
+      "beta_dpo/beta_margin_mean": 53.98538589477539,
+      "beta_dpo/beta_margin_std": 104.22420501708984,
+      "beta_dpo/beta_used": 0.48150238394737244,
+      "beta_dpo/beta_used_raw": -0.11612993478775024,
+      "beta_dpo/gap_mean": 95.82996368408203,
+      "beta_dpo/gap_std": 116.46409606933594,
+      "beta_dpo/loss_margin_mean": 91.91159057617188,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.49926578560939794,
+      "grad_norm": 2312.302001953125,
+      "learning_rate": 2.959373794541426e-07,
+      "logits/chosen": -0.36081361770629883,
+      "logits/rejected": -0.33534175157546997,
+      "loss": 2.6635,
+      "step": 340
+    },
+    {
+      "beta_dpo/beta": 0.6681861877441406,
+      "beta_dpo/beta_margin_grad_mean": -0.29601871967315674,
+      "beta_dpo/beta_margin_grad_std": 0.28802916407585144,
+      "beta_dpo/beta_margin_mean": 76.64708709716797,
+      "beta_dpo/beta_margin_std": 130.1103515625,
+      "beta_dpo/beta_used": 0.6681861877441406,
+      "beta_dpo/beta_used_raw": 0.584057629108429,
+      "beta_dpo/gap_mean": 97.98030090332031,
+      "beta_dpo/gap_std": 118.38259887695312,
+      "beta_dpo/loss_margin_mean": 117.34190368652344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5007342143906021,
+      "grad_norm": 2236.2265625,
+      "learning_rate": 2.946753005532965e-07,
+      "logits/chosen": -0.35989874601364136,
+      "logits/rejected": -0.3705149292945862,
+      "loss": 5.4623,
+      "step": 341
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47810834646224976,
+      "beta_dpo/beta_margin_grad_std": 0.031336311250925064,
+      "beta_dpo/beta_margin_mean": 0.08804672211408615,
+      "beta_dpo/beta_margin_std": 0.12628589570522308,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.7561790943145752,
+      "beta_dpo/gap_mean": 96.36663818359375,
+      "beta_dpo/gap_std": 119.49044799804688,
+      "beta_dpo/loss_margin_mean": 88.04671478271484,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5022026431718062,
+      "grad_norm": 6.459059238433838,
+      "learning_rate": 2.934120444167326e-07,
+      "logits/chosen": -0.4166700839996338,
+      "logits/rejected": -0.387287974357605,
+      "loss": 1.3243,
+      "step": 342
+    },
+    {
+      "beta_dpo/beta": 0.4361698031425476,
+      "beta_dpo/beta_margin_grad_mean": -0.25323668122291565,
+      "beta_dpo/beta_margin_grad_std": 0.25362610816955566,
+      "beta_dpo/beta_margin_mean": 53.51424026489258,
+      "beta_dpo/beta_margin_std": 72.98287200927734,
+      "beta_dpo/beta_used": 0.4361698031425476,
+      "beta_dpo/beta_used_raw": -0.4439680874347687,
+      "beta_dpo/gap_mean": 99.7641372680664,
+      "beta_dpo/gap_std": 115.47168731689453,
+      "beta_dpo/loss_margin_mean": 112.97042083740234,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5036710719530103,
+      "grad_norm": 1073.5543212890625,
+      "learning_rate": 2.9214764433242476e-07,
+      "logits/chosen": -0.41678088903427124,
+      "logits/rejected": -0.4238309860229492,
+      "loss": 1.0074,
+      "step": 343
+    },
+    {
+      "beta_dpo/beta": 0.5173386931419373,
+      "beta_dpo/beta_margin_grad_mean": -0.30524685978889465,
+      "beta_dpo/beta_margin_grad_std": 0.2957528233528137,
+      "beta_dpo/beta_margin_mean": 64.93697357177734,
+      "beta_dpo/beta_margin_std": 109.22602844238281,
+      "beta_dpo/beta_used": 0.5173386931419373,
+      "beta_dpo/beta_used_raw": -0.35434967279434204,
+      "beta_dpo/gap_mean": 97.2651596069336,
+      "beta_dpo/gap_std": 113.85401916503906,
+      "beta_dpo/loss_margin_mean": 91.90724182128906,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5051395007342144,
+      "grad_norm": 2767.380859375,
+      "learning_rate": 2.9088213361849126e-07,
+      "logits/chosen": -0.3739524185657501,
+      "logits/rejected": -0.3753708004951477,
+      "loss": 1.9805,
+      "step": 344
+    },
+    {
+      "beta_dpo/beta": 0.40887582302093506,
+      "beta_dpo/beta_margin_grad_mean": -0.19348150491714478,
+      "beta_dpo/beta_margin_grad_std": 0.38543590903282166,
+      "beta_dpo/beta_margin_mean": 49.93855667114258,
+      "beta_dpo/beta_margin_std": 70.8931655883789,
+      "beta_dpo/beta_used": 0.40887582302093506,
+      "beta_dpo/beta_used_raw": 0.40887582302093506,
+      "beta_dpo/gap_mean": 99.37379455566406,
+      "beta_dpo/gap_std": 114.99360656738281,
+      "beta_dpo/loss_margin_mean": 109.09276580810547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5066079295154186,
+      "grad_norm": 2037.227294921875,
+      "learning_rate": 2.896155456223163e-07,
+      "logits/chosen": -0.41102027893066406,
+      "logits/rejected": -0.3992459177970886,
+      "loss": 3.0387,
+      "step": 345
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4759877324104309,
+      "beta_dpo/beta_margin_grad_std": 0.029918290674686432,
+      "beta_dpo/beta_margin_mean": 0.09645290672779083,
+      "beta_dpo/beta_margin_std": 0.1203700602054596,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.828955888748169,
+      "beta_dpo/gap_mean": 100.52455139160156,
+      "beta_dpo/gap_std": 115.36701965332031,
+      "beta_dpo/loss_margin_mean": 96.45289611816406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5080763582966226,
+      "grad_norm": 6.275406837463379,
+      "learning_rate": 2.883479137196714e-07,
+      "logits/chosen": -0.37849825620651245,
+      "logits/rejected": -0.3621870279312134,
+      "loss": 1.3049,
+      "step": 346
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47555938363075256,
+      "beta_dpo/beta_margin_grad_std": 0.030918261036276817,
+      "beta_dpo/beta_margin_mean": 0.0982765406370163,
+      "beta_dpo/beta_margin_std": 0.12459293752908707,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.1044821739196777,
+      "beta_dpo/gap_mean": 100.19987487792969,
+      "beta_dpo/gap_std": 118.36697387695312,
+      "beta_dpo/loss_margin_mean": 98.27653503417969,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5095447870778267,
+      "grad_norm": 7.38579797744751,
+      "learning_rate": 2.8707927131383614e-07,
+      "logits/chosen": -0.3721884787082672,
+      "logits/rejected": -0.3643941581249237,
+      "loss": 1.3105,
+      "step": 347
+    },
+    {
+      "beta_dpo/beta": 0.11714650690555573,
+      "beta_dpo/beta_margin_grad_mean": -0.3267797529697418,
+      "beta_dpo/beta_margin_grad_std": 0.28449147939682007,
+      "beta_dpo/beta_margin_mean": 12.065768241882324,
+      "beta_dpo/beta_margin_std": 22.209104537963867,
+      "beta_dpo/beta_used": 0.11714650690555573,
+      "beta_dpo/beta_used_raw": -0.1274842917919159,
+      "beta_dpo/gap_mean": 98.06617736816406,
+      "beta_dpo/gap_std": 117.04876708984375,
+      "beta_dpo/loss_margin_mean": 82.79788970947266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5110132158590308,
+      "grad_norm": 457.3243713378906,
+      "learning_rate": 2.858096518347179e-07,
+      "logits/chosen": -0.4001210629940033,
+      "logits/rejected": -0.4025808572769165,
+      "loss": 1.652,
+      "step": 348
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47573983669281006,
+      "beta_dpo/beta_margin_grad_std": 0.03337588906288147,
+      "beta_dpo/beta_margin_mean": 0.09776747226715088,
+      "beta_dpo/beta_margin_std": 0.13501474261283875,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7904142737388611,
+      "beta_dpo/gap_mean": 95.7049331665039,
+      "beta_dpo/gap_std": 117.83291625976562,
+      "beta_dpo/loss_margin_mean": 97.76747131347656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5124816446402349,
+      "grad_norm": 7.413999080657959,
+      "learning_rate": 2.845390887379706e-07,
+      "logits/chosen": -0.354410856962204,
+      "logits/rejected": -0.34631115198135376,
+      "loss": 1.3096,
+      "step": 349
+    },
+    {
+      "beta_dpo/beta": 0.3681584596633911,
+      "beta_dpo/beta_margin_grad_mean": -0.2865951657295227,
+      "beta_dpo/beta_margin_grad_std": 0.2829616367816925,
+      "beta_dpo/beta_margin_mean": 44.03104782104492,
+      "beta_dpo/beta_margin_std": 82.63276672363281,
+      "beta_dpo/beta_used": 0.3681584596633911,
+      "beta_dpo/beta_used_raw": 0.18125556409358978,
+      "beta_dpo/gap_mean": 98.13190460205078,
+      "beta_dpo/gap_std": 121.19251251220703,
+      "beta_dpo/loss_margin_mean": 101.13141632080078,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5139500734214391,
+      "grad_norm": 363.3417663574219,
+      "learning_rate": 2.8326761550411346e-07,
+      "logits/chosen": -0.39443519711494446,
+      "logits/rejected": -0.37324777245521545,
+      "loss": 1.6184,
+      "step": 350
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46981188654899597,
+      "beta_dpo/beta_margin_grad_std": 0.038395486772060394,
+      "beta_dpo/beta_margin_mean": 0.12189145386219025,
+      "beta_dpo/beta_margin_std": 0.15585792064666748,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.8729835748672485,
+      "beta_dpo/gap_mean": 101.26289367675781,
+      "beta_dpo/gap_std": 127.14557647705078,
+      "beta_dpo/loss_margin_mean": 121.89144897460938,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5154185022026432,
+      "grad_norm": 6.668581008911133,
+      "learning_rate": 2.819952656376487e-07,
+      "logits/chosen": -0.43974393606185913,
+      "logits/rejected": -0.4313165545463562,
+      "loss": 1.3058,
+      "step": 351
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48466551303863525,
+      "beta_dpo/beta_margin_grad_std": 0.030659163370728493,
+      "beta_dpo/beta_margin_mean": 0.06168793886899948,
+      "beta_dpo/beta_margin_std": 0.12350940704345703,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.4254016876220703,
+      "beta_dpo/gap_mean": 96.96006774902344,
+      "beta_dpo/gap_std": 127.05946350097656,
+      "beta_dpo/loss_margin_mean": 61.68793487548828,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5168869309838473,
+      "grad_norm": 6.023617267608643,
+      "learning_rate": 2.8072207266617854e-07,
+      "logits/chosen": -0.4059138894081116,
+      "logits/rejected": -0.37293723225593567,
+      "loss": 1.3343,
+      "step": 352
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47603118419647217,
+      "beta_dpo/beta_margin_grad_std": 0.037852540612220764,
+      "beta_dpo/beta_margin_mean": 0.09669725596904755,
+      "beta_dpo/beta_margin_std": 0.15294483304023743,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.3700706958770752,
+      "beta_dpo/gap_mean": 95.6932373046875,
+      "beta_dpo/gap_std": 130.9846954345703,
+      "beta_dpo/loss_margin_mean": 96.69725036621094,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5183553597650514,
+      "grad_norm": 6.5913310050964355,
+      "learning_rate": 2.794480701395219e-07,
+      "logits/chosen": -0.40948837995529175,
+      "logits/rejected": -0.39385730028152466,
+      "loss": 1.3195,
+      "step": 353
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4750857651233673,
+      "beta_dpo/beta_margin_grad_std": 0.026884840801358223,
+      "beta_dpo/beta_margin_mean": 0.10007837414741516,
+      "beta_dpo/beta_margin_std": 0.10820183157920837,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.0040392875671387,
+      "beta_dpo/gap_mean": 95.46762084960938,
+      "beta_dpo/gap_std": 128.0501708984375,
+      "beta_dpo/loss_margin_mean": 100.078369140625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5198237885462555,
+      "grad_norm": 5.958319664001465,
+      "learning_rate": 2.781732916288303e-07,
+      "logits/chosen": -0.3586284816265106,
+      "logits/rejected": -0.34347254037857056,
+      "loss": 1.3129,
+      "step": 354
+    },
+    {
+      "beta_dpo/beta": 0.803097665309906,
+      "beta_dpo/beta_margin_grad_mean": -0.31661173701286316,
+      "beta_dpo/beta_margin_grad_std": 0.30314168334007263,
+      "beta_dpo/beta_margin_mean": 108.771484375,
+      "beta_dpo/beta_margin_std": 188.28627014160156,
+      "beta_dpo/beta_used": 0.803097665309906,
+      "beta_dpo/beta_used_raw": 0.2829711437225342,
+      "beta_dpo/gap_mean": 98.98455810546875,
+      "beta_dpo/gap_std": 126.47689819335938,
+      "beta_dpo/loss_margin_mean": 113.99552917480469,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5212922173274597,
+      "grad_norm": 3436.352294921875,
+      "learning_rate": 2.7689777072570284e-07,
+      "logits/chosen": -0.4502210021018982,
+      "logits/rejected": -0.42753684520721436,
+      "loss": 9.4138,
+      "step": 355
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48544058203697205,
+      "beta_dpo/beta_margin_grad_std": 0.03667362034320831,
+      "beta_dpo/beta_margin_mean": 0.05878689885139465,
+      "beta_dpo/beta_margin_std": 0.14823727309703827,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.0601253509521484,
+      "beta_dpo/gap_mean": 92.14360046386719,
+      "beta_dpo/gap_std": 127.69420623779297,
+      "beta_dpo/loss_margin_mean": 58.786895751953125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5227606461086637,
+      "grad_norm": 5.952792644500732,
+      "learning_rate": 2.7562154104130176e-07,
+      "logits/chosen": -0.3653779625892639,
+      "logits/rejected": -0.3463535010814667,
+      "loss": 1.3335,
+      "step": 356
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47698020935058594,
+      "beta_dpo/beta_margin_grad_std": 0.030018875375390053,
+      "beta_dpo/beta_margin_mean": 0.09258735179901123,
+      "beta_dpo/beta_margin_std": 0.12106671184301376,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.46944957971572876,
+      "beta_dpo/gap_mean": 92.12881469726562,
+      "beta_dpo/gap_std": 128.6616973876953,
+      "beta_dpo/loss_margin_mean": 92.58734893798828,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5242290748898678,
+      "grad_norm": 5.877689361572266,
+      "learning_rate": 2.7434463620546594e-07,
+      "logits/chosen": -0.39090579748153687,
+      "logits/rejected": -0.3792232275009155,
+      "loss": 1.3075,
+      "step": 357
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4783032238483429,
+      "beta_dpo/beta_margin_grad_std": 0.03480137139558792,
+      "beta_dpo/beta_margin_mean": 0.08748451620340347,
+      "beta_dpo/beta_margin_std": 0.14093735814094543,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.034654974937439,
+      "beta_dpo/gap_mean": 91.1614990234375,
+      "beta_dpo/gap_std": 129.97589111328125,
+      "beta_dpo/loss_margin_mean": 87.48451232910156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5256975036710719,
+      "grad_norm": 5.643310070037842,
+      "learning_rate": 2.730670898658255e-07,
+      "logits/chosen": -0.40258651971817017,
+      "logits/rejected": -0.385714590549469,
+      "loss": 1.3174,
+      "step": 358
+    },
+    {
+      "beta_dpo/beta": 0.03269139304757118,
+      "beta_dpo/beta_margin_grad_mean": -0.34401631355285645,
+      "beta_dpo/beta_margin_grad_std": 0.29530322551727295,
+      "beta_dpo/beta_margin_mean": 3.772794485092163,
+      "beta_dpo/beta_margin_std": 7.085198402404785,
+      "beta_dpo/beta_used": 0.03269139304757118,
+      "beta_dpo/beta_used_raw": -0.8927912712097168,
+      "beta_dpo/gap_mean": 94.33483123779297,
+      "beta_dpo/gap_std": 137.95599365234375,
+      "beta_dpo/loss_margin_mean": 116.4987564086914,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.527165932452276,
+      "grad_norm": 417.1752624511719,
+      "learning_rate": 2.717889356869146e-07,
+      "logits/chosen": -0.3224365711212158,
+      "logits/rejected": -0.2917293906211853,
+      "loss": 1.5572,
+      "step": 359
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4791829586029053,
+      "beta_dpo/beta_margin_grad_std": 0.027085591107606888,
+      "beta_dpo/beta_margin_mean": 0.08361884206533432,
+      "beta_dpo/beta_margin_std": 0.10896874964237213,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.4150499105453491,
+      "beta_dpo/gap_mean": 93.76991271972656,
+      "beta_dpo/gap_std": 133.27197265625,
+      "beta_dpo/loss_margin_mean": 83.61884307861328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5286343612334802,
+      "grad_norm": 7.576156139373779,
+      "learning_rate": 2.7051020734928443e-07,
+      "logits/chosen": -0.33717477321624756,
+      "logits/rejected": -0.32376694679260254,
+      "loss": 1.3215,
+      "step": 360
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.477610319852829,
+      "beta_dpo/beta_margin_grad_std": 0.03370558097958565,
+      "beta_dpo/beta_margin_mean": 0.09011209011077881,
+      "beta_dpo/beta_margin_std": 0.13601025938987732,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9473916888237,
+      "beta_dpo/gap_mean": 92.4726333618164,
+      "beta_dpo/gap_std": 133.42208862304688,
+      "beta_dpo/loss_margin_mean": 90.1120834350586,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5301027900146843,
+      "grad_norm": 9.286351203918457,
+      "learning_rate": 2.6923093854861593e-07,
+      "logits/chosen": -0.3260883092880249,
+      "logits/rejected": -0.3336498737335205,
+      "loss": 1.3155,
+      "step": 361
+    },
+    {
+      "beta_dpo/beta": 1.6271191835403442,
+      "beta_dpo/beta_margin_grad_mean": -0.2851690351963043,
+      "beta_dpo/beta_margin_grad_std": 0.2767854332923889,
+      "beta_dpo/beta_margin_mean": 257.64166259765625,
+      "beta_dpo/beta_margin_std": 433.18182373046875,
+      "beta_dpo/beta_used": 1.6271191835403442,
+      "beta_dpo/beta_used_raw": 1.0895951986312866,
+      "beta_dpo/gap_mean": 101.06622314453125,
+      "beta_dpo/gap_std": 136.33203125,
+      "beta_dpo/loss_margin_mean": 147.14773559570312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5315712187958884,
+      "grad_norm": 3908.80322265625,
+      "learning_rate": 2.679511629948319e-07,
+      "logits/chosen": -0.3415091633796692,
+      "logits/rejected": -0.3479331135749817,
+      "loss": 4.7128,
+      "step": 362
+    },
+    {
+      "beta_dpo/beta": 0.48806485533714294,
+      "beta_dpo/beta_margin_grad_mean": -0.3278650641441345,
+      "beta_dpo/beta_margin_grad_std": 0.3104459047317505,
+      "beta_dpo/beta_margin_mean": 78.98721313476562,
+      "beta_dpo/beta_margin_std": 153.0666961669922,
+      "beta_dpo/beta_used": 0.48806485533714294,
+      "beta_dpo/beta_used_raw": 0.030955523252487183,
+      "beta_dpo/gap_mean": 108.2145004272461,
+      "beta_dpo/gap_std": 139.0877227783203,
+      "beta_dpo/loss_margin_mean": 144.82916259765625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5330396475770925,
+      "grad_norm": 2845.82421875,
+      "learning_rate": 2.6667091441120816e-07,
+      "logits/chosen": -0.3030551075935364,
+      "logits/rejected": -0.288122296333313,
+      "loss": 5.4489,
+      "step": 363
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4774971008300781,
+      "beta_dpo/beta_margin_grad_std": 0.03736840933561325,
+      "beta_dpo/beta_margin_mean": 0.09085896611213684,
+      "beta_dpo/beta_margin_std": 0.1515338271856308,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.154345989227295,
+      "beta_dpo/gap_mean": 107.01531982421875,
+      "beta_dpo/gap_std": 143.16229248046875,
+      "beta_dpo/loss_margin_mean": 90.85896301269531,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5345080763582967,
+      "grad_norm": 6.039409160614014,
+      "learning_rate": 2.6539022653348575e-07,
+      "logits/chosen": -0.3785761594772339,
+      "logits/rejected": -0.3902500867843628,
+      "loss": 1.3205,
+      "step": 364
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47192299365997314,
+      "beta_dpo/beta_margin_grad_std": 0.03479469195008278,
+      "beta_dpo/beta_margin_mean": 0.11332341283559799,
+      "beta_dpo/beta_margin_std": 0.14188429713249207,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.951167106628418,
+      "beta_dpo/gap_mean": 108.13379669189453,
+      "beta_dpo/gap_std": 142.005859375,
+      "beta_dpo/loss_margin_mean": 113.32341003417969,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5359765051395007,
+      "grad_norm": 6.869436264038086,
+      "learning_rate": 2.641091331089811e-07,
+      "logits/chosen": -0.3123311996459961,
+      "logits/rejected": -0.32426539063453674,
+      "loss": 1.3158,
+      "step": 365
+    },
+    {
+      "beta_dpo/beta": 0.5055487155914307,
+      "beta_dpo/beta_margin_grad_mean": -0.31768321990966797,
+      "beta_dpo/beta_margin_grad_std": 0.30457475781440735,
+      "beta_dpo/beta_margin_mean": 68.90055084228516,
+      "beta_dpo/beta_margin_std": 133.3690948486328,
+      "beta_dpo/beta_used": 0.5055487155914307,
+      "beta_dpo/beta_used_raw": -0.3282930850982666,
+      "beta_dpo/gap_mean": 110.02189636230469,
+      "beta_dpo/gap_std": 146.34872436523438,
+      "beta_dpo/loss_margin_mean": 110.3228759765625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5374449339207048,
+      "grad_norm": 2276.9384765625,
+      "learning_rate": 2.6282766789569736e-07,
+      "logits/chosen": -0.2959885001182556,
+      "logits/rejected": -0.31161656975746155,
+      "loss": 4.1092,
+      "step": 366
+    },
+    {
+      "beta_dpo/beta": 0.1259302943944931,
+      "beta_dpo/beta_margin_grad_mean": -0.3177259862422943,
+      "beta_dpo/beta_margin_grad_std": 0.2994624972343445,
+      "beta_dpo/beta_margin_mean": 11.867181777954102,
+      "beta_dpo/beta_margin_std": 23.115652084350586,
+      "beta_dpo/beta_used": 0.1259302943944931,
+      "beta_dpo/beta_used_raw": -0.25230592489242554,
+      "beta_dpo/gap_mean": 106.54058837890625,
+      "beta_dpo/gap_std": 143.6832275390625,
+      "beta_dpo/loss_margin_mean": 93.8835220336914,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5389133627019089,
+      "grad_norm": 524.9410400390625,
+      "learning_rate": 2.615458646614349e-07,
+      "logits/chosen": -0.37701088190078735,
+      "logits/rejected": -0.35184770822525024,
+      "loss": 1.9352,
+      "step": 367
+    },
+    {
+      "beta_dpo/beta": 0.9328745603561401,
+      "beta_dpo/beta_margin_grad_mean": -0.09676685929298401,
+      "beta_dpo/beta_margin_grad_std": 0.2863916754722595,
+      "beta_dpo/beta_margin_mean": 133.5645751953125,
+      "beta_dpo/beta_margin_std": 201.60333251953125,
+      "beta_dpo/beta_used": 0.9328745603561401,
+      "beta_dpo/beta_used_raw": 0.9328745603561401,
+      "beta_dpo/gap_mean": 109.11013793945312,
+      "beta_dpo/gap_std": 139.04080200195312,
+      "beta_dpo/loss_margin_mean": 132.6707000732422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.540381791483113,
+      "grad_norm": 3995.7197265625,
+      "learning_rate": 2.6026375718290083e-07,
+      "logits/chosen": -0.38272589445114136,
+      "logits/rejected": -0.38491058349609375,
+      "loss": 1.3764,
+      "step": 368
+    },
+    {
+      "beta_dpo/beta": 0.09317570924758911,
+      "beta_dpo/beta_margin_grad_mean": -0.3334360122680664,
+      "beta_dpo/beta_margin_grad_std": 0.29883116483688354,
+      "beta_dpo/beta_margin_mean": 9.50542163848877,
+      "beta_dpo/beta_margin_std": 21.700239181518555,
+      "beta_dpo/beta_used": 0.09317570924758911,
+      "beta_dpo/beta_used_raw": -1.1680105924606323,
+      "beta_dpo/gap_mean": 105.86335754394531,
+      "beta_dpo/gap_std": 138.92889404296875,
+      "beta_dpo/loss_margin_mean": 81.47874450683594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5418502202643172,
+      "grad_norm": 338.8497619628906,
+      "learning_rate": 2.589813792448196e-07,
+      "logits/chosen": -0.40276187658309937,
+      "logits/rejected": -0.3842419385910034,
+      "loss": 1.2417,
+      "step": 369
+    },
+    {
+      "beta_dpo/beta": 0.32751452922821045,
+      "beta_dpo/beta_margin_grad_mean": -0.33634528517723083,
+      "beta_dpo/beta_margin_grad_std": 0.31442970037460327,
+      "beta_dpo/beta_margin_mean": 26.184959411621094,
+      "beta_dpo/beta_margin_std": 58.59195327758789,
+      "beta_dpo/beta_used": 0.32751452922821045,
+      "beta_dpo/beta_used_raw": -0.5632827281951904,
+      "beta_dpo/gap_mean": 100.1129150390625,
+      "beta_dpo/gap_std": 139.25335693359375,
+      "beta_dpo/loss_margin_mean": 70.3260726928711,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5433186490455213,
+      "grad_norm": 2646.7197265625,
+      "learning_rate": 2.5769876463904263e-07,
+      "logits/chosen": -0.39602580666542053,
+      "logits/rejected": -0.39256715774536133,
+      "loss": 5.0036,
+      "step": 370
+    },
+    {
+      "beta_dpo/beta": 0.26400327682495117,
+      "beta_dpo/beta_margin_grad_mean": -0.3500906229019165,
+      "beta_dpo/beta_margin_grad_std": 0.31608888506889343,
+      "beta_dpo/beta_margin_mean": 22.5057430267334,
+      "beta_dpo/beta_margin_std": 54.71674346923828,
+      "beta_dpo/beta_used": 0.26400327682495117,
+      "beta_dpo/beta_used_raw": -0.1922587752342224,
+      "beta_dpo/gap_mean": 97.70218658447266,
+      "beta_dpo/gap_std": 137.7125244140625,
+      "beta_dpo/loss_margin_mean": 91.76586151123047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5447870778267254,
+      "grad_norm": 1841.630859375,
+      "learning_rate": 2.5641594716365744e-07,
+      "logits/chosen": -0.4191368520259857,
+      "logits/rejected": -0.4073137044906616,
+      "loss": 4.2713,
+      "step": 371
+    },
+    {
+      "beta_dpo/beta": 0.29865550994873047,
+      "beta_dpo/beta_margin_grad_mean": -0.34942829608917236,
+      "beta_dpo/beta_margin_grad_std": 0.3169166147708893,
+      "beta_dpo/beta_margin_mean": 30.436782836914062,
+      "beta_dpo/beta_margin_std": 65.03998565673828,
+      "beta_dpo/beta_used": 0.29865550994873047,
+      "beta_dpo/beta_used_raw": 0.2250063121318817,
+      "beta_dpo/gap_mean": 98.745849609375,
+      "beta_dpo/gap_std": 137.76092529296875,
+      "beta_dpo/loss_margin_mean": 105.9774398803711,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5462555066079295,
+      "grad_norm": 2330.501953125,
+      "learning_rate": 2.551329606220976e-07,
+      "logits/chosen": -0.4094877243041992,
+      "logits/rejected": -0.3760242462158203,
+      "loss": 5.4678,
+      "step": 372
+    },
+    {
+      "beta_dpo/beta": 0.4515746831893921,
+      "beta_dpo/beta_margin_grad_mean": -0.27207887172698975,
+      "beta_dpo/beta_margin_grad_std": 0.2706195116043091,
+      "beta_dpo/beta_margin_mean": 58.79832077026367,
+      "beta_dpo/beta_margin_std": 84.47066497802734,
+      "beta_dpo/beta_used": 0.4515746831893921,
+      "beta_dpo/beta_used_raw": -0.7580370903015137,
+      "beta_dpo/gap_mean": 98.81103515625,
+      "beta_dpo/gap_std": 134.30552673339844,
+      "beta_dpo/loss_margin_mean": 103.87548828125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5477239353891337,
+      "grad_norm": 2668.42236328125,
+      "learning_rate": 2.538498388222517e-07,
+      "logits/chosen": -0.4020259380340576,
+      "logits/rejected": -0.3562648296356201,
+      "loss": 3.7343,
+      "step": 373
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4792296886444092,
+      "beta_dpo/beta_margin_grad_std": 0.0275330301374197,
+      "beta_dpo/beta_margin_mean": 0.08352459967136383,
+      "beta_dpo/beta_margin_std": 0.1111961379647255,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.5819969177246094,
+      "beta_dpo/gap_mean": 98.51296997070312,
+      "beta_dpo/gap_std": 129.830322265625,
+      "beta_dpo/loss_margin_mean": 83.52459716796875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5491923641703378,
+      "grad_norm": 25.06356430053711,
+      "learning_rate": 2.525666155755725e-07,
+      "logits/chosen": -0.5303980112075806,
+      "logits/rejected": -0.5011695027351379,
+      "loss": 1.319,
+      "step": 374
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48084428906440735,
+      "beta_dpo/beta_margin_grad_std": 0.025963004678487778,
+      "beta_dpo/beta_margin_mean": 0.07689561694860458,
+      "beta_dpo/beta_margin_std": 0.10439448803663254,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7749541997909546,
+      "beta_dpo/gap_mean": 95.07070922851562,
+      "beta_dpo/gap_std": 124.96221923828125,
+      "beta_dpo/loss_margin_mean": 76.89561462402344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5506607929515418,
+      "grad_norm": 33.27694320678711,
+      "learning_rate": 2.512833246961859e-07,
+      "logits/chosen": -0.46519535779953003,
+      "logits/rejected": -0.4570329785346985,
+      "loss": 1.3091,
+      "step": 375
+    },
+    {
+      "beta_dpo/beta": 0.16056698560714722,
+      "beta_dpo/beta_margin_grad_mean": -0.3113880455493927,
+      "beta_dpo/beta_margin_grad_std": 0.28589603304862976,
+      "beta_dpo/beta_margin_mean": 17.529916763305664,
+      "beta_dpo/beta_margin_std": 32.734588623046875,
+      "beta_dpo/beta_used": 0.16056698560714722,
+      "beta_dpo/beta_used_raw": -0.6300212144851685,
+      "beta_dpo/gap_mean": 94.86084747314453,
+      "beta_dpo/gap_std": 124.55882263183594,
+      "beta_dpo/loss_margin_mean": 106.193359375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5521292217327459,
+      "grad_norm": 1583.425048828125,
+      "learning_rate": 2.5e-07,
+      "logits/chosen": -0.4400368332862854,
+      "logits/rejected": -0.42413341999053955,
+      "loss": 2.4697,
+      "step": 376
+    },
+    {
+      "beta_dpo/beta": 0.12274540960788727,
+      "beta_dpo/beta_margin_grad_mean": -0.3400813341140747,
+      "beta_dpo/beta_margin_grad_std": 0.3001156449317932,
+      "beta_dpo/beta_margin_mean": 12.869964599609375,
+      "beta_dpo/beta_margin_std": 25.119873046875,
+      "beta_dpo/beta_used": 0.12274540960788727,
+      "beta_dpo/beta_used_raw": -0.9513387680053711,
+      "beta_dpo/gap_mean": 94.40826416015625,
+      "beta_dpo/gap_std": 123.61512756347656,
+      "beta_dpo/loss_margin_mean": 91.47625732421875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.55359765051395,
+      "grad_norm": 474.910400390625,
+      "learning_rate": 2.487166753038141e-07,
+      "logits/chosen": -0.43538355827331543,
+      "logits/rejected": -0.43877607583999634,
+      "loss": 1.7143,
+      "step": 377
+    },
+    {
+      "beta_dpo/beta": 0.055305834859609604,
+      "beta_dpo/beta_margin_grad_mean": -0.33113202452659607,
+      "beta_dpo/beta_margin_grad_std": 0.2857387065887451,
+      "beta_dpo/beta_margin_mean": 5.2662177085876465,
+      "beta_dpo/beta_margin_std": 8.644315719604492,
+      "beta_dpo/beta_used": 0.055305834859609604,
+      "beta_dpo/beta_used_raw": -0.05297088995575905,
+      "beta_dpo/gap_mean": 96.25257873535156,
+      "beta_dpo/gap_std": 121.488525390625,
+      "beta_dpo/loss_margin_mean": 101.7795639038086,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5550660792951542,
+      "grad_norm": 206.10948181152344,
+      "learning_rate": 2.4743338442442754e-07,
+      "logits/chosen": -0.453810453414917,
+      "logits/rejected": -0.45135384798049927,
+      "loss": 1.2075,
+      "step": 378
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47414979338645935,
+      "beta_dpo/beta_margin_grad_std": 0.03370606154203415,
+      "beta_dpo/beta_margin_mean": 0.10408032685518265,
+      "beta_dpo/beta_margin_std": 0.13608884811401367,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.923268735408783,
+      "beta_dpo/gap_mean": 98.50502014160156,
+      "beta_dpo/gap_std": 122.33307647705078,
+      "beta_dpo/loss_margin_mean": 104.080322265625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5565345080763583,
+      "grad_norm": 7.842655658721924,
+      "learning_rate": 2.461501611777483e-07,
+      "logits/chosen": -0.40998560190200806,
+      "logits/rejected": -0.43568363785743713,
+      "loss": 1.3086,
+      "step": 379
+    },
+    {
+      "beta_dpo/beta": 0.49257999658584595,
+      "beta_dpo/beta_margin_grad_mean": -0.1504988819360733,
+      "beta_dpo/beta_margin_grad_std": 0.34962981939315796,
+      "beta_dpo/beta_margin_mean": 55.05702590942383,
+      "beta_dpo/beta_margin_std": 68.4500732421875,
+      "beta_dpo/beta_used": 0.49257999658584595,
+      "beta_dpo/beta_used_raw": 0.49257999658584595,
+      "beta_dpo/gap_mean": 99.70042419433594,
+      "beta_dpo/gap_std": 122.06121063232422,
+      "beta_dpo/loss_margin_mean": 114.565673828125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5580029368575624,
+      "grad_norm": 1847.671142578125,
+      "learning_rate": 2.4486703937790243e-07,
+      "logits/chosen": -0.4073488712310791,
+      "logits/rejected": -0.4285936951637268,
+      "loss": 3.929,
+      "step": 380
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4786049425601959,
+      "beta_dpo/beta_margin_grad_std": 0.033149346709251404,
+      "beta_dpo/beta_margin_mean": 0.08609545230865479,
+      "beta_dpo/beta_margin_std": 0.13360077142715454,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.517669916152954,
+      "beta_dpo/gap_mean": 99.50776672363281,
+      "beta_dpo/gap_std": 124.66862487792969,
+      "beta_dpo/loss_margin_mean": 86.09545135498047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5594713656387665,
+      "grad_norm": 7.046865463256836,
+      "learning_rate": 2.435840528363426e-07,
+      "logits/chosen": -0.44461020827293396,
+      "logits/rejected": -0.42805731296539307,
+      "loss": 1.3176,
+      "step": 381
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4754858613014221,
+      "beta_dpo/beta_margin_grad_std": 0.0272133257240057,
+      "beta_dpo/beta_margin_mean": 0.09848769009113312,
+      "beta_dpo/beta_margin_std": 0.10959197580814362,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7904385328292847,
+      "beta_dpo/gap_mean": 98.30332946777344,
+      "beta_dpo/gap_std": 123.63853454589844,
+      "beta_dpo/loss_margin_mean": 98.48768615722656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5609397944199707,
+      "grad_norm": 7.702118873596191,
+      "learning_rate": 2.4230123536095745e-07,
+      "logits/chosen": -0.482845664024353,
+      "logits/rejected": -0.47936874628067017,
+      "loss": 1.3066,
+      "step": 382
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47483423352241516,
+      "beta_dpo/beta_margin_grad_std": 0.031567756086587906,
+      "beta_dpo/beta_margin_mean": 0.10119039565324783,
+      "beta_dpo/beta_margin_std": 0.1272357702255249,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9441766142845154,
+      "beta_dpo/gap_mean": 99.17279815673828,
+      "beta_dpo/gap_std": 122.20887756347656,
+      "beta_dpo/loss_margin_mean": 101.19039154052734,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5624082232011748,
+      "grad_norm": 7.877129077911377,
+      "learning_rate": 2.4101862075518037e-07,
+      "logits/chosen": -0.4365376830101013,
+      "logits/rejected": -0.4394179880619049,
+      "loss": 1.3082,
+      "step": 383
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4772571325302124,
+      "beta_dpo/beta_margin_grad_std": 0.026376277208328247,
+      "beta_dpo/beta_margin_mean": 0.09137213975191116,
+      "beta_dpo/beta_margin_std": 0.10625956207513809,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6997740268707275,
+      "beta_dpo/gap_mean": 96.98212432861328,
+      "beta_dpo/gap_std": 120.21687316894531,
+      "beta_dpo/loss_margin_mean": 91.37213897705078,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5638766519823789,
+      "grad_norm": 6.691796779632568,
+      "learning_rate": 2.397362428170992e-07,
+      "logits/chosen": -0.4357266128063202,
+      "logits/rejected": -0.4359877407550812,
+      "loss": 1.3064,
+      "step": 384
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4784564971923828,
+      "beta_dpo/beta_margin_grad_std": 0.023655114695429802,
+      "beta_dpo/beta_margin_mean": 0.08640988171100616,
+      "beta_dpo/beta_margin_std": 0.09507441520690918,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6672598123550415,
+      "beta_dpo/gap_mean": 95.1080322265625,
+      "beta_dpo/gap_std": 117.16928100585938,
+      "beta_dpo/loss_margin_mean": 86.40987396240234,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5653450807635829,
+      "grad_norm": 6.454415798187256,
+      "learning_rate": 2.3845413533856514e-07,
+      "logits/chosen": -0.4430091381072998,
+      "logits/rejected": -0.406819224357605,
+      "loss": 1.3072,
+      "step": 385
+    },
+    {
+      "beta_dpo/beta": 0.3350660502910614,
+      "beta_dpo/beta_margin_grad_mean": -0.30638933181762695,
+      "beta_dpo/beta_margin_grad_std": 0.2916352152824402,
+      "beta_dpo/beta_margin_mean": 41.42173385620117,
+      "beta_dpo/beta_margin_std": 72.62975311279297,
+      "beta_dpo/beta_used": 0.3350660502910614,
+      "beta_dpo/beta_used_raw": -0.22976088523864746,
+      "beta_dpo/gap_mean": 95.47817993164062,
+      "beta_dpo/gap_std": 116.49141693115234,
+      "beta_dpo/loss_margin_mean": 104.02435302734375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.566813509544787,
+      "grad_norm": 1257.6240234375,
+      "learning_rate": 2.3717233210430254e-07,
+      "logits/chosen": -0.40499740839004517,
+      "logits/rejected": -0.3944457769393921,
+      "loss": 2.1028,
+      "step": 386
+    },
+    {
+      "beta_dpo/beta": 0.04211033880710602,
+      "beta_dpo/beta_margin_grad_mean": -0.362678587436676,
+      "beta_dpo/beta_margin_grad_std": 0.2757696211338043,
+      "beta_dpo/beta_margin_mean": 2.8369340896606445,
+      "beta_dpo/beta_margin_std": 6.981544017791748,
+      "beta_dpo/beta_used": 0.04211033880710602,
+      "beta_dpo/beta_used_raw": -0.41031795740127563,
+      "beta_dpo/gap_mean": 96.32708740234375,
+      "beta_dpo/gap_std": 116.07279968261719,
+      "beta_dpo/loss_margin_mean": 86.49880981445312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5682819383259912,
+      "grad_norm": 153.96595764160156,
+      "learning_rate": 2.3589086689101889e-07,
+      "logits/chosen": -0.46131113171577454,
+      "logits/rejected": -0.4227498173713684,
+      "loss": 0.9943,
+      "step": 387
+    },
+    {
+      "beta_dpo/beta": 0.2852635979652405,
+      "beta_dpo/beta_margin_grad_mean": -0.1428508460521698,
+      "beta_dpo/beta_margin_grad_std": 0.3305058777332306,
+      "beta_dpo/beta_margin_mean": 35.86345291137695,
+      "beta_dpo/beta_margin_std": 41.991371154785156,
+      "beta_dpo/beta_used": 0.2852635979652405,
+      "beta_dpo/beta_used_raw": 0.2852635979652405,
+      "beta_dpo/gap_mean": 99.73340606689453,
+      "beta_dpo/gap_std": 122.03709411621094,
+      "beta_dpo/loss_margin_mean": 126.48102569580078,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5697503671071953,
+      "grad_norm": 1019.3936767578125,
+      "learning_rate": 2.3460977346651428e-07,
+      "logits/chosen": -0.34111300110816956,
+      "logits/rejected": -0.35984545946121216,
+      "loss": 2.9347,
+      "step": 388
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4744521677494049,
+      "beta_dpo/beta_margin_grad_std": 0.029463116079568863,
+      "beta_dpo/beta_margin_mean": 0.10270687937736511,
+      "beta_dpo/beta_margin_std": 0.1187412440776825,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.477594792842865,
+      "beta_dpo/gap_mean": 101.11051177978516,
+      "beta_dpo/gap_std": 122.17589569091797,
+      "beta_dpo/loss_margin_mean": 102.70687103271484,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5712187958883994,
+      "grad_norm": 7.796079158782959,
+      "learning_rate": 2.3332908558879177e-07,
+      "logits/chosen": -0.3674032688140869,
+      "logits/rejected": -0.33893561363220215,
+      "loss": 1.299,
+      "step": 389
+    },
+    {
+      "beta_dpo/beta": 0.9373176097869873,
+      "beta_dpo/beta_margin_grad_mean": -0.3490453064441681,
+      "beta_dpo/beta_margin_grad_std": 0.32049307227134705,
+      "beta_dpo/beta_margin_mean": 102.44970703125,
+      "beta_dpo/beta_margin_std": 286.3146667480469,
+      "beta_dpo/beta_used": 0.9373176097869873,
+      "beta_dpo/beta_used_raw": 0.6466106176376343,
+      "beta_dpo/gap_mean": 100.94984436035156,
+      "beta_dpo/gap_std": 128.69989013671875,
+      "beta_dpo/loss_margin_mean": 96.0970687866211,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5726872246696035,
+      "grad_norm": 6808.29296875,
+      "learning_rate": 2.320488370051681e-07,
+      "logits/chosen": -0.38758012652397156,
+      "logits/rejected": -0.3825533986091614,
+      "loss": 5.2234,
+      "step": 390
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4825769364833832,
+      "beta_dpo/beta_margin_grad_std": 0.032539550215005875,
+      "beta_dpo/beta_margin_mean": 0.07015617936849594,
+      "beta_dpo/beta_margin_std": 0.1320018768310547,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.8503118753433228,
+      "beta_dpo/gap_mean": 95.19480895996094,
+      "beta_dpo/gap_std": 125.16159057617188,
+      "beta_dpo/loss_margin_mean": 70.15617370605469,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5741556534508077,
+      "grad_norm": 7.870649814605713,
+      "learning_rate": 2.3076906145138405e-07,
+      "logits/chosen": -0.4045184850692749,
+      "logits/rejected": -0.40096336603164673,
+      "loss": 1.3264,
+      "step": 391
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4708142578601837,
+      "beta_dpo/beta_margin_grad_std": 0.03216283768415451,
+      "beta_dpo/beta_margin_mean": 0.11758483201265335,
+      "beta_dpo/beta_margin_std": 0.13041386008262634,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6004123687744141,
+      "beta_dpo/gap_mean": 96.84786987304688,
+      "beta_dpo/gap_std": 127.46624755859375,
+      "beta_dpo/loss_margin_mean": 117.58483123779297,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5756240822320118,
+      "grad_norm": 7.0149126052856445,
+      "learning_rate": 2.294897926507156e-07,
+      "logits/chosen": -0.4069562554359436,
+      "logits/rejected": -0.4070258140563965,
+      "loss": 1.3047,
+      "step": 392
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47842276096343994,
+      "beta_dpo/beta_margin_grad_std": 0.035466983914375305,
+      "beta_dpo/beta_margin_mean": 0.08704755455255508,
+      "beta_dpo/beta_margin_std": 0.1434432864189148,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.5364588499069214,
+      "beta_dpo/gap_mean": 97.63465881347656,
+      "beta_dpo/gap_std": 131.28060913085938,
+      "beta_dpo/loss_margin_mean": 87.04754638671875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5770925110132159,
+      "grad_norm": 5.620955944061279,
+      "learning_rate": 2.2821106431308543e-07,
+      "logits/chosen": -0.36222386360168457,
+      "logits/rejected": -0.35495465993881226,
+      "loss": 1.3203,
+      "step": 393
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47261518239974976,
+      "beta_dpo/beta_margin_grad_std": 0.03843296319246292,
+      "beta_dpo/beta_margin_mean": 0.11056187748908997,
+      "beta_dpo/beta_margin_std": 0.1556539684534073,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.0046627521514893,
+      "beta_dpo/gap_mean": 98.78483581542969,
+      "beta_dpo/gap_std": 134.528564453125,
+      "beta_dpo/loss_margin_mean": 110.56187438964844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.57856093979442,
+      "grad_norm": 6.00560998916626,
+      "learning_rate": 2.2693291013417452e-07,
+      "logits/chosen": -0.38290512561798096,
+      "logits/rejected": -0.37921932339668274,
+      "loss": 1.311,
+      "step": 394
+    },
+    {
+      "beta_dpo/beta": 0.2388431876897812,
+      "beta_dpo/beta_margin_grad_mean": -0.36290186643600464,
+      "beta_dpo/beta_margin_grad_std": 0.3192496597766876,
+      "beta_dpo/beta_margin_mean": 26.790372848510742,
+      "beta_dpo/beta_margin_std": 53.6635856628418,
+      "beta_dpo/beta_used": 0.2388431876897812,
+      "beta_dpo/beta_used_raw": -0.2869706153869629,
+      "beta_dpo/gap_mean": 101.26589965820312,
+      "beta_dpo/gap_std": 135.43722534179688,
+      "beta_dpo/loss_margin_mean": 112.6613540649414,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.580029368575624,
+      "grad_norm": 1960.75048828125,
+      "learning_rate": 2.2565536379453404e-07,
+      "logits/chosen": -0.41427770256996155,
+      "logits/rejected": -0.4001610577106476,
+      "loss": 4.0929,
+      "step": 395
+    },
+    {
+      "beta_dpo/beta": 0.04714573919773102,
+      "beta_dpo/beta_margin_grad_mean": -0.32316020131111145,
+      "beta_dpo/beta_margin_grad_std": 0.29187336564064026,
+      "beta_dpo/beta_margin_mean": 4.048221588134766,
+      "beta_dpo/beta_margin_std": 9.408126831054688,
+      "beta_dpo/beta_used": 0.04714573919773102,
+      "beta_dpo/beta_used_raw": -0.8138464689254761,
+      "beta_dpo/gap_mean": 100.85454559326172,
+      "beta_dpo/gap_std": 133.6050262451172,
+      "beta_dpo/loss_margin_mean": 92.83641815185547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5814977973568282,
+      "grad_norm": 261.0092468261719,
+      "learning_rate": 2.2437845895869825e-07,
+      "logits/chosen": -0.45682457089424133,
+      "logits/rejected": -0.4294641613960266,
+      "loss": 0.7611,
+      "step": 396
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4667245149612427,
+      "beta_dpo/beta_margin_grad_std": 0.03587669879198074,
+      "beta_dpo/beta_margin_mean": 0.1342308074235916,
+      "beta_dpo/beta_margin_std": 0.14559264481067657,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7097823619842529,
+      "beta_dpo/gap_mean": 104.96504211425781,
+      "beta_dpo/gap_std": 135.63267517089844,
+      "beta_dpo/loss_margin_mean": 134.23080444335938,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5829662261380323,
+      "grad_norm": 9.609397888183594,
+      "learning_rate": 2.2310222927429716e-07,
+      "logits/chosen": -0.37662869691848755,
+      "logits/rejected": -0.3610289692878723,
+      "loss": 1.2987,
+      "step": 397
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4707203805446625,
+      "beta_dpo/beta_margin_grad_std": 0.03591061383485794,
+      "beta_dpo/beta_margin_mean": 0.11811903864145279,
+      "beta_dpo/beta_margin_std": 0.14565932750701904,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9772100448608398,
+      "beta_dpo/gap_mean": 108.35206604003906,
+      "beta_dpo/gap_std": 138.2628631591797,
+      "beta_dpo/loss_margin_mean": 118.11903381347656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5844346549192364,
+      "grad_norm": 7.986485481262207,
+      "learning_rate": 2.2182670837116972e-07,
+      "logits/chosen": -0.4529736638069153,
+      "logits/rejected": -0.4409021735191345,
+      "loss": 1.3013,
+      "step": 398
+    },
+    {
+      "beta_dpo/beta": 0.10209912061691284,
+      "beta_dpo/beta_margin_grad_mean": -0.3368144929409027,
+      "beta_dpo/beta_margin_grad_std": 0.3037874400615692,
+      "beta_dpo/beta_margin_mean": 12.228537559509277,
+      "beta_dpo/beta_margin_std": 24.178831100463867,
+      "beta_dpo/beta_used": 0.10209912061691284,
+      "beta_dpo/beta_used_raw": -0.7041253447532654,
+      "beta_dpo/gap_mean": 109.07110595703125,
+      "beta_dpo/gap_std": 139.66268920898438,
+      "beta_dpo/loss_margin_mean": 107.10200500488281,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5859030837004405,
+      "grad_norm": 1133.5469970703125,
+      "learning_rate": 2.2055192986047804e-07,
+      "logits/chosen": -0.3726699948310852,
+      "logits/rejected": -0.31704509258270264,
+      "loss": 3.271,
+      "step": 399
+    },
+    {
+      "beta_dpo/beta": 1.6487863063812256,
+      "beta_dpo/beta_margin_grad_mean": -0.1875,
+      "beta_dpo/beta_margin_grad_std": 0.3903123736381531,
+      "beta_dpo/beta_margin_mean": 249.3288116455078,
+      "beta_dpo/beta_margin_std": 262.01593017578125,
+      "beta_dpo/beta_used": 1.6487863063812256,
+      "beta_dpo/beta_used_raw": 1.6487863063812256,
+      "beta_dpo/gap_mean": 115.11041259765625,
+      "beta_dpo/gap_std": 142.930419921875,
+      "beta_dpo/loss_margin_mean": 150.7600555419922,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5873715124816447,
+      "grad_norm": 9287.4912109375,
+      "learning_rate": 2.192779273338215e-07,
+      "logits/chosen": -0.4059417247772217,
+      "logits/rejected": -0.40355077385902405,
+      "loss": 18.5063,
+      "step": 400
+    },
+    {
+      "epoch": 0.5873715124816447,
+      "eval_beta_dpo/beta": 0.0093453424051404,
+      "eval_beta_dpo/beta_margin_grad_mean": -0.4752621054649353,
+      "eval_beta_dpo/beta_margin_grad_std": 0.04468919709324837,
+      "eval_beta_dpo/beta_margin_mean": 1.0762052536010742,
+      "eval_beta_dpo/beta_margin_std": 1.4304980039596558,
+      "eval_beta_dpo/beta_used": 0.0093453424051404,
+      "eval_beta_dpo/beta_used_raw": -2.859452724456787,
+      "eval_beta_dpo/gap_mean": 116.2162094116211,
+      "eval_beta_dpo/gap_std": 143.88238525390625,
+      "eval_beta_dpo/loss_margin_mean": 66.89200592041016,
+      "eval_beta_dpo/mask_keep_frac": 1.0,
+      "eval_logits/chosen": -0.4157075881958008,
+      "eval_logits/rejected": -0.39382484555244446,
+      "eval_loss": 0.7606868147850037,
+      "eval_runtime": 40.2132,
+      "eval_samples_per_second": 58.165,
+      "eval_steps_per_second": 1.84,
+      "step": 400
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4766118824481964,
+      "beta_dpo/beta_margin_grad_std": 0.042866192758083344,
+      "beta_dpo/beta_margin_mean": 0.094448022544384,
+      "beta_dpo/beta_margin_std": 0.17364467680454254,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.313326358795166,
+      "beta_dpo/gap_mean": 113.66698455810547,
+      "beta_dpo/gap_std": 148.7388916015625,
+      "beta_dpo/loss_margin_mean": 94.4480209350586,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5888399412628488,
+      "grad_norm": 6.7877278327941895,
+      "learning_rate": 2.1800473436235136e-07,
+      "logits/chosen": -0.35054802894592285,
+      "logits/rejected": -0.3441402316093445,
+      "loss": 1.303,
+      "step": 401
+    },
+    {
+      "beta_dpo/beta": 0.6786636710166931,
+      "beta_dpo/beta_margin_grad_mean": -0.10659972578287125,
+      "beta_dpo/beta_margin_grad_std": 0.3003370761871338,
+      "beta_dpo/beta_margin_mean": 108.07469177246094,
+      "beta_dpo/beta_margin_std": 99.87371826171875,
+      "beta_dpo/beta_used": 0.6786636710166931,
+      "beta_dpo/beta_used_raw": 0.6786636710166931,
+      "beta_dpo/gap_mean": 119.07506561279297,
+      "beta_dpo/gap_std": 149.63043212890625,
+      "beta_dpo/loss_margin_mean": 158.593994140625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5903083700440529,
+      "grad_norm": 2755.770263671875,
+      "learning_rate": 2.1673238449588665e-07,
+      "logits/chosen": -0.3783169388771057,
+      "logits/rejected": -0.3567967414855957,
+      "loss": 5.1878,
+      "step": 402
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4704398214817047,
+      "beta_dpo/beta_margin_grad_std": 0.03317659720778465,
+      "beta_dpo/beta_margin_mean": 0.11902157217264175,
+      "beta_dpo/beta_margin_std": 0.13397535681724548,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.16943010687828064,
+      "beta_dpo/gap_mean": 120.31027221679688,
+      "beta_dpo/gap_std": 146.5064697265625,
+      "beta_dpo/loss_margin_mean": 119.02156829833984,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.591776798825257,
+      "grad_norm": 6.965160369873047,
+      "learning_rate": 2.154609112620295e-07,
+      "logits/chosen": -0.38709545135498047,
+      "logits/rejected": -0.3838120698928833,
+      "loss": 1.2773,
+      "step": 403
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4710405468940735,
+      "beta_dpo/beta_margin_grad_std": 0.04145493730902672,
+      "beta_dpo/beta_margin_mean": 0.11696790158748627,
+      "beta_dpo/beta_margin_std": 0.16781915724277496,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.3914072513580322,
+      "beta_dpo/gap_mean": 120.10807800292969,
+      "beta_dpo/gap_std": 150.40188598632812,
+      "beta_dpo/loss_margin_mean": 116.9678955078125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.593245227606461,
+      "grad_norm": 7.6397705078125,
+      "learning_rate": 2.1419034816528218e-07,
+      "logits/chosen": -0.32211601734161377,
+      "logits/rejected": -0.3063517212867737,
+      "loss": 1.2817,
+      "step": 404
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4748651087284088,
+      "beta_dpo/beta_margin_grad_std": 0.0469396598637104,
+      "beta_dpo/beta_margin_mean": 0.10184108465909958,
+      "beta_dpo/beta_margin_std": 0.19063597917556763,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.5856375694274902,
+      "beta_dpo/gap_mean": 115.75703430175781,
+      "beta_dpo/gap_std": 156.31784057617188,
+      "beta_dpo/loss_margin_mean": 101.84107971191406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5947136563876652,
+      "grad_norm": 7.145941257476807,
+      "learning_rate": 2.129207286861638e-07,
+      "logits/chosen": -0.3783246874809265,
+      "logits/rejected": -0.35847070813179016,
+      "loss": 1.3212,
+      "step": 405
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46724018454551697,
+      "beta_dpo/beta_margin_grad_std": 0.04072672128677368,
+      "beta_dpo/beta_margin_mean": 0.13246352970600128,
+      "beta_dpo/beta_margin_std": 0.16599087417125702,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.2788747549057007,
+      "beta_dpo/gap_mean": 117.24635314941406,
+      "beta_dpo/gap_std": 158.91787719726562,
+      "beta_dpo/loss_margin_mean": 132.46351623535156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5961820851688693,
+      "grad_norm": 7.6379899978637695,
+      "learning_rate": 2.1165208628032861e-07,
+      "logits/chosen": -0.3630604147911072,
+      "logits/rejected": -0.35475897789001465,
+      "loss": 1.2817,
+      "step": 406
+    },
+    {
+      "beta_dpo/beta": 0.9161151051521301,
+      "beta_dpo/beta_margin_grad_mean": -0.3084886372089386,
+      "beta_dpo/beta_margin_grad_std": 0.2934010624885559,
+      "beta_dpo/beta_margin_mean": 123.79098510742188,
+      "beta_dpo/beta_margin_std": 235.88023376464844,
+      "beta_dpo/beta_used": 0.9161151051521301,
+      "beta_dpo/beta_used_raw": -0.8416473865509033,
+      "beta_dpo/gap_mean": 115.60337829589844,
+      "beta_dpo/gap_std": 158.64419555664062,
+      "beta_dpo/loss_margin_mean": 100.3062515258789,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5976505139500734,
+      "grad_norm": 4827.95361328125,
+      "learning_rate": 2.1038445437768375e-07,
+      "logits/chosen": -0.377028226852417,
+      "logits/rejected": -0.3416253924369812,
+      "loss": 10.9265,
+      "step": 407
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4801346957683563,
+      "beta_dpo/beta_margin_grad_std": 0.03229653090238571,
+      "beta_dpo/beta_margin_mean": 0.07995922118425369,
+      "beta_dpo/beta_margin_std": 0.13016226887702942,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.016765594482422,
+      "beta_dpo/gap_mean": 111.73031616210938,
+      "beta_dpo/gap_std": 154.44381713867188,
+      "beta_dpo/loss_margin_mean": 79.95922088623047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.5991189427312775,
+      "grad_norm": 7.195991516113281,
+      "learning_rate": 2.0911786638150872e-07,
+      "logits/chosen": -0.40478670597076416,
+      "logits/rejected": -0.37068575620651245,
+      "loss": 1.3143,
+      "step": 408
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4723385274410248,
+      "beta_dpo/beta_margin_grad_std": 0.03917807340621948,
+      "beta_dpo/beta_margin_mean": 0.11170117557048798,
+      "beta_dpo/beta_margin_std": 0.15871573984622955,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.8204164505004883,
+      "beta_dpo/gap_mean": 109.16544342041016,
+      "beta_dpo/gap_std": 155.03025817871094,
+      "beta_dpo/loss_margin_mean": 111.70116424560547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6005873715124816,
+      "grad_norm": 7.589075565338135,
+      "learning_rate": 2.0785235566757517e-07,
+      "logits/chosen": -0.34394949674606323,
+      "logits/rejected": -0.3319231867790222,
+      "loss": 1.3136,
+      "step": 409
+    },
+    {
+      "beta_dpo/beta": 0.5207417011260986,
+      "beta_dpo/beta_margin_grad_mean": -0.3113498389720917,
+      "beta_dpo/beta_margin_grad_std": 0.3010904788970947,
+      "beta_dpo/beta_margin_mean": 55.4542121887207,
+      "beta_dpo/beta_margin_std": 125.90103912353516,
+      "beta_dpo/beta_used": 0.5207417011260986,
+      "beta_dpo/beta_used_raw": -0.16834038496017456,
+      "beta_dpo/gap_mean": 112.37252044677734,
+      "beta_dpo/gap_std": 154.6945343017578,
+      "beta_dpo/loss_margin_mean": 121.03668975830078,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6020558002936858,
+      "grad_norm": 1850.3192138671875,
+      "learning_rate": 2.065879555832674e-07,
+      "logits/chosen": -0.3558204472064972,
+      "logits/rejected": -0.34983137249946594,
+      "loss": 1.3845,
+      "step": 410
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4737773537635803,
+      "beta_dpo/beta_margin_grad_std": 0.046403612941503525,
+      "beta_dpo/beta_margin_mean": 0.10650434345006943,
+      "beta_dpo/beta_margin_std": 0.19019237160682678,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.678023338317871,
+      "beta_dpo/gap_mean": 113.07457733154297,
+      "beta_dpo/gap_std": 160.96011352539062,
+      "beta_dpo/loss_margin_mean": 106.50434112548828,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6035242290748899,
+      "grad_norm": 10.161256790161133,
+      "learning_rate": 2.0532469944670343e-07,
+      "logits/chosen": -0.293745219707489,
+      "logits/rejected": -0.2922123670578003,
+      "loss": 1.3083,
+      "step": 411
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4713696539402008,
+      "beta_dpo/beta_margin_grad_std": 0.04353627562522888,
+      "beta_dpo/beta_margin_mean": 0.11588773876428604,
+      "beta_dpo/beta_margin_std": 0.17700567841529846,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.7123887538909912,
+      "beta_dpo/gap_mean": 111.26490783691406,
+      "beta_dpo/gap_std": 163.46185302734375,
+      "beta_dpo/loss_margin_mean": 115.88773345947266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.604992657856094,
+      "grad_norm": 7.504628658294678,
+      "learning_rate": 2.0406262054585738e-07,
+      "logits/chosen": -0.3158118724822998,
+      "logits/rejected": -0.32687675952911377,
+      "loss": 1.3101,
+      "step": 412
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4713848829269409,
+      "beta_dpo/beta_margin_grad_std": 0.04106110334396362,
+      "beta_dpo/beta_margin_mean": 0.11544950306415558,
+      "beta_dpo/beta_margin_std": 0.16624687612056732,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9482701420783997,
+      "beta_dpo/gap_mean": 110.88575744628906,
+      "beta_dpo/gap_std": 163.36767578125,
+      "beta_dpo/loss_margin_mean": 115.44949340820312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6064610866372981,
+      "grad_norm": 10.111505508422852,
+      "learning_rate": 2.0280175213768205e-07,
+      "logits/chosen": -0.33399781584739685,
+      "logits/rejected": -0.3200353980064392,
+      "loss": 1.2993,
+      "step": 413
+    },
+    {
+      "beta_dpo/beta": 1.1125692129135132,
+      "beta_dpo/beta_margin_grad_mean": -0.3008454442024231,
+      "beta_dpo/beta_margin_grad_std": 0.29388001561164856,
+      "beta_dpo/beta_margin_mean": 208.84002685546875,
+      "beta_dpo/beta_margin_std": 342.9871826171875,
+      "beta_dpo/beta_used": 1.1125692129135132,
+      "beta_dpo/beta_used_raw": 0.5759499669075012,
+      "beta_dpo/gap_mean": 114.5771484375,
+      "beta_dpo/gap_std": 164.32669067382812,
+      "beta_dpo/loss_margin_mean": 140.61228942871094,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6079295154185022,
+      "grad_norm": 10158.8984375,
+      "learning_rate": 2.0154212744723247e-07,
+      "logits/chosen": -0.29129675030708313,
+      "logits/rejected": -0.28304004669189453,
+      "loss": 18.094,
+      "step": 414
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47645503282546997,
+      "beta_dpo/beta_margin_grad_std": 0.04023678973317146,
+      "beta_dpo/beta_margin_mean": 0.09504882246255875,
+      "beta_dpo/beta_margin_std": 0.1632952094078064,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.1535353660583496,
+      "beta_dpo/gap_mean": 116.05256652832031,
+      "beta_dpo/gap_std": 165.4222412109375,
+      "beta_dpo/loss_margin_mean": 95.04881286621094,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6093979441997063,
+      "grad_norm": 7.246009826660156,
+      "learning_rate": 2.002837796667909e-07,
+      "logits/chosen": -0.3636121153831482,
+      "logits/rejected": -0.35459795594215393,
+      "loss": 1.3127,
+      "step": 415
+    },
+    {
+      "beta_dpo/beta": 0.8338208198547363,
+      "beta_dpo/beta_margin_grad_mean": -0.17009158432483673,
+      "beta_dpo/beta_margin_grad_std": 0.35257911682128906,
+      "beta_dpo/beta_margin_mean": 129.33334350585938,
+      "beta_dpo/beta_margin_std": 189.8321990966797,
+      "beta_dpo/beta_used": 0.8338208198547363,
+      "beta_dpo/beta_used_raw": 0.8338208198547363,
+      "beta_dpo/gap_mean": 118.31330108642578,
+      "beta_dpo/gap_std": 161.25177001953125,
+      "beta_dpo/loss_margin_mean": 147.69627380371094,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6108663729809104,
+      "grad_norm": 9633.19921875,
+      "learning_rate": 1.990267419549914e-07,
+      "logits/chosen": -0.3395143449306488,
+      "logits/rejected": -0.32628241181373596,
+      "loss": 7.9484,
+      "step": 416
+    },
+    {
+      "beta_dpo/beta": 0.3650580644607544,
+      "beta_dpo/beta_margin_grad_mean": -0.3305802643299103,
+      "beta_dpo/beta_margin_grad_std": 0.3116385340690613,
+      "beta_dpo/beta_margin_mean": 45.415931701660156,
+      "beta_dpo/beta_margin_std": 81.82047271728516,
+      "beta_dpo/beta_used": 0.3650580644607544,
+      "beta_dpo/beta_used_raw": 0.1691010594367981,
+      "beta_dpo/gap_mean": 119.18829345703125,
+      "beta_dpo/gap_std": 156.21324157714844,
+      "beta_dpo/loss_margin_mean": 115.47030639648438,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6123348017621145,
+      "grad_norm": 3923.328857421875,
+      "learning_rate": 1.9777104743594686e-07,
+      "logits/chosen": -0.27080368995666504,
+      "logits/rejected": -0.22706595063209534,
+      "loss": 6.8179,
+      "step": 417
+    },
+    {
+      "beta_dpo/beta": 0.1472662091255188,
+      "beta_dpo/beta_margin_grad_mean": -0.31466129422187805,
+      "beta_dpo/beta_margin_grad_std": 0.29242756962776184,
+      "beta_dpo/beta_margin_mean": 24.18821907043457,
+      "beta_dpo/beta_margin_std": 42.399009704589844,
+      "beta_dpo/beta_used": 0.1472662091255188,
+      "beta_dpo/beta_used_raw": -0.4067423641681671,
+      "beta_dpo/gap_mean": 119.43331909179688,
+      "beta_dpo/gap_std": 159.44818115234375,
+      "beta_dpo/loss_margin_mean": 129.963623046875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6138032305433186,
+      "grad_norm": 956.6565551757812,
+      "learning_rate": 1.965167291983757e-07,
+      "logits/chosen": -0.38150128722190857,
+      "logits/rejected": -0.33936968445777893,
+      "loss": 2.2555,
+      "step": 418
+    },
+    {
+      "beta_dpo/beta": 0.04090619087219238,
+      "beta_dpo/beta_margin_grad_mean": -0.3300994336605072,
+      "beta_dpo/beta_margin_grad_std": 0.2953225076198578,
+      "beta_dpo/beta_margin_mean": 5.522484302520752,
+      "beta_dpo/beta_margin_std": 10.368701934814453,
+      "beta_dpo/beta_used": 0.04090619087219238,
+      "beta_dpo/beta_used_raw": -0.6058524250984192,
+      "beta_dpo/gap_mean": 123.40135192871094,
+      "beta_dpo/gap_std": 159.61978149414062,
+      "beta_dpo/loss_margin_mean": 131.7987060546875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6152716593245228,
+      "grad_norm": 406.3208312988281,
+      "learning_rate": 1.9526382029472988e-07,
+      "logits/chosen": -0.3685181736946106,
+      "logits/rejected": -0.35807985067367554,
+      "loss": 1.3448,
+      "step": 419
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.479174941778183,
+      "beta_dpo/beta_margin_grad_std": 0.043484870344400406,
+      "beta_dpo/beta_margin_mean": 0.08427228033542633,
+      "beta_dpo/beta_margin_std": 0.17619559168815613,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7748525738716125,
+      "beta_dpo/gap_mean": 117.49530029296875,
+      "beta_dpo/gap_std": 161.63946533203125,
+      "beta_dpo/loss_margin_mean": 84.27227783203125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6167400881057269,
+      "grad_norm": 8.381654739379883,
+      "learning_rate": 1.9401235374032425e-07,
+      "logits/chosen": -0.34530162811279297,
+      "logits/rejected": -0.2882389426231384,
+      "loss": 1.2911,
+      "step": 420
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4776723086833954,
+      "beta_dpo/beta_margin_grad_std": 0.03428473323583603,
+      "beta_dpo/beta_margin_mean": 0.08976796269416809,
+      "beta_dpo/beta_margin_std": 0.1381371021270752,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9457611441612244,
+      "beta_dpo/gap_mean": 111.70301818847656,
+      "beta_dpo/gap_std": 160.45973205566406,
+      "beta_dpo/loss_margin_mean": 89.76795959472656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.618208516886931,
+      "grad_norm": 6.698497772216797,
+      "learning_rate": 1.9276236251246653e-07,
+      "logits/chosen": -0.3635827600955963,
+      "logits/rejected": -0.3487810492515564,
+      "loss": 1.2975,
+      "step": 421
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.476465106010437,
+      "beta_dpo/beta_margin_grad_std": 0.03539099171757698,
+      "beta_dpo/beta_margin_mean": 0.09482631832361221,
+      "beta_dpo/beta_margin_std": 0.14304772019386292,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9157909154891968,
+      "beta_dpo/gap_mean": 108.79386901855469,
+      "beta_dpo/gap_std": 155.77139282226562,
+      "beta_dpo/loss_margin_mean": 94.8263168334961,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6196769456681351,
+      "grad_norm": 7.295708179473877,
+      "learning_rate": 1.9151387954958792e-07,
+      "logits/chosen": -0.323574960231781,
+      "logits/rejected": -0.3058650493621826,
+      "loss": 1.3,
+      "step": 422
+    },
+    {
+      "beta_dpo/beta": 0.5498670339584351,
+      "beta_dpo/beta_margin_grad_mean": -0.19201448559761047,
+      "beta_dpo/beta_margin_grad_std": 0.38938337564468384,
+      "beta_dpo/beta_margin_mean": 67.63153839111328,
+      "beta_dpo/beta_margin_std": 82.61705017089844,
+      "beta_dpo/beta_used": 0.5498670339584351,
+      "beta_dpo/beta_used_raw": 0.5498670339584351,
+      "beta_dpo/gap_mean": 111.04264831542969,
+      "beta_dpo/gap_std": 153.08340454101562,
+      "beta_dpo/loss_margin_mean": 124.84105682373047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6211453744493393,
+      "grad_norm": 2952.7294921875,
+      "learning_rate": 1.902669377503756e-07,
+      "logits/chosen": -0.29522740840911865,
+      "logits/rejected": -0.2932446002960205,
+      "loss": 5.8705,
+      "step": 423
+    },
+    {
+      "beta_dpo/beta": 0.027477234601974487,
+      "beta_dpo/beta_margin_grad_mean": -0.31576114892959595,
+      "beta_dpo/beta_margin_grad_std": 0.28133726119995117,
+      "beta_dpo/beta_margin_mean": 3.6695759296417236,
+      "beta_dpo/beta_margin_std": 6.411843299865723,
+      "beta_dpo/beta_used": 0.027477234601974487,
+      "beta_dpo/beta_used_raw": -1.4149752855300903,
+      "beta_dpo/gap_mean": 112.22328186035156,
+      "beta_dpo/gap_std": 152.5062255859375,
+      "beta_dpo/loss_margin_mean": 109.46617126464844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6226138032305433,
+      "grad_norm": 137.83319091796875,
+      "learning_rate": 1.890215699729057e-07,
+      "logits/chosen": -0.3986721932888031,
+      "logits/rejected": -0.3727181553840637,
+      "loss": 0.9681,
+      "step": 424
+    },
+    {
+      "beta_dpo/beta": 0.5835731625556946,
+      "beta_dpo/beta_margin_grad_mean": -0.3327001929283142,
+      "beta_dpo/beta_margin_grad_std": 0.312762588262558,
+      "beta_dpo/beta_margin_mean": 72.92134857177734,
+      "beta_dpo/beta_margin_std": 129.18519592285156,
+      "beta_dpo/beta_used": 0.5835731625556946,
+      "beta_dpo/beta_used_raw": 0.4376869797706604,
+      "beta_dpo/gap_mean": 109.38998413085938,
+      "beta_dpo/gap_std": 150.577880859375,
+      "beta_dpo/loss_margin_mean": 106.90679168701172,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6240822320117474,
+      "grad_norm": 6124.79150390625,
+      "learning_rate": 1.8777780903377732e-07,
+      "logits/chosen": -0.3280683159828186,
+      "logits/rejected": -0.32920628786087036,
+      "loss": 6.1878,
+      "step": 425
+    },
+    {
+      "beta_dpo/beta": 0.8895680904388428,
+      "beta_dpo/beta_margin_grad_mean": -0.30061760544776917,
+      "beta_dpo/beta_margin_grad_std": 0.29346781969070435,
+      "beta_dpo/beta_margin_mean": 142.06744384765625,
+      "beta_dpo/beta_margin_std": 253.59666442871094,
+      "beta_dpo/beta_used": 0.8895680904388428,
+      "beta_dpo/beta_used_raw": -0.7809062600135803,
+      "beta_dpo/gap_mean": 111.31645965576172,
+      "beta_dpo/gap_std": 149.850341796875,
+      "beta_dpo/loss_margin_mean": 127.76013946533203,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6255506607929515,
+      "grad_norm": 5486.13525390625,
+      "learning_rate": 1.8653568770724803e-07,
+      "logits/chosen": -0.37183499336242676,
+      "logits/rejected": -0.31186115741729736,
+      "loss": 8.4638,
+      "step": 426
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4798411726951599,
+      "beta_dpo/beta_margin_grad_std": 0.03274958208203316,
+      "beta_dpo/beta_margin_mean": 0.08117052912712097,
+      "beta_dpo/beta_margin_std": 0.13242076337337494,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.4412474632263184,
+      "beta_dpo/gap_mean": 109.63316345214844,
+      "beta_dpo/gap_std": 148.7486572265625,
+      "beta_dpo/loss_margin_mean": 81.17052459716797,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6270190895741556,
+      "grad_norm": 6.825258731842041,
+      "learning_rate": 1.8529523872436977e-07,
+      "logits/chosen": -0.3810279965400696,
+      "logits/rejected": -0.35081952810287476,
+      "loss": 1.306,
+      "step": 427
+    },
+    {
+      "beta_dpo/beta": 0.41161054372787476,
+      "beta_dpo/beta_margin_grad_mean": -0.32943397760391235,
+      "beta_dpo/beta_margin_grad_std": 0.30981266498565674,
+      "beta_dpo/beta_margin_mean": 47.70144271850586,
+      "beta_dpo/beta_margin_std": 109.32994842529297,
+      "beta_dpo/beta_used": 0.41161054372787476,
+      "beta_dpo/beta_used_raw": -0.37105491757392883,
+      "beta_dpo/gap_mean": 109.1749267578125,
+      "beta_dpo/gap_std": 149.90882873535156,
+      "beta_dpo/loss_margin_mean": 120.1363296508789,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6284875183553598,
+      "grad_norm": 3710.728271484375,
+      "learning_rate": 1.8405649477212697e-07,
+      "logits/chosen": -0.37873727083206177,
+      "logits/rejected": -0.37077072262763977,
+      "loss": 3.3058,
+      "step": 428
+    },
+    {
+      "beta_dpo/beta": 0.4344549775123596,
+      "beta_dpo/beta_margin_grad_mean": -0.2335137575864792,
+      "beta_dpo/beta_margin_grad_std": 0.4133719801902771,
+      "beta_dpo/beta_margin_mean": 48.72703552246094,
+      "beta_dpo/beta_margin_std": 64.88159942626953,
+      "beta_dpo/beta_used": 0.4344549775123596,
+      "beta_dpo/beta_used_raw": 0.4344549775123596,
+      "beta_dpo/gap_mean": 107.56082916259766,
+      "beta_dpo/gap_std": 150.14230346679688,
+      "beta_dpo/loss_margin_mean": 103.24775695800781,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6299559471365639,
+      "grad_norm": 3259.48974609375,
+      "learning_rate": 1.828194884925749e-07,
+      "logits/chosen": -0.38967394828796387,
+      "logits/rejected": -0.33787745237350464,
+      "loss": 7.8201,
+      "step": 429
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4721178114414215,
+      "beta_dpo/beta_margin_grad_std": 0.03465087339282036,
+      "beta_dpo/beta_margin_mean": 0.11242672055959702,
+      "beta_dpo/beta_margin_std": 0.14071322977542877,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.2862778902053833,
+      "beta_dpo/gap_mean": 109.13970947265625,
+      "beta_dpo/gap_std": 147.79107666015625,
+      "beta_dpo/loss_margin_mean": 112.42671203613281,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.631424375917768,
+      "grad_norm": 7.614285945892334,
+      "learning_rate": 1.8158425248197928e-07,
+      "logits/chosen": -0.4028991460800171,
+      "logits/rejected": -0.40245670080184937,
+      "loss": 1.3051,
+      "step": 430
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4677823781967163,
+      "beta_dpo/beta_margin_grad_std": 0.03935808688402176,
+      "beta_dpo/beta_margin_mean": 0.1300922930240631,
+      "beta_dpo/beta_margin_std": 0.15987038612365723,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7770711183547974,
+      "beta_dpo/gap_mean": 113.27009582519531,
+      "beta_dpo/gap_std": 150.56829833984375,
+      "beta_dpo/loss_margin_mean": 130.09228515625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6328928046989721,
+      "grad_norm": 6.900725841522217,
+      "learning_rate": 1.8035081928995788e-07,
+      "logits/chosen": -0.33334821462631226,
+      "logits/rejected": -0.32843929529190063,
+      "loss": 1.2936,
+      "step": 431
+    },
+    {
+      "beta_dpo/beta": 0.10785573720932007,
+      "beta_dpo/beta_margin_grad_mean": -0.31203174591064453,
+      "beta_dpo/beta_margin_grad_std": 0.2826971411705017,
+      "beta_dpo/beta_margin_mean": 17.94474220275879,
+      "beta_dpo/beta_margin_std": 30.068361282348633,
+      "beta_dpo/beta_used": 0.10785573720932007,
+      "beta_dpo/beta_used_raw": -0.6099668145179749,
+      "beta_dpo/gap_mean": 113.14790344238281,
+      "beta_dpo/gap_std": 143.69342041015625,
+      "beta_dpo/loss_margin_mean": 124.32618713378906,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6343612334801763,
+      "grad_norm": 871.7344970703125,
+      "learning_rate": 1.791192214186223e-07,
+      "logits/chosen": -0.4066033363342285,
+      "logits/rejected": -0.37539827823638916,
+      "loss": 2.6038,
+      "step": 432
+    },
+    {
+      "beta_dpo/beta": 0.2765732407569885,
+      "beta_dpo/beta_margin_grad_mean": -0.31871679425239563,
+      "beta_dpo/beta_margin_grad_std": 0.3027940094470978,
+      "beta_dpo/beta_margin_mean": 27.676023483276367,
+      "beta_dpo/beta_margin_std": 58.62560272216797,
+      "beta_dpo/beta_used": 0.2765732407569885,
+      "beta_dpo/beta_used_raw": -0.3640483319759369,
+      "beta_dpo/gap_mean": 112.42630767822266,
+      "beta_dpo/gap_std": 144.95359802246094,
+      "beta_dpo/loss_margin_mean": 93.55750274658203,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6358296622613803,
+      "grad_norm": 21.230777740478516,
+      "learning_rate": 1.7788949132172193e-07,
+      "logits/chosen": -0.358863890171051,
+      "logits/rejected": -0.34688135981559753,
+      "loss": 0.6547,
+      "step": 433
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47845569252967834,
+      "beta_dpo/beta_margin_grad_std": 0.030826503410935402,
+      "beta_dpo/beta_margin_mean": 0.0868024155497551,
+      "beta_dpo/beta_margin_std": 0.12513087689876556,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.8638619184494019,
+      "beta_dpo/gap_mean": 108.65299987792969,
+      "beta_dpo/gap_std": 142.203125,
+      "beta_dpo/loss_margin_mean": 86.80241394042969,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6372980910425844,
+      "grad_norm": 6.974902629852295,
+      "learning_rate": 1.7666166140378853e-07,
+      "logits/chosen": -0.39474016427993774,
+      "logits/rejected": -0.36454617977142334,
+      "loss": 1.3143,
+      "step": 434
+    },
+    {
+      "beta_dpo/beta": 0.4795774221420288,
+      "beta_dpo/beta_margin_grad_mean": -0.12648658454418182,
+      "beta_dpo/beta_margin_grad_std": 0.3134034276008606,
+      "beta_dpo/beta_margin_mean": 54.45040512084961,
+      "beta_dpo/beta_margin_std": 62.09480285644531,
+      "beta_dpo/beta_used": 0.4795774221420288,
+      "beta_dpo/beta_used_raw": 0.4795774221420288,
+      "beta_dpo/gap_mean": 108.19963073730469,
+      "beta_dpo/gap_std": 141.86123657226562,
+      "beta_dpo/loss_margin_mean": 114.60810089111328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6387665198237885,
+      "grad_norm": 1543.473388671875,
+      "learning_rate": 1.7543576401928218e-07,
+      "logits/chosen": -0.3778401017189026,
+      "logits/rejected": -0.35977697372436523,
+      "loss": 2.6214,
+      "step": 435
+    },
+    {
+      "beta_dpo/beta": 0.055185671895742416,
+      "beta_dpo/beta_margin_grad_mean": -0.30519527196884155,
+      "beta_dpo/beta_margin_grad_std": 0.2901572585105896,
+      "beta_dpo/beta_margin_mean": 5.6773810386657715,
+      "beta_dpo/beta_margin_std": 10.930699348449707,
+      "beta_dpo/beta_used": 0.055185671895742416,
+      "beta_dpo/beta_used_raw": -1.441216230392456,
+      "beta_dpo/gap_mean": 106.91453552246094,
+      "beta_dpo/gap_std": 138.24383544921875,
+      "beta_dpo/loss_margin_mean": 96.44285583496094,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6402349486049926,
+      "grad_norm": 229.00344848632812,
+      "learning_rate": 1.742118314717391e-07,
+      "logits/chosen": -0.40563905239105225,
+      "logits/rejected": -0.3649734854698181,
+      "loss": 1.3673,
+      "step": 436
+    },
+    {
+      "beta_dpo/beta": 0.44650039076805115,
+      "beta_dpo/beta_margin_grad_mean": -0.31715255975723267,
+      "beta_dpo/beta_margin_grad_std": 0.30363377928733826,
+      "beta_dpo/beta_margin_mean": 45.99268341064453,
+      "beta_dpo/beta_margin_std": 82.80380249023438,
+      "beta_dpo/beta_used": 0.44650039076805115,
+      "beta_dpo/beta_used_raw": -0.26632630825042725,
+      "beta_dpo/gap_mean": 104.29106140136719,
+      "beta_dpo/gap_std": 136.22210693359375,
+      "beta_dpo/loss_margin_mean": 96.21728515625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6417033773861968,
+      "grad_norm": 1593.89501953125,
+      "learning_rate": 1.7298989601292036e-07,
+      "logits/chosen": -0.3833288848400116,
+      "logits/rejected": -0.3413906693458557,
+      "loss": 5.1701,
+      "step": 437
+    },
+    {
+      "beta_dpo/beta": 1.1907906532287598,
+      "beta_dpo/beta_margin_grad_mean": -0.1750006526708603,
+      "beta_dpo/beta_margin_grad_std": 0.37429773807525635,
+      "beta_dpo/beta_margin_mean": 154.26736450195312,
+      "beta_dpo/beta_margin_std": 161.1520538330078,
+      "beta_dpo/beta_used": 1.1907906532287598,
+      "beta_dpo/beta_used_raw": 1.1907906532287598,
+      "beta_dpo/gap_mean": 107.95907592773438,
+      "beta_dpo/gap_std": 133.67709350585938,
+      "beta_dpo/loss_margin_mean": 126.7836685180664,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6431718061674009,
+      "grad_norm": 7641.5771484375,
+      "learning_rate": 1.7176998984196144e-07,
+      "logits/chosen": -0.37084126472473145,
+      "logits/rejected": -0.3320963382720947,
+      "loss": 8.9122,
+      "step": 438
+    },
+    {
+      "beta_dpo/beta": 0.07319752871990204,
+      "beta_dpo/beta_margin_grad_mean": -0.32128748297691345,
+      "beta_dpo/beta_margin_grad_std": 0.2859705984592438,
+      "beta_dpo/beta_margin_mean": 9.903467178344727,
+      "beta_dpo/beta_margin_std": 17.277389526367188,
+      "beta_dpo/beta_used": 0.07319752871990204,
+      "beta_dpo/beta_used_raw": -1.7231221199035645,
+      "beta_dpo/gap_mean": 107.83575439453125,
+      "beta_dpo/gap_std": 133.11056518554688,
+      "beta_dpo/loss_margin_mean": 90.30883026123047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.644640234948605,
+      "grad_norm": 512.3974609375,
+      "learning_rate": 1.7055214510452458e-07,
+      "logits/chosen": -0.40375328063964844,
+      "logits/rejected": -0.4028066396713257,
+      "loss": 1.4163,
+      "step": 439
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4809180796146393,
+      "beta_dpo/beta_margin_grad_std": 0.031033983454108238,
+      "beta_dpo/beta_margin_mean": 0.0767781138420105,
+      "beta_dpo/beta_margin_std": 0.1251077651977539,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.205794334411621,
+      "beta_dpo/gap_mean": 100.31968688964844,
+      "beta_dpo/gap_std": 130.88662719726562,
+      "beta_dpo/loss_margin_mean": 76.77810668945312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6461086637298091,
+      "grad_norm": 11.201451301574707,
+      "learning_rate": 1.6933639389195134e-07,
+      "logits/chosen": -0.48015761375427246,
+      "logits/rejected": -0.44124317169189453,
+      "loss": 1.3123,
+      "step": 440
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4754822850227356,
+      "beta_dpo/beta_margin_grad_std": 0.036441490054130554,
+      "beta_dpo/beta_margin_mean": 0.09894155710935593,
+      "beta_dpo/beta_margin_std": 0.1482171267271042,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.326048493385315,
+      "beta_dpo/gap_mean": 99.0499267578125,
+      "beta_dpo/gap_std": 131.88418579101562,
+      "beta_dpo/loss_margin_mean": 98.94155883789062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6475770925110133,
+      "grad_norm": 12.307683944702148,
+      "learning_rate": 1.681227682404166e-07,
+      "logits/chosen": -0.4150615930557251,
+      "logits/rejected": -0.4018522799015045,
+      "loss": 1.3149,
+      "step": 441
+    },
+    {
+      "beta_dpo/beta": 0.19351361691951752,
+      "beta_dpo/beta_margin_grad_mean": -0.2922385334968567,
+      "beta_dpo/beta_margin_grad_std": 0.2803710997104645,
+      "beta_dpo/beta_margin_mean": 28.820743560791016,
+      "beta_dpo/beta_margin_std": 45.040016174316406,
+      "beta_dpo/beta_used": 0.19351361691951752,
+      "beta_dpo/beta_used_raw": -0.9432244896888733,
+      "beta_dpo/gap_mean": 101.88089752197266,
+      "beta_dpo/gap_std": 133.10354614257812,
+      "beta_dpo/loss_margin_mean": 124.86181640625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6490455212922174,
+      "grad_norm": 920.883056640625,
+      "learning_rate": 1.669113001300851e-07,
+      "logits/chosen": -0.42568036913871765,
+      "logits/rejected": -0.4096643924713135,
+      "loss": 1.2978,
+      "step": 442
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.48161694407463074,
+      "beta_dpo/beta_margin_grad_std": 0.03176787868142128,
+      "beta_dpo/beta_margin_mean": 0.07391852885484695,
+      "beta_dpo/beta_margin_std": 0.12798674404621124,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9595794677734375,
+      "beta_dpo/gap_mean": 100.70872497558594,
+      "beta_dpo/gap_std": 131.86151123046875,
+      "beta_dpo/loss_margin_mean": 73.91852569580078,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6505139500734214,
+      "grad_norm": 8.173919677734375,
+      "learning_rate": 1.6570202148426815e-07,
+      "logits/chosen": -0.4086863398551941,
+      "logits/rejected": -0.38320356607437134,
+      "loss": 1.3075,
+      "step": 443
+    },
+    {
+      "beta_dpo/beta": 0.13834300637245178,
+      "beta_dpo/beta_margin_grad_mean": -0.29932746291160583,
+      "beta_dpo/beta_margin_grad_std": 0.28772518038749695,
+      "beta_dpo/beta_margin_mean": 17.195384979248047,
+      "beta_dpo/beta_margin_std": 30.380125045776367,
+      "beta_dpo/beta_used": 0.13834300637245178,
+      "beta_dpo/beta_used_raw": -0.6297559142112732,
+      "beta_dpo/gap_mean": 102.39837646484375,
+      "beta_dpo/gap_std": 133.09300231933594,
+      "beta_dpo/loss_margin_mean": 126.64820861816406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6519823788546255,
+      "grad_norm": 1877.506103515625,
+      "learning_rate": 1.6449496416858282e-07,
+      "logits/chosen": -0.38396507501602173,
+      "logits/rejected": -0.3728168308734894,
+      "loss": 2.6417,
+      "step": 444
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4744797348976135,
+      "beta_dpo/beta_margin_grad_std": 0.03470303490757942,
+      "beta_dpo/beta_margin_mean": 0.10285831242799759,
+      "beta_dpo/beta_margin_std": 0.14040379226207733,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7490635514259338,
+      "beta_dpo/gap_mean": 103.6148681640625,
+      "beta_dpo/gap_std": 134.420654296875,
+      "beta_dpo/loss_margin_mean": 102.85830688476562,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6534508076358296,
+      "grad_norm": 15.09030818939209,
+      "learning_rate": 1.6329015999011182e-07,
+      "logits/chosen": -0.4086730480194092,
+      "logits/rejected": -0.3865576982498169,
+      "loss": 1.3019,
+      "step": 445
+    },
+    {
+      "beta_dpo/beta": 0.28921666741371155,
+      "beta_dpo/beta_margin_grad_mean": -0.27025842666625977,
+      "beta_dpo/beta_margin_grad_std": 0.26976633071899414,
+      "beta_dpo/beta_margin_mean": 44.87013626098633,
+      "beta_dpo/beta_margin_std": 70.5100326538086,
+      "beta_dpo/beta_used": 0.28921666741371155,
+      "beta_dpo/beta_used_raw": -0.14518234133720398,
+      "beta_dpo/gap_mean": 104.75509643554688,
+      "beta_dpo/gap_std": 132.56423950195312,
+      "beta_dpo/loss_margin_mean": 121.7738265991211,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6549192364170338,
+      "grad_norm": 680.3995971679688,
+      "learning_rate": 1.6208764069656578e-07,
+      "logits/chosen": -0.42230162024497986,
+      "logits/rejected": -0.42033088207244873,
+      "loss": 1.0661,
+      "step": 446
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4698044955730438,
+      "beta_dpo/beta_margin_grad_std": 0.03518033027648926,
+      "beta_dpo/beta_margin_mean": 0.12202388048171997,
+      "beta_dpo/beta_margin_std": 0.14478100836277008,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.2607978880405426,
+      "beta_dpo/gap_mean": 110.31854248046875,
+      "beta_dpo/gap_std": 135.51388549804688,
+      "beta_dpo/loss_margin_mean": 122.02387237548828,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6563876651982379,
+      "grad_norm": 12.893980026245117,
+      "learning_rate": 1.608874379754465e-07,
+      "logits/chosen": -0.4422151446342468,
+      "logits/rejected": -0.45059633255004883,
+      "loss": 1.2871,
+      "step": 447
+    },
+    {
+      "beta_dpo/beta": 0.8242188692092896,
+      "beta_dpo/beta_margin_grad_mean": -0.2527080774307251,
+      "beta_dpo/beta_margin_grad_std": 0.254643052816391,
+      "beta_dpo/beta_margin_mean": 125.9197998046875,
+      "beta_dpo/beta_margin_std": 187.5569305419922,
+      "beta_dpo/beta_used": 0.8242188692092896,
+      "beta_dpo/beta_used_raw": -0.4037218689918518,
+      "beta_dpo/gap_mean": 111.61314392089844,
+      "beta_dpo/gap_std": 135.30453491210938,
+      "beta_dpo/loss_margin_mean": 128.5632781982422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.657856093979442,
+      "grad_norm": 4.838625907897949,
+      "learning_rate": 1.5968958345321177e-07,
+      "logits/chosen": -0.3758270740509033,
+      "logits/rejected": -0.3679637312889099,
+      "loss": 0.6614,
+      "step": 448
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4730731248855591,
+      "beta_dpo/beta_margin_grad_std": 0.04196110740303993,
+      "beta_dpo/beta_margin_mean": 0.1088365912437439,
+      "beta_dpo/beta_margin_std": 0.17029906809329987,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.4290629029273987,
+      "beta_dpo/gap_mean": 113.01295471191406,
+      "beta_dpo/gap_std": 139.9627685546875,
+      "beta_dpo/loss_margin_mean": 108.83658599853516,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6593245227606461,
+      "grad_norm": 8.870427131652832,
+      "learning_rate": 1.584941086944423e-07,
+      "logits/chosen": -0.4272603690624237,
+      "logits/rejected": -0.40170085430145264,
+      "loss": 1.2892,
+      "step": 449
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46986889839172363,
+      "beta_dpo/beta_margin_grad_std": 0.0339692123234272,
+      "beta_dpo/beta_margin_mean": 0.12120691686868668,
+      "beta_dpo/beta_margin_std": 0.13755354285240173,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.313100129365921,
+      "beta_dpo/gap_mean": 113.51698303222656,
+      "beta_dpo/gap_std": 141.5602264404297,
+      "beta_dpo/loss_margin_mean": 121.2069091796875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6607929515418502,
+      "grad_norm": 9.47729206085205,
+      "learning_rate": 1.573010452010098e-07,
+      "logits/chosen": -0.3865205645561218,
+      "logits/rejected": -0.38359227776527405,
+      "loss": 1.2847,
+      "step": 450
+    },
+    {
+      "beta_dpo/beta": 0.3940798044204712,
+      "beta_dpo/beta_margin_grad_mean": -0.33411669731140137,
+      "beta_dpo/beta_margin_grad_std": 0.31294018030166626,
+      "beta_dpo/beta_margin_mean": 42.9352912902832,
+      "beta_dpo/beta_margin_std": 87.50625610351562,
+      "beta_dpo/beta_used": 0.3940798044204712,
+      "beta_dpo/beta_used_raw": -0.24944308400154114,
+      "beta_dpo/gap_mean": 110.95838928222656,
+      "beta_dpo/gap_std": 140.57334899902344,
+      "beta_dpo/loss_margin_mean": 94.27608489990234,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6622613803230544,
+      "grad_norm": 3518.580078125,
+      "learning_rate": 1.5611042441124687e-07,
+      "logits/chosen": -0.3372274339199066,
+      "logits/rejected": -0.3046179413795471,
+      "loss": 7.5031,
+      "step": 451
+    },
+    {
+      "beta_dpo/beta": 0.7567883729934692,
+      "beta_dpo/beta_margin_grad_mean": -0.17167411744594574,
+      "beta_dpo/beta_margin_grad_std": 0.37626853585243225,
+      "beta_dpo/beta_margin_mean": 89.04338073730469,
+      "beta_dpo/beta_margin_std": 102.09488677978516,
+      "beta_dpo/beta_used": 0.7567883729934692,
+      "beta_dpo/beta_used_raw": 0.7567883729934692,
+      "beta_dpo/gap_mean": 111.77011108398438,
+      "beta_dpo/gap_std": 139.58013916015625,
+      "beta_dpo/loss_margin_mean": 117.5452651977539,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6637298091042585,
+      "grad_norm": 4123.4677734375,
+      "learning_rate": 1.549222776991186e-07,
+      "logits/chosen": -0.3441423773765564,
+      "logits/rejected": -0.35753265023231506,
+      "loss": 12.507,
+      "step": 452
+    },
+    {
+      "beta_dpo/beta": 0.0010159736266359687,
+      "beta_dpo/beta_margin_grad_mean": -0.47485530376434326,
+      "beta_dpo/beta_margin_grad_std": 0.03558202460408211,
+      "beta_dpo/beta_margin_mean": 0.10151873528957367,
+      "beta_dpo/beta_margin_std": 0.14481480419635773,
+      "beta_dpo/beta_used": 0.0010159736266359687,
+      "beta_dpo/beta_used_raw": -1.122417688369751,
+      "beta_dpo/gap_mean": 111.07215881347656,
+      "beta_dpo/gap_std": 140.66952514648438,
+      "beta_dpo/loss_margin_mean": 99.66301727294922,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6651982378854625,
+      "grad_norm": 8.228669166564941,
+      "learning_rate": 1.5373663637339584e-07,
+      "logits/chosen": -0.4157373905181885,
+      "logits/rejected": -0.38169363141059875,
+      "loss": 1.2991,
+      "step": 453
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46827903389930725,
+      "beta_dpo/beta_margin_grad_std": 0.03779821842908859,
+      "beta_dpo/beta_margin_mean": 0.1280444711446762,
+      "beta_dpo/beta_margin_std": 0.15373089909553528,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6103986501693726,
+      "beta_dpo/gap_mean": 112.77023315429688,
+      "beta_dpo/gap_std": 141.88412475585938,
+      "beta_dpo/loss_margin_mean": 128.04446411132812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6666666666666666,
+      "grad_norm": 7.617781162261963,
+      "learning_rate": 1.5255353167683017e-07,
+      "logits/chosen": -0.3238060176372528,
+      "logits/rejected": -0.2969810962677002,
+      "loss": 1.2903,
+      "step": 454
+    },
+    {
+      "beta_dpo/beta": 0.23283345997333527,
+      "beta_dpo/beta_margin_grad_mean": -0.27318888902664185,
+      "beta_dpo/beta_margin_grad_std": 0.2729749083518982,
+      "beta_dpo/beta_margin_mean": 31.724552154541016,
+      "beta_dpo/beta_margin_std": 55.67319107055664,
+      "beta_dpo/beta_used": 0.23283345997333527,
+      "beta_dpo/beta_used_raw": 0.23084740340709686,
+      "beta_dpo/gap_mean": 119.1419677734375,
+      "beta_dpo/gap_std": 145.837158203125,
+      "beta_dpo/loss_margin_mean": 164.03538513183594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6681350954478708,
+      "grad_norm": 257.9051208496094,
+      "learning_rate": 1.5137299478533064e-07,
+      "logits/chosen": -0.3444521725177765,
+      "logits/rejected": -0.35367467999458313,
+      "loss": 0.7604,
+      "step": 455
+    },
+    {
+      "beta_dpo/beta": 0.028770416975021362,
+      "beta_dpo/beta_margin_grad_mean": -0.30041444301605225,
+      "beta_dpo/beta_margin_grad_std": 0.25256428122520447,
+      "beta_dpo/beta_margin_mean": 4.620020866394043,
+      "beta_dpo/beta_margin_std": 7.49506950378418,
+      "beta_dpo/beta_used": 0.028770416975021362,
+      "beta_dpo/beta_used_raw": -0.5959498286247253,
+      "beta_dpo/gap_mean": 127.31085205078125,
+      "beta_dpo/gap_std": 151.3060302734375,
+      "beta_dpo/loss_margin_mean": 154.75982666015625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6696035242290749,
+      "grad_norm": 182.11668395996094,
+      "learning_rate": 1.5019505680714232e-07,
+      "logits/chosen": -0.36195001006126404,
+      "logits/rejected": -0.3621336817741394,
+      "loss": 0.9313,
+      "step": 456
+    },
+    {
+      "beta_dpo/beta": 0.9050564765930176,
+      "beta_dpo/beta_margin_grad_mean": -0.3133964538574219,
+      "beta_dpo/beta_margin_grad_std": 0.30206099152565,
+      "beta_dpo/beta_margin_mean": 119.8252182006836,
+      "beta_dpo/beta_margin_std": 193.12596130371094,
+      "beta_dpo/beta_used": 0.9050564765930176,
+      "beta_dpo/beta_used_raw": 0.25765174627304077,
+      "beta_dpo/gap_mean": 128.869873046875,
+      "beta_dpo/gap_std": 148.14273071289062,
+      "beta_dpo/loss_margin_mean": 125.5430908203125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.671071953010279,
+      "grad_norm": 2250.94482421875,
+      "learning_rate": 1.4901974878202627e-07,
+      "logits/chosen": -0.35765865445137024,
+      "logits/rejected": -0.3306649625301361,
+      "loss": 1.9311,
+      "step": 457
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46133655309677124,
+      "beta_dpo/beta_margin_grad_std": 0.03900197148323059,
+      "beta_dpo/beta_margin_mean": 0.15646237134933472,
+      "beta_dpo/beta_margin_std": 0.1608007401227951,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.31320202350616455,
+      "beta_dpo/gap_mean": 133.1038818359375,
+      "beta_dpo/gap_std": 151.08180236816406,
+      "beta_dpo/loss_margin_mean": 156.4623565673828,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6725403817914831,
+      "grad_norm": 7.672088146209717,
+      "learning_rate": 1.4784710168044212e-07,
+      "logits/chosen": -0.3376292586326599,
+      "logits/rejected": -0.31968408823013306,
+      "loss": 1.2669,
+      "step": 458
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46891355514526367,
+      "beta_dpo/beta_margin_grad_std": 0.03510946035385132,
+      "beta_dpo/beta_margin_mean": 0.12519963085651398,
+      "beta_dpo/beta_margin_std": 0.14195367693901062,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7991423606872559,
+      "beta_dpo/gap_mean": 132.22055053710938,
+      "beta_dpo/gap_std": 149.7262420654297,
+      "beta_dpo/loss_margin_mean": 125.19963073730469,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6740088105726872,
+      "grad_norm": 7.513828754425049,
+      "learning_rate": 1.466771464027316e-07,
+      "logits/chosen": -0.3106893301010132,
+      "logits/rejected": -0.30481159687042236,
+      "loss": 1.2765,
+      "step": 459
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46639198064804077,
+      "beta_dpo/beta_margin_grad_std": 0.03753071278333664,
+      "beta_dpo/beta_margin_mean": 0.13555875420570374,
+      "beta_dpo/beta_margin_std": 0.15229398012161255,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.736950159072876,
+      "beta_dpo/gap_mean": 132.47604370117188,
+      "beta_dpo/gap_std": 149.71617126464844,
+      "beta_dpo/loss_margin_mean": 135.55874633789062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6754772393538914,
+      "grad_norm": 9.385546684265137,
+      "learning_rate": 1.4550991377830423e-07,
+      "logits/chosen": -0.35042130947113037,
+      "logits/rejected": -0.36293381452560425,
+      "loss": 1.2756,
+      "step": 460
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4717380404472351,
+      "beta_dpo/beta_margin_grad_std": 0.03876164183020592,
+      "beta_dpo/beta_margin_mean": 0.11412369459867477,
+      "beta_dpo/beta_margin_std": 0.15732567012310028,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.1008927822113037,
+      "beta_dpo/gap_mean": 128.8672637939453,
+      "beta_dpo/gap_std": 150.39163208007812,
+      "beta_dpo/loss_margin_mean": 114.12368774414062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6769456681350955,
+      "grad_norm": 9.00002670288086,
+      "learning_rate": 1.4434543456482518e-07,
+      "logits/chosen": -0.3559180200099945,
+      "logits/rejected": -0.3427043855190277,
+      "loss": 1.2997,
+      "step": 461
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4784083962440491,
+      "beta_dpo/beta_margin_grad_std": 0.03373510017991066,
+      "beta_dpo/beta_margin_mean": 0.08696634322404861,
+      "beta_dpo/beta_margin_std": 0.1362220048904419,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.4599204063415527,
+      "beta_dpo/gap_mean": 123.946533203125,
+      "beta_dpo/gap_std": 149.71881103515625,
+      "beta_dpo/loss_margin_mean": 86.9663314819336,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6784140969162996,
+      "grad_norm": 9.362037658691406,
+      "learning_rate": 1.4318373944740484e-07,
+      "logits/chosen": -0.3212631940841675,
+      "logits/rejected": -0.29980742931365967,
+      "loss": 1.3102,
+      "step": 462
+    },
+    {
+      "beta_dpo/beta": 0.2805536985397339,
+      "beta_dpo/beta_margin_grad_mean": -0.3316049575805664,
+      "beta_dpo/beta_margin_grad_std": 0.31257641315460205,
+      "beta_dpo/beta_margin_mean": 38.56230926513672,
+      "beta_dpo/beta_margin_std": 81.53507232666016,
+      "beta_dpo/beta_used": 0.2805536985397339,
+      "beta_dpo/beta_used_raw": -0.2606269419193268,
+      "beta_dpo/gap_mean": 119.78553771972656,
+      "beta_dpo/gap_std": 151.25320434570312,
+      "beta_dpo/loss_margin_mean": 117.82292938232422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6798825256975036,
+      "grad_norm": 3597.947021484375,
+      "learning_rate": 1.4202485903778976e-07,
+      "logits/chosen": -0.3247862458229065,
+      "logits/rejected": -0.3129928708076477,
+      "loss": 7.63,
+      "step": 463
+    },
+    {
+      "beta_dpo/beta": 2.1228408813476562,
+      "beta_dpo/beta_margin_grad_mean": -0.12389523535966873,
+      "beta_dpo/beta_margin_grad_std": 0.3279002010822296,
+      "beta_dpo/beta_margin_mean": 394.66033935546875,
+      "beta_dpo/beta_margin_std": 431.92449951171875,
+      "beta_dpo/beta_used": 2.1228408813476562,
+      "beta_dpo/beta_used_raw": 2.1228408813476562,
+      "beta_dpo/gap_mean": 131.84754943847656,
+      "beta_dpo/gap_std": 157.7271728515625,
+      "beta_dpo/loss_margin_mean": 192.6825714111328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6813509544787077,
+      "grad_norm": 10341.1005859375,
+      "learning_rate": 1.4086882387355658e-07,
+      "logits/chosen": -0.3156416118144989,
+      "logits/rejected": -0.3281491696834564,
+      "loss": 29.0936,
+      "step": 464
+    },
+    {
+      "beta_dpo/beta": 0.4801773428916931,
+      "beta_dpo/beta_margin_grad_mean": -0.16912737488746643,
+      "beta_dpo/beta_margin_grad_std": 0.37140730023384094,
+      "beta_dpo/beta_margin_mean": 81.35899353027344,
+      "beta_dpo/beta_margin_std": 94.96959686279297,
+      "beta_dpo/beta_used": 0.4801773428916931,
+      "beta_dpo/beta_used_raw": 0.4801773428916931,
+      "beta_dpo/gap_mean": 137.17782592773438,
+      "beta_dpo/gap_std": 158.68795776367188,
+      "beta_dpo/loss_margin_mean": 162.17996215820312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6828193832599119,
+      "grad_norm": 4897.61328125,
+      "learning_rate": 1.3971566441730714e-07,
+      "logits/chosen": -0.31099051237106323,
+      "logits/rejected": -0.305058091878891,
+      "loss": 8.3958,
+      "step": 465
+    },
+    {
+      "beta_dpo/beta": 0.22260768711566925,
+      "beta_dpo/beta_margin_grad_mean": -0.2829422950744629,
+      "beta_dpo/beta_margin_grad_std": 0.2813977301120758,
+      "beta_dpo/beta_margin_mean": 33.30300521850586,
+      "beta_dpo/beta_margin_std": 57.53418731689453,
+      "beta_dpo/beta_used": 0.22260768711566925,
+      "beta_dpo/beta_used_raw": -0.26916056871414185,
+      "beta_dpo/gap_mean": 139.38119506835938,
+      "beta_dpo/gap_std": 160.36859130859375,
+      "beta_dpo/loss_margin_mean": 131.21505737304688,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.684287812041116,
+      "grad_norm": 1151.1441650390625,
+      "learning_rate": 1.3856541105586545e-07,
+      "logits/chosen": -0.3135194778442383,
+      "logits/rejected": -0.3104793429374695,
+      "loss": 1.2206,
+      "step": 466
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4690595865249634,
+      "beta_dpo/beta_margin_grad_std": 0.05179882049560547,
+      "beta_dpo/beta_margin_mean": 0.12564310431480408,
+      "beta_dpo/beta_margin_std": 0.21079717576503754,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.9833605289459229,
+      "beta_dpo/gap_mean": 137.7141571044922,
+      "beta_dpo/gap_std": 169.05447387695312,
+      "beta_dpo/loss_margin_mean": 125.64309692382812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6857562408223201,
+      "grad_norm": 9.571708679199219,
+      "learning_rate": 1.3741809409947729e-07,
+      "logits/chosen": -0.31644725799560547,
+      "logits/rejected": -0.29425540566444397,
+      "loss": 1.292,
+      "step": 467
+    },
+    {
+      "beta_dpo/beta": 0.5442880988121033,
+      "beta_dpo/beta_margin_grad_mean": -0.17244772613048553,
+      "beta_dpo/beta_margin_grad_std": 0.3269096910953522,
+      "beta_dpo/beta_margin_mean": 83.84257507324219,
+      "beta_dpo/beta_margin_std": 139.0602569580078,
+      "beta_dpo/beta_used": 0.5442880988121033,
+      "beta_dpo/beta_used_raw": 0.5442880988121033,
+      "beta_dpo/gap_mean": 136.60678100585938,
+      "beta_dpo/gap_std": 168.23411560058594,
+      "beta_dpo/loss_margin_mean": 139.57421875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6872246696035242,
+      "grad_norm": 2363.861083984375,
+      "learning_rate": 1.362737437810114e-07,
+      "logits/chosen": -0.3771149516105652,
+      "logits/rejected": -0.3516891598701477,
+      "loss": 1.9544,
+      "step": 468
+    },
+    {
+      "beta_dpo/beta": 0.5691275596618652,
+      "beta_dpo/beta_margin_grad_mean": -0.2979428172111511,
+      "beta_dpo/beta_margin_grad_std": 0.2913264036178589,
+      "beta_dpo/beta_margin_mean": 104.36015319824219,
+      "beta_dpo/beta_margin_std": 166.2760467529297,
+      "beta_dpo/beta_used": 0.5691275596618652,
+      "beta_dpo/beta_used_raw": 0.13212749361991882,
+      "beta_dpo/gap_mean": 139.35459899902344,
+      "beta_dpo/gap_std": 167.7623291015625,
+      "beta_dpo/loss_margin_mean": 148.57752990722656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6886930983847284,
+      "grad_norm": 4023.0234375,
+      "learning_rate": 1.351323902551631e-07,
+      "logits/chosen": -0.3229216933250427,
+      "logits/rejected": -0.2937919497489929,
+      "loss": 5.6201,
+      "step": 469
+    },
+    {
+      "beta_dpo/beta": 0.058329131454229355,
+      "beta_dpo/beta_margin_grad_mean": -0.30150657892227173,
+      "beta_dpo/beta_margin_grad_std": 0.2844862639904022,
+      "beta_dpo/beta_margin_mean": 8.915841102600098,
+      "beta_dpo/beta_margin_std": 17.628265380859375,
+      "beta_dpo/beta_used": 0.058329131454229355,
+      "beta_dpo/beta_used_raw": -0.260947585105896,
+      "beta_dpo/gap_mean": 140.06040954589844,
+      "beta_dpo/gap_std": 169.35638427734375,
+      "beta_dpo/loss_margin_mean": 151.863525390625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6901615271659325,
+      "grad_norm": 635.5731201171875,
+      "learning_rate": 1.339940635976592e-07,
+      "logits/chosen": -0.2994263470172882,
+      "logits/rejected": -0.2865986227989197,
+      "loss": 1.8137,
+      "step": 470
+    },
+    {
+      "beta_dpo/beta": 0.14344525337219238,
+      "beta_dpo/beta_margin_grad_mean": -0.32090723514556885,
+      "beta_dpo/beta_margin_grad_std": 0.296132355928421,
+      "beta_dpo/beta_margin_mean": 23.80760955810547,
+      "beta_dpo/beta_margin_std": 40.966461181640625,
+      "beta_dpo/beta_used": 0.14344525337219238,
+      "beta_dpo/beta_used_raw": -1.259301781654358,
+      "beta_dpo/gap_mean": 141.4301300048828,
+      "beta_dpo/gap_std": 166.99551391601562,
+      "beta_dpo/loss_margin_mean": 137.1492462158203,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6916299559471366,
+      "grad_norm": 660.4382934570312,
+      "learning_rate": 1.3285879380446563e-07,
+      "logits/chosen": -0.3323206603527069,
+      "logits/rejected": -0.301265686750412,
+      "loss": 1.5718,
+      "step": 471
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46238476037979126,
+      "beta_dpo/beta_margin_grad_std": 0.048712510615587234,
+      "beta_dpo/beta_margin_mean": 0.15300215780735016,
+      "beta_dpo/beta_margin_std": 0.2004023641347885,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.5177662372589111,
+      "beta_dpo/gap_mean": 141.42642211914062,
+      "beta_dpo/gap_std": 171.97683715820312,
+      "beta_dpo/loss_margin_mean": 153.0021514892578,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6930983847283406,
+      "grad_norm": 9.515340805053711,
+      "learning_rate": 1.317266107909975e-07,
+      "logits/chosen": -0.46395474672317505,
+      "logits/rejected": -0.4258913993835449,
+      "loss": 1.2787,
+      "step": 472
+    },
+    {
+      "beta_dpo/beta": 0.12622235715389252,
+      "beta_dpo/beta_margin_grad_mean": -0.3606536090373993,
+      "beta_dpo/beta_margin_grad_std": 0.32541587948799133,
+      "beta_dpo/beta_margin_mean": 11.348122596740723,
+      "beta_dpo/beta_margin_std": 32.52213668823242,
+      "beta_dpo/beta_used": 0.12622235715389252,
+      "beta_dpo/beta_used_raw": -2.1221091747283936,
+      "beta_dpo/gap_mean": 136.3826141357422,
+      "beta_dpo/gap_std": 172.83595275878906,
+      "beta_dpo/loss_margin_mean": 98.95618438720703,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6945668135095447,
+      "grad_norm": 874.2503051757812,
+      "learning_rate": 1.3059754439133002e-07,
+      "logits/chosen": -0.3121126890182495,
+      "logits/rejected": -0.27456527948379517,
+      "loss": 2.9427,
+      "step": 473
+    },
+    {
+      "beta_dpo/beta": 0.03025379776954651,
+      "beta_dpo/beta_margin_grad_mean": -0.3477736711502075,
+      "beta_dpo/beta_margin_grad_std": 0.26919984817504883,
+      "beta_dpo/beta_margin_mean": 3.4796054363250732,
+      "beta_dpo/beta_margin_std": 7.700491428375244,
+      "beta_dpo/beta_used": 0.03025379776954651,
+      "beta_dpo/beta_used_raw": -1.1924772262573242,
+      "beta_dpo/gap_mean": 128.73321533203125,
+      "beta_dpo/gap_std": 170.72265625,
+      "beta_dpo/loss_margin_mean": 102.19025421142578,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6960352422907489,
+      "grad_norm": 241.4309539794922,
+      "learning_rate": 1.2947162435741277e-07,
+      "logits/chosen": -0.3187577426433563,
+      "logits/rejected": -0.31267520785331726,
+      "loss": 1.019,
+      "step": 474
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4640824496746063,
+      "beta_dpo/beta_margin_grad_std": 0.03909669071435928,
+      "beta_dpo/beta_margin_mean": 0.14515595138072968,
+      "beta_dpo/beta_margin_std": 0.1593308448791504,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.4561372995376587,
+      "beta_dpo/gap_mean": 130.75253295898438,
+      "beta_dpo/gap_std": 168.95263671875,
+      "beta_dpo/loss_margin_mean": 145.15594482421875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.697503671071953,
+      "grad_norm": 7.302783966064453,
+      "learning_rate": 1.2834888035828596e-07,
+      "logits/chosen": -0.3118668496608734,
+      "logits/rejected": -0.32232552766799927,
+      "loss": 1.2878,
+      "step": 475
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4693569839000702,
+      "beta_dpo/beta_margin_grad_std": 0.03457416966557503,
+      "beta_dpo/beta_margin_mean": 0.12346017360687256,
+      "beta_dpo/beta_margin_std": 0.13980108499526978,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6184031367301941,
+      "beta_dpo/gap_mean": 130.04847717285156,
+      "beta_dpo/gap_std": 165.11314392089844,
+      "beta_dpo/loss_margin_mean": 123.46017456054688,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.6989720998531571,
+      "grad_norm": 10.900651931762695,
+      "learning_rate": 1.2722934197929802e-07,
+      "logits/chosen": -0.32981306314468384,
+      "logits/rejected": -0.3277033567428589,
+      "loss": 1.2757,
+      "step": 476
+    },
+    {
+      "beta_dpo/beta": 0.08377163857221603,
+      "beta_dpo/beta_margin_grad_mean": -0.3329217731952667,
+      "beta_dpo/beta_margin_grad_std": 0.2996887266635895,
+      "beta_dpo/beta_margin_mean": 9.991097450256348,
+      "beta_dpo/beta_margin_std": 23.768993377685547,
+      "beta_dpo/beta_used": 0.08377163857221603,
+      "beta_dpo/beta_used_raw": -0.9268441200256348,
+      "beta_dpo/gap_mean": 129.47628784179688,
+      "beta_dpo/gap_std": 165.23104858398438,
+      "beta_dpo/loss_margin_mean": 131.6189727783203,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7004405286343612,
+      "grad_norm": 881.2789306640625,
+      "learning_rate": 1.2611303872132631e-07,
+      "logits/chosen": -0.34101468324661255,
+      "logits/rejected": -0.27440470457077026,
+      "loss": 1.9278,
+      "step": 477
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46343475580215454,
+      "beta_dpo/beta_margin_grad_std": 0.039767127484083176,
+      "beta_dpo/beta_margin_mean": 0.14786657691001892,
+      "beta_dpo/beta_margin_std": 0.16245287656784058,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9066869616508484,
+      "beta_dpo/gap_mean": 131.2724609375,
+      "beta_dpo/gap_std": 162.33258056640625,
+      "beta_dpo/loss_margin_mean": 147.8665771484375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7019089574155654,
+      "grad_norm": 8.391778945922852,
+      "learning_rate": 1.2500000000000005e-07,
+      "logits/chosen": -0.3239785432815552,
+      "logits/rejected": -0.3198069930076599,
+      "loss": 1.2777,
+      "step": 478
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4676341712474823,
+      "beta_dpo/beta_margin_grad_std": 0.04058250039815903,
+      "beta_dpo/beta_margin_mean": 0.13071373105049133,
+      "beta_dpo/beta_margin_std": 0.16454558074474335,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.6241159439086914,
+      "beta_dpo/gap_mean": 130.87498474121094,
+      "beta_dpo/gap_std": 161.7484893798828,
+      "beta_dpo/loss_margin_mean": 130.71371459960938,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7033773861967695,
+      "grad_norm": 9.221752166748047,
+      "learning_rate": 1.2389025514492456e-07,
+      "logits/chosen": -0.3099960684776306,
+      "logits/rejected": -0.3118622601032257,
+      "loss": 1.2909,
+      "step": 479
+    },
+    {
+      "beta_dpo/beta": 0.13506542146205902,
+      "beta_dpo/beta_margin_grad_mean": -0.3352108895778656,
+      "beta_dpo/beta_margin_grad_std": 0.31329280138015747,
+      "beta_dpo/beta_margin_mean": 20.978227615356445,
+      "beta_dpo/beta_margin_std": 46.153724670410156,
+      "beta_dpo/beta_used": 0.13506542146205902,
+      "beta_dpo/beta_used_raw": -1.191691517829895,
+      "beta_dpo/gap_mean": 128.6205596923828,
+      "beta_dpo/gap_std": 162.02749633789062,
+      "beta_dpo/loss_margin_mean": 111.26964569091797,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7048458149779736,
+      "grad_norm": 1865.645751953125,
+      "learning_rate": 1.227838333989088e-07,
+      "logits/chosen": -0.2958667278289795,
+      "logits/rejected": -0.261913537979126,
+      "loss": 4.3921,
+      "step": 480
+    },
+    {
+      "beta_dpo/beta": 0.4420124888420105,
+      "beta_dpo/beta_margin_grad_mean": -0.32656970620155334,
+      "beta_dpo/beta_margin_grad_std": 0.3070107102394104,
+      "beta_dpo/beta_margin_mean": 69.89620208740234,
+      "beta_dpo/beta_margin_std": 127.26205444335938,
+      "beta_dpo/beta_used": 0.4420124888420105,
+      "beta_dpo/beta_used_raw": -0.41111305356025696,
+      "beta_dpo/gap_mean": 132.35614013671875,
+      "beta_dpo/gap_std": 165.59747314453125,
+      "beta_dpo/loss_margin_mean": 140.51625061035156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7063142437591777,
+      "grad_norm": 6225.22705078125,
+      "learning_rate": 1.2168076391719489e-07,
+      "logits/chosen": -0.29309454560279846,
+      "logits/rejected": -0.2821449935436249,
+      "loss": 10.966,
+      "step": 481
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47538548707962036,
+      "beta_dpo/beta_margin_grad_std": 0.0424528568983078,
+      "beta_dpo/beta_margin_mean": 0.09938764572143555,
+      "beta_dpo/beta_margin_std": 0.172020822763443,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.7888857126235962,
+      "beta_dpo/gap_mean": 127.62977600097656,
+      "beta_dpo/gap_std": 167.57472229003906,
+      "beta_dpo/loss_margin_mean": 99.38764190673828,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7077826725403817,
+      "grad_norm": 7.6943440437316895,
+      "learning_rate": 1.2058107576668938e-07,
+      "logits/chosen": -0.33630889654159546,
+      "logits/rejected": -0.3210619390010834,
+      "loss": 1.2958,
+      "step": 482
+    },
+    {
+      "beta_dpo/beta": 0.26435208320617676,
+      "beta_dpo/beta_margin_grad_mean": -0.2773337662220001,
+      "beta_dpo/beta_margin_grad_std": 0.2783583700656891,
+      "beta_dpo/beta_margin_mean": 39.302825927734375,
+      "beta_dpo/beta_margin_std": 61.75477981567383,
+      "beta_dpo/beta_used": 0.26435208320617676,
+      "beta_dpo/beta_used_raw": 0.08599334955215454,
+      "beta_dpo/gap_mean": 130.0849151611328,
+      "beta_dpo/gap_std": 171.31443786621094,
+      "beta_dpo/loss_margin_mean": 154.75323486328125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7092511013215859,
+      "grad_norm": 1278.6922607421875,
+      "learning_rate": 1.194847979251979e-07,
+      "logits/chosen": -0.3326480984687805,
+      "logits/rejected": -0.2999170124530792,
+      "loss": 1.3205,
+      "step": 483
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46763938665390015,
+      "beta_dpo/beta_margin_grad_std": 0.035770609974861145,
+      "beta_dpo/beta_margin_mean": 0.13057366013526917,
+      "beta_dpo/beta_margin_std": 0.1456281840801239,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.3041430711746216,
+      "beta_dpo/gap_mean": 129.75552368164062,
+      "beta_dpo/gap_std": 164.25143432617188,
+      "beta_dpo/loss_margin_mean": 130.5736541748047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.71071953010279,
+      "grad_norm": 10.355823516845703,
+      "learning_rate": 1.1839195928066101e-07,
+      "logits/chosen": -0.3226221203804016,
+      "logits/rejected": -0.2984588146209717,
+      "loss": 1.2859,
+      "step": 484
+    },
+    {
+      "beta_dpo/beta": 0.5772560238838196,
+      "beta_dpo/beta_margin_grad_mean": -0.33905330300331116,
+      "beta_dpo/beta_margin_grad_std": 0.3175105154514313,
+      "beta_dpo/beta_margin_mean": 89.47730255126953,
+      "beta_dpo/beta_margin_std": 172.3997344970703,
+      "beta_dpo/beta_used": 0.5772560238838196,
+      "beta_dpo/beta_used_raw": 0.09787964820861816,
+      "beta_dpo/gap_mean": 135.1558837890625,
+      "beta_dpo/gap_std": 167.03604125976562,
+      "beta_dpo/loss_margin_mean": 159.67459106445312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7121879588839941,
+      "grad_norm": 9029.59765625,
+      "learning_rate": 1.1730258863039347e-07,
+      "logits/chosen": -0.3165690302848816,
+      "logits/rejected": -0.30851900577545166,
+      "loss": 17.9925,
+      "step": 485
+    },
+    {
+      "beta_dpo/beta": 0.5253121852874756,
+      "beta_dpo/beta_margin_grad_mean": -0.3582148551940918,
+      "beta_dpo/beta_margin_grad_std": 0.32531389594078064,
+      "beta_dpo/beta_margin_mean": 79.52362823486328,
+      "beta_dpo/beta_margin_std": 165.96304321289062,
+      "beta_dpo/beta_used": 0.5253121852874756,
+      "beta_dpo/beta_used_raw": 0.35201627016067505,
+      "beta_dpo/gap_mean": 137.73037719726562,
+      "beta_dpo/gap_std": 171.21456909179688,
+      "beta_dpo/loss_margin_mean": 145.63682556152344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7136563876651982,
+      "grad_norm": 8708.306640625,
+      "learning_rate": 1.1621671468032493e-07,
+      "logits/chosen": -0.3039623498916626,
+      "logits/rejected": -0.28515172004699707,
+      "loss": 24.9742,
+      "step": 486
+    },
+    {
+      "beta_dpo/beta": 0.6316623091697693,
+      "beta_dpo/beta_margin_grad_mean": -0.15689758956432343,
+      "beta_dpo/beta_margin_grad_std": 0.36151018738746643,
+      "beta_dpo/beta_margin_mean": 86.09791564941406,
+      "beta_dpo/beta_margin_std": 80.9069595336914,
+      "beta_dpo/beta_used": 0.6316623091697693,
+      "beta_dpo/beta_used_raw": 0.6316623091697693,
+      "beta_dpo/gap_mean": 138.84857177734375,
+      "beta_dpo/gap_std": 166.0025634765625,
+      "beta_dpo/loss_margin_mean": 136.31451416015625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7151248164464024,
+      "grad_norm": 4539.7001953125,
+      "learning_rate": 1.1513436604424378e-07,
+      "logits/chosen": -0.3175516128540039,
+      "logits/rejected": -0.30147281289100647,
+      "loss": 7.4951,
+      "step": 487
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4705146551132202,
+      "beta_dpo/beta_margin_grad_std": 0.025216443464159966,
+      "beta_dpo/beta_margin_mean": 0.11842110008001328,
+      "beta_dpo/beta_margin_std": 0.10160267353057861,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.245683193206787,
+      "beta_dpo/gap_mean": 134.59036254882812,
+      "beta_dpo/gap_std": 155.66152954101562,
+      "beta_dpo/loss_margin_mean": 118.42108917236328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7165932452276065,
+      "grad_norm": 10.171424865722656,
+      "learning_rate": 1.1405557124304335e-07,
+      "logits/chosen": -0.3197871446609497,
+      "logits/rejected": -0.2931329607963562,
+      "loss": 1.2797,
+      "step": 488
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47052738070487976,
+      "beta_dpo/beta_margin_grad_std": 0.03435816988348961,
+      "beta_dpo/beta_margin_mean": 0.11888797581195831,
+      "beta_dpo/beta_margin_std": 0.13958628475666046,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.862081527709961,
+      "beta_dpo/gap_mean": 132.25436401367188,
+      "beta_dpo/gap_std": 150.97909545898438,
+      "beta_dpo/loss_margin_mean": 118.88796997070312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7180616740088106,
+      "grad_norm": 7.416528701782227,
+      "learning_rate": 1.1298035870396985e-07,
+      "logits/chosen": -0.39010077714920044,
+      "logits/rejected": -0.36551567912101746,
+      "loss": 1.3069,
+      "step": 489
+    },
+    {
+      "beta_dpo/beta": 0.058361634612083435,
+      "beta_dpo/beta_margin_grad_mean": -0.35114118456840515,
+      "beta_dpo/beta_margin_grad_std": 0.3123593032360077,
+      "beta_dpo/beta_margin_mean": 8.510327339172363,
+      "beta_dpo/beta_margin_std": 16.38105583190918,
+      "beta_dpo/beta_used": 0.058361634612083435,
+      "beta_dpo/beta_used_raw": -0.9930161833763123,
+      "beta_dpo/gap_mean": 131.10269165039062,
+      "beta_dpo/gap_std": 152.6240692138672,
+      "beta_dpo/loss_margin_mean": 133.6477813720703,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7195301027900147,
+      "grad_norm": 638.021728515625,
+      "learning_rate": 1.1190875675987355e-07,
+      "logits/chosen": -0.40140801668167114,
+      "logits/rejected": -0.4072290062904358,
+      "loss": 2.6273,
+      "step": 490
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47306498885154724,
+      "beta_dpo/beta_margin_grad_std": 0.03465822711586952,
+      "beta_dpo/beta_margin_mean": 0.10852167010307312,
+      "beta_dpo/beta_margin_std": 0.14018140733242035,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.122982144355774,
+      "beta_dpo/gap_mean": 128.78497314453125,
+      "beta_dpo/gap_std": 152.2926025390625,
+      "beta_dpo/loss_margin_mean": 108.52165985107422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7209985315712188,
+      "grad_norm": 8.015692710876465,
+      "learning_rate": 1.1084079364846241e-07,
+      "logits/chosen": -0.3382050395011902,
+      "logits/rejected": -0.30560484528541565,
+      "loss": 1.2841,
+      "step": 491
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4801286458969116,
+      "beta_dpo/beta_margin_grad_std": 0.03697565570473671,
+      "beta_dpo/beta_margin_mean": 0.07998443394899368,
+      "beta_dpo/beta_margin_std": 0.14913584291934967,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.9428200721740723,
+      "beta_dpo/gap_mean": 120.65419006347656,
+      "beta_dpo/gap_std": 151.2496337890625,
+      "beta_dpo/loss_margin_mean": 79.98442840576172,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7224669603524229,
+      "grad_norm": 7.962594509124756,
+      "learning_rate": 1.097764975115576e-07,
+      "logits/chosen": -0.32057705521583557,
+      "logits/rejected": -0.30018332600593567,
+      "loss": 1.3048,
+      "step": 492
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4754677712917328,
+      "beta_dpo/beta_margin_grad_std": 0.03316526114940643,
+      "beta_dpo/beta_margin_mean": 0.09875541180372238,
+      "beta_dpo/beta_margin_std": 0.13388586044311523,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.9641090631484985,
+      "beta_dpo/gap_mean": 116.27113342285156,
+      "beta_dpo/gap_std": 149.367431640625,
+      "beta_dpo/loss_margin_mean": 98.75540924072266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.723935389133627,
+      "grad_norm": 8.332205772399902,
+      "learning_rate": 1.0871589639435203e-07,
+      "logits/chosen": -0.3866749703884125,
+      "logits/rejected": -0.3490540385246277,
+      "loss": 1.3088,
+      "step": 493
+    },
+    {
+      "beta_dpo/beta": 1.4735260009765625,
+      "beta_dpo/beta_margin_grad_mean": -0.15571968257427216,
+      "beta_dpo/beta_margin_grad_std": 0.3583217263221741,
+      "beta_dpo/beta_margin_mean": 210.98004150390625,
+      "beta_dpo/beta_margin_std": 204.13458251953125,
+      "beta_dpo/beta_used": 1.4735260009765625,
+      "beta_dpo/beta_used_raw": 1.4735260009765625,
+      "beta_dpo/gap_mean": 119.46544647216797,
+      "beta_dpo/gap_std": 148.60195922851562,
+      "beta_dpo/loss_margin_mean": 145.59498596191406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7254038179148311,
+      "grad_norm": 6623.4462890625,
+      "learning_rate": 1.0765901824467166e-07,
+      "logits/chosen": -0.2984636425971985,
+      "logits/rejected": -0.31005731225013733,
+      "loss": 4.6034,
+      "step": 494
+    },
+    {
+      "beta_dpo/beta": 0.5986773371696472,
+      "beta_dpo/beta_margin_grad_mean": -0.2792108356952667,
+      "beta_dpo/beta_margin_grad_std": 0.2721221148967743,
+      "beta_dpo/beta_margin_mean": 80.61207580566406,
+      "beta_dpo/beta_margin_std": 141.1808624267578,
+      "beta_dpo/beta_used": 0.5986773371696472,
+      "beta_dpo/beta_used_raw": -0.09175539016723633,
+      "beta_dpo/gap_mean": 119.32475280761719,
+      "beta_dpo/gap_std": 148.88406372070312,
+      "beta_dpo/loss_margin_mean": 118.74334716796875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7268722466960352,
+      "grad_norm": 1850.2857666015625,
+      "learning_rate": 1.0660589091223854e-07,
+      "logits/chosen": -0.3925628662109375,
+      "logits/rejected": -0.37049469351768494,
+      "loss": 0.6957,
+      "step": 495
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4757267236709595,
+      "beta_dpo/beta_margin_grad_std": 0.030057376250624657,
+      "beta_dpo/beta_margin_mean": 0.09760633856058121,
+      "beta_dpo/beta_margin_std": 0.12117937952280045,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.945371389389038,
+      "beta_dpo/gap_mean": 116.95680236816406,
+      "beta_dpo/gap_std": 145.31634521484375,
+      "beta_dpo/loss_margin_mean": 97.60633850097656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7283406754772394,
+      "grad_norm": 7.529769420623779,
+      "learning_rate": 1.0555654214793722e-07,
+      "logits/chosen": -0.3815876245498657,
+      "logits/rejected": -0.34360769391059875,
+      "loss": 1.3074,
+      "step": 496
+    },
+    {
+      "beta_dpo/beta": 0.8181713223457336,
+      "beta_dpo/beta_margin_grad_mean": -0.27269458770751953,
+      "beta_dpo/beta_margin_grad_std": 0.2720523774623871,
+      "beta_dpo/beta_margin_mean": 115.75753021240234,
+      "beta_dpo/beta_margin_std": 177.8175506591797,
+      "beta_dpo/beta_used": 0.8181713223457336,
+      "beta_dpo/beta_used_raw": -0.907131552696228,
+      "beta_dpo/gap_mean": 115.927490234375,
+      "beta_dpo/gap_std": 140.37762451171875,
+      "beta_dpo/loss_margin_mean": 105.21829986572266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7298091042584435,
+      "grad_norm": 2982.553955078125,
+      "learning_rate": 1.0451099960308374e-07,
+      "logits/chosen": -0.3127893805503845,
+      "logits/rejected": -0.2815262973308563,
+      "loss": 2.3877,
+      "step": 497
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4737287759780884,
+      "beta_dpo/beta_margin_grad_std": 0.037132780998945236,
+      "beta_dpo/beta_margin_mean": 0.10587074607610703,
+      "beta_dpo/beta_margin_std": 0.15012362599372864,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.5454678535461426,
+      "beta_dpo/gap_mean": 111.99593353271484,
+      "beta_dpo/gap_std": 142.203369140625,
+      "beta_dpo/loss_margin_mean": 105.87074279785156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7312775330396476,
+      "grad_norm": 8.269208908081055,
+      "learning_rate": 1.0346929082869641e-07,
+      "logits/chosen": -0.3560227155685425,
+      "logits/rejected": -0.323871910572052,
+      "loss": 1.2907,
+      "step": 498
+    },
+    {
+      "beta_dpo/beta": 0.6870215535163879,
+      "beta_dpo/beta_margin_grad_mean": -0.1571728140115738,
+      "beta_dpo/beta_margin_grad_std": 0.35055309534072876,
+      "beta_dpo/beta_margin_mean": 93.55929565429688,
+      "beta_dpo/beta_margin_std": 131.30792236328125,
+      "beta_dpo/beta_used": 0.6870215535163879,
+      "beta_dpo/beta_used_raw": 0.6870215535163879,
+      "beta_dpo/gap_mean": 114.74722290039062,
+      "beta_dpo/gap_std": 141.5767822265625,
+      "beta_dpo/loss_margin_mean": 125.64728546142578,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7327459618208517,
+      "grad_norm": 825.9117431640625,
+      "learning_rate": 1.0243144327477013e-07,
+      "logits/chosen": -0.30797550082206726,
+      "logits/rejected": -0.313708633184433,
+      "loss": 1.0329,
+      "step": 499
+    },
+    {
+      "beta_dpo/beta": 0.7255595922470093,
+      "beta_dpo/beta_margin_grad_mean": -0.3108097314834595,
+      "beta_dpo/beta_margin_grad_std": 0.3008542060852051,
+      "beta_dpo/beta_margin_mean": 94.36482238769531,
+      "beta_dpo/beta_margin_std": 166.26669311523438,
+      "beta_dpo/beta_used": 0.7255595922470093,
+      "beta_dpo/beta_used_raw": 0.49765706062316895,
+      "beta_dpo/gap_mean": 117.69755554199219,
+      "beta_dpo/gap_std": 142.67498779296875,
+      "beta_dpo/loss_margin_mean": 134.94979858398438,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7342143906020558,
+      "grad_norm": 940.185546875,
+      "learning_rate": 1.0139748428955333e-07,
+      "logits/chosen": -0.30566155910491943,
+      "logits/rejected": -0.30621030926704407,
+      "loss": 1.1587,
+      "step": 500
+    },
+    {
+      "epoch": 0.7342143906020558,
+      "eval_beta_dpo/beta": 0.0540650337934494,
+      "eval_beta_dpo/beta_margin_grad_mean": -0.4557286202907562,
+      "eval_beta_dpo/beta_margin_grad_std": 0.06789226830005646,
+      "eval_beta_dpo/beta_margin_mean": 7.248837947845459,
+      "eval_beta_dpo/beta_margin_std": 9.07664680480957,
+      "eval_beta_dpo/beta_used": 0.0540650337934494,
+      "eval_beta_dpo/beta_used_raw": -2.3147406578063965,
+      "eval_beta_dpo/gap_mean": 118.34776306152344,
+      "eval_beta_dpo/gap_std": 142.3097686767578,
+      "eval_beta_dpo/loss_margin_mean": 78.1020736694336,
+      "eval_beta_dpo/mask_keep_frac": 1.0,
+      "eval_logits/chosen": -0.35900095105171204,
+      "eval_logits/rejected": -0.3353206515312195,
+      "eval_loss": 1.3023549318313599,
+      "eval_runtime": 40.1743,
+      "eval_samples_per_second": 58.221,
+      "eval_steps_per_second": 1.842,
+      "step": 500
+    },
+    {
+      "beta_dpo/beta": 0.08518475294113159,
+      "beta_dpo/beta_margin_grad_mean": -0.31711265444755554,
+      "beta_dpo/beta_margin_grad_std": 0.289605975151062,
+      "beta_dpo/beta_margin_mean": 13.289090156555176,
+      "beta_dpo/beta_margin_std": 21.948522567749023,
+      "beta_dpo/beta_used": 0.08518475294113159,
+      "beta_dpo/beta_used_raw": -1.208457112312317,
+      "beta_dpo/gap_mean": 119.19757843017578,
+      "beta_dpo/gap_std": 144.50363159179688,
+      "beta_dpo/loss_margin_mean": 131.8070068359375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.73568281938326,
+      "grad_norm": 516.4696044921875,
+      "learning_rate": 1.0036744111882672e-07,
+      "logits/chosen": -0.2940847873687744,
+      "logits/rejected": -0.2648616433143616,
+      "loss": 1.1495,
+      "step": 501
+    },
+    {
+      "beta_dpo/beta": 0.3071337640285492,
+      "beta_dpo/beta_margin_grad_mean": -0.239473357796669,
+      "beta_dpo/beta_margin_grad_std": 0.23620876669883728,
+      "beta_dpo/beta_margin_mean": 44.45820617675781,
+      "beta_dpo/beta_margin_std": 64.65328979492188,
+      "beta_dpo/beta_used": 0.3071337640285492,
+      "beta_dpo/beta_used_raw": -0.02544143795967102,
+      "beta_dpo/gap_mean": 120.6997299194336,
+      "beta_dpo/gap_std": 140.1085205078125,
+      "beta_dpo/loss_margin_mean": 124.3865966796875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.737151248164464,
+      "grad_norm": 124.2741928100586,
+      "learning_rate": 9.934134090518592e-08,
+      "logits/chosen": -0.34868794679641724,
+      "logits/rejected": -0.3092746138572693,
+      "loss": 0.6492,
+      "step": 502
+    },
+    {
+      "beta_dpo/beta": 0.408588171005249,
+      "beta_dpo/beta_margin_grad_mean": -0.28420010209083557,
+      "beta_dpo/beta_margin_grad_std": 0.28162574768066406,
+      "beta_dpo/beta_margin_mean": 52.1716423034668,
+      "beta_dpo/beta_margin_std": 84.77537536621094,
+      "beta_dpo/beta_used": 0.408588171005249,
+      "beta_dpo/beta_used_raw": -0.3279840648174286,
+      "beta_dpo/gap_mean": 121.5184326171875,
+      "beta_dpo/gap_std": 136.5009765625,
+      "beta_dpo/loss_margin_mean": 114.87471008300781,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7386196769456681,
+      "grad_norm": 1218.5517578125,
+      "learning_rate": 9.831921068732571e-08,
+      "logits/chosen": -0.2874418795108795,
+      "logits/rejected": -0.2468714714050293,
+      "loss": 1.7133,
+      "step": 503
+    },
+    {
+      "beta_dpo/beta": 1.1715275049209595,
+      "beta_dpo/beta_margin_grad_mean": -0.27964290976524353,
+      "beta_dpo/beta_margin_grad_std": 0.27907973527908325,
+      "beta_dpo/beta_margin_mean": 199.27561950683594,
+      "beta_dpo/beta_margin_std": 273.30157470703125,
+      "beta_dpo/beta_used": 1.1715275049209595,
+      "beta_dpo/beta_used_raw": 0.7455565929412842,
+      "beta_dpo/gap_mean": 126.13829040527344,
+      "beta_dpo/gap_std": 136.19711303710938,
+      "beta_dpo/loss_margin_mean": 154.6195526123047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7400881057268722,
+      "grad_norm": 6307.01123046875,
+      "learning_rate": 9.730107739932805e-08,
+      "logits/chosen": -0.31520044803619385,
+      "logits/rejected": -0.31102991104125977,
+      "loss": 3.7457,
+      "step": 504
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47535502910614014,
+      "beta_dpo/beta_margin_grad_std": 0.03676827251911163,
+      "beta_dpo/beta_margin_mean": 0.09925924986600876,
+      "beta_dpo/beta_margin_std": 0.1482783406972885,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.7212300300598145,
+      "beta_dpo/gap_mean": 122.90274047851562,
+      "beta_dpo/gap_std": 139.72247314453125,
+      "beta_dpo/loss_margin_mean": 99.25924682617188,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7415565345080763,
+      "grad_norm": 8.723043441772461,
+      "learning_rate": 9.628696786995188e-08,
+      "logits/chosen": -0.3765321969985962,
+      "logits/rejected": -0.3430270552635193,
+      "loss": 1.3002,
+      "step": 505
+    },
+    {
+      "beta_dpo/beta": 0.41072434186935425,
+      "beta_dpo/beta_margin_grad_mean": -0.2921498417854309,
+      "beta_dpo/beta_margin_grad_std": 0.27914443612098694,
+      "beta_dpo/beta_margin_mean": 61.24283218383789,
+      "beta_dpo/beta_margin_std": 103.88602447509766,
+      "beta_dpo/beta_used": 0.41072434186935425,
+      "beta_dpo/beta_used_raw": 0.20597346127033234,
+      "beta_dpo/gap_mean": 124.59944915771484,
+      "beta_dpo/gap_std": 140.55581665039062,
+      "beta_dpo/loss_margin_mean": 139.48028564453125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7430249632892805,
+      "grad_norm": 916.702880859375,
+      "learning_rate": 9.527690882192635e-08,
+      "logits/chosen": -0.3146125376224518,
+      "logits/rejected": -0.2966008186340332,
+      "loss": 4.1001,
+      "step": 506
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47250908613204956,
+      "beta_dpo/beta_margin_grad_std": 0.03613479807972908,
+      "beta_dpo/beta_margin_mean": 0.11091171205043793,
+      "beta_dpo/beta_margin_std": 0.14667391777038574,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.4757391214370728,
+      "beta_dpo/gap_mean": 123.23077392578125,
+      "beta_dpo/gap_std": 141.94122314453125,
+      "beta_dpo/loss_margin_mean": 110.91170501708984,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7444933920704846,
+      "grad_norm": 11.176294326782227,
+      "learning_rate": 9.427092687124691e-08,
+      "logits/chosen": -0.3175603449344635,
+      "logits/rejected": -0.2914998531341553,
+      "loss": 1.2946,
+      "step": 507
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4737025201320648,
+      "beta_dpo/beta_margin_grad_std": 0.038725487887859344,
+      "beta_dpo/beta_margin_mean": 0.10615622252225876,
+      "beta_dpo/beta_margin_std": 0.15725988149642944,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.256690502166748,
+      "beta_dpo/gap_mean": 119.46562957763672,
+      "beta_dpo/gap_std": 144.94464111328125,
+      "beta_dpo/loss_margin_mean": 106.15621948242188,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7459618208516887,
+      "grad_norm": 8.980006217956543,
+      "learning_rate": 9.326904852647344e-08,
+      "logits/chosen": -0.3461516499519348,
+      "logits/rejected": -0.3254041373729706,
+      "loss": 1.3101,
+      "step": 508
+    },
+    {
+      "beta_dpo/beta": 0.034919556230306625,
+      "beta_dpo/beta_margin_grad_mean": -0.29076310992240906,
+      "beta_dpo/beta_margin_grad_std": 0.26489248871803284,
+      "beta_dpo/beta_margin_mean": 4.45152473449707,
+      "beta_dpo/beta_margin_std": 6.8051252365112305,
+      "beta_dpo/beta_used": 0.034919556230306625,
+      "beta_dpo/beta_used_raw": -0.7437249422073364,
+      "beta_dpo/gap_mean": 117.4862060546875,
+      "beta_dpo/gap_std": 143.86575317382812,
+      "beta_dpo/loss_margin_mean": 112.33943176269531,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7474302496328928,
+      "grad_norm": 281.12945556640625,
+      "learning_rate": 9.227130018803195e-08,
+      "logits/chosen": -0.3934116065502167,
+      "logits/rejected": -0.3660675883293152,
+      "loss": 0.8276,
+      "step": 509
+    },
+    {
+      "beta_dpo/beta": 0.6322641372680664,
+      "beta_dpo/beta_margin_grad_mean": -0.32574018836021423,
+      "beta_dpo/beta_margin_grad_std": 0.3087122440338135,
+      "beta_dpo/beta_margin_mean": 86.17361450195312,
+      "beta_dpo/beta_margin_std": 161.67727661132812,
+      "beta_dpo/beta_used": 0.6322641372680664,
+      "beta_dpo/beta_used_raw": 0.5919451713562012,
+      "beta_dpo/gap_mean": 120.94603729248047,
+      "beta_dpo/gap_std": 143.10879516601562,
+      "beta_dpo/loss_margin_mean": 138.92527770996094,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.748898678414097,
+      "grad_norm": 7391.86083984375,
+      "learning_rate": 9.127770814751932e-08,
+      "logits/chosen": -0.3361413776874542,
+      "logits/rejected": -0.3392980992794037,
+      "loss": 5.2172,
+      "step": 510
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4689362347126007,
+      "beta_dpo/beta_margin_grad_std": 0.041758738458156586,
+      "beta_dpo/beta_margin_mean": 0.1254274845123291,
+      "beta_dpo/beta_margin_std": 0.16929617524147034,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9141647815704346,
+      "beta_dpo/gap_mean": 122.11959838867188,
+      "beta_dpo/gap_std": 146.7066192626953,
+      "beta_dpo/loss_margin_mean": 125.42748260498047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.750367107195301,
+      "grad_norm": 14.153034210205078,
+      "learning_rate": 9.028829858700973e-08,
+      "logits/chosen": -0.3057625889778137,
+      "logits/rejected": -0.2901447117328644,
+      "loss": 1.287,
+      "step": 511
+    },
+    {
+      "beta_dpo/beta": 0.12954731285572052,
+      "beta_dpo/beta_margin_grad_mean": -0.32700619101524353,
+      "beta_dpo/beta_margin_grad_std": 0.3073154091835022,
+      "beta_dpo/beta_margin_mean": 18.631834030151367,
+      "beta_dpo/beta_margin_std": 31.87902069091797,
+      "beta_dpo/beta_used": 0.12954731285572052,
+      "beta_dpo/beta_used_raw": -0.11738580465316772,
+      "beta_dpo/gap_mean": 125.70597839355469,
+      "beta_dpo/gap_std": 147.9683837890625,
+      "beta_dpo/loss_margin_mean": 142.68536376953125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7518355359765051,
+      "grad_norm": 1204.3978271484375,
+      "learning_rate": 8.930309757836516e-08,
+      "logits/chosen": -0.2575787305831909,
+      "logits/rejected": -0.2278975248336792,
+      "loss": 2.0045,
+      "step": 512
+    },
+    {
+      "beta_dpo/beta": 0.044924668967723846,
+      "beta_dpo/beta_margin_grad_mean": -0.32202252745628357,
+      "beta_dpo/beta_margin_grad_std": 0.2846587002277374,
+      "beta_dpo/beta_margin_mean": 6.217226982116699,
+      "beta_dpo/beta_margin_std": 10.354048728942871,
+      "beta_dpo/beta_used": 0.044924668967723846,
+      "beta_dpo/beta_used_raw": -1.4216735363006592,
+      "beta_dpo/gap_mean": 124.45533752441406,
+      "beta_dpo/gap_std": 146.31292724609375,
+      "beta_dpo/loss_margin_mean": 99.97219848632812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7533039647577092,
+      "grad_norm": 278.9576416015625,
+      "learning_rate": 8.832213108254863e-08,
+      "logits/chosen": -0.28937166929244995,
+      "logits/rejected": -0.23899608850479126,
+      "loss": 1.4199,
+      "step": 513
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47301986813545227,
+      "beta_dpo/beta_margin_grad_std": 0.04115281254053116,
+      "beta_dpo/beta_margin_mean": 0.10918539017438889,
+      "beta_dpo/beta_margin_std": 0.1675841063261032,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.3583461046218872,
+      "beta_dpo/gap_mean": 119.46575927734375,
+      "beta_dpo/gap_std": 149.45828247070312,
+      "beta_dpo/loss_margin_mean": 109.18538665771484,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7547723935389133,
+      "grad_norm": 8.001137733459473,
+      "learning_rate": 8.734542494893954e-08,
+      "logits/chosen": -0.33942490816116333,
+      "logits/rejected": -0.3081890940666199,
+      "loss": 1.2968,
+      "step": 514
+    },
+    {
+      "beta_dpo/beta": 0.7366660833358765,
+      "beta_dpo/beta_margin_grad_mean": -0.2994893789291382,
+      "beta_dpo/beta_margin_grad_std": 0.2928798794746399,
+      "beta_dpo/beta_margin_mean": 86.19298553466797,
+      "beta_dpo/beta_margin_std": 163.50563049316406,
+      "beta_dpo/beta_used": 0.7366660833358765,
+      "beta_dpo/beta_used_raw": 0.6376501321792603,
+      "beta_dpo/gap_mean": 117.94536590576172,
+      "beta_dpo/gap_std": 149.05044555664062,
+      "beta_dpo/loss_margin_mean": 110.93781280517578,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7562408223201175,
+      "grad_norm": 2712.74951171875,
+      "learning_rate": 8.637300491465272e-08,
+      "logits/chosen": -0.33565250039100647,
+      "logits/rejected": -0.32709378004074097,
+      "loss": 2.2661,
+      "step": 515
+    },
+    {
+      "beta_dpo/beta": 0.3256189227104187,
+      "beta_dpo/beta_margin_grad_mean": -0.17041105031967163,
+      "beta_dpo/beta_margin_grad_std": 0.32598721981048584,
+      "beta_dpo/beta_margin_mean": 44.762569427490234,
+      "beta_dpo/beta_margin_std": 72.75740814208984,
+      "beta_dpo/beta_used": 0.3256189227104187,
+      "beta_dpo/beta_used_raw": 0.3256189227104187,
+      "beta_dpo/gap_mean": 120.83750915527344,
+      "beta_dpo/gap_std": 148.33566284179688,
+      "beta_dpo/loss_margin_mean": 144.36268615722656,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7577092511013216,
+      "grad_norm": 2482.775634765625,
+      "learning_rate": 8.540489660386064e-08,
+      "logits/chosen": -0.30348920822143555,
+      "logits/rejected": -0.30661916732788086,
+      "loss": 3.9909,
+      "step": 516
+    },
+    {
+      "beta_dpo/beta": 0.3787996470928192,
+      "beta_dpo/beta_margin_grad_mean": -0.3142106235027313,
+      "beta_dpo/beta_margin_grad_std": 0.3018515706062317,
+      "beta_dpo/beta_margin_mean": 53.798763275146484,
+      "beta_dpo/beta_margin_std": 91.0955581665039,
+      "beta_dpo/beta_used": 0.3787996470928192,
+      "beta_dpo/beta_used_raw": -0.8146347403526306,
+      "beta_dpo/gap_mean": 124.02101135253906,
+      "beta_dpo/gap_std": 147.56996154785156,
+      "beta_dpo/loss_margin_mean": 129.0400848388672,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7591776798825257,
+      "grad_norm": 4063.2880859375,
+      "learning_rate": 8.444112552711752e-08,
+      "logits/chosen": -0.34874552488327026,
+      "logits/rejected": -0.3211863934993744,
+      "loss": 9.232,
+      "step": 517
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47028571367263794,
+      "beta_dpo/beta_margin_grad_std": 0.03980425372719765,
+      "beta_dpo/beta_margin_mean": 0.11989691108465195,
+      "beta_dpo/beta_margin_std": 0.16114358603954315,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.2156920433044434,
+      "beta_dpo/gap_mean": 123.86222839355469,
+      "beta_dpo/gap_std": 149.8852081298828,
+      "beta_dpo/loss_margin_mean": 119.89690399169922,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7606461086637298,
+      "grad_norm": 9.67983627319336,
+      "learning_rate": 8.348171708068747e-08,
+      "logits/chosen": -0.33817270398139954,
+      "logits/rejected": -0.3306800425052643,
+      "loss": 1.2903,
+      "step": 518
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4726635813713074,
+      "beta_dpo/beta_margin_grad_std": 0.035860326141119,
+      "beta_dpo/beta_margin_mean": 0.11023343354463577,
+      "beta_dpo/beta_margin_std": 0.14520837366580963,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.990078091621399,
+      "beta_dpo/gap_mean": 120.50178527832031,
+      "beta_dpo/gap_std": 149.90951538085938,
+      "beta_dpo/loss_margin_mean": 110.23342895507812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.762114537444934,
+      "grad_norm": 11.328512191772461,
+      "learning_rate": 8.25266965458755e-08,
+      "logits/chosen": -0.38129687309265137,
+      "logits/rejected": -0.3619292974472046,
+      "loss": 1.3054,
+      "step": 519
+    },
+    {
+      "beta_dpo/beta": 0.3380447328090668,
+      "beta_dpo/beta_margin_grad_mean": -0.2715797424316406,
+      "beta_dpo/beta_margin_grad_std": 0.26895225048065186,
+      "beta_dpo/beta_margin_mean": 49.52477264404297,
+      "beta_dpo/beta_margin_std": 87.04480743408203,
+      "beta_dpo/beta_used": 0.3380447328090668,
+      "beta_dpo/beta_used_raw": -1.0785763263702393,
+      "beta_dpo/gap_mean": 121.2685775756836,
+      "beta_dpo/gap_std": 148.63670349121094,
+      "beta_dpo/loss_margin_mean": 116.98388671875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7635829662261381,
+      "grad_norm": 3035.5087890625,
+      "learning_rate": 8.15760890883607e-08,
+      "logits/chosen": -0.3086138069629669,
+      "logits/rejected": -0.29337257146835327,
+      "loss": 3.5396,
+      "step": 520
+    },
+    {
+      "beta_dpo/beta": 0.7759643793106079,
+      "beta_dpo/beta_margin_grad_mean": -0.30295756459236145,
+      "beta_dpo/beta_margin_grad_std": 0.2947865128517151,
+      "beta_dpo/beta_margin_mean": 120.77637481689453,
+      "beta_dpo/beta_margin_std": 199.4180450439453,
+      "beta_dpo/beta_used": 0.7759643793106079,
+      "beta_dpo/beta_used_raw": -0.11128360033035278,
+      "beta_dpo/gap_mean": 117.24072265625,
+      "beta_dpo/gap_std": 145.8902587890625,
+      "beta_dpo/loss_margin_mean": 116.25064086914062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7650513950073421,
+      "grad_norm": 2916.091552734375,
+      "learning_rate": 8.062991975753378e-08,
+      "logits/chosen": -0.26582300662994385,
+      "logits/rejected": -0.24365702271461487,
+      "loss": 5.6064,
+      "step": 521
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4751797318458557,
+      "beta_dpo/beta_margin_grad_std": 0.03499903902411461,
+      "beta_dpo/beta_margin_mean": 0.09980867058038712,
+      "beta_dpo/beta_margin_std": 0.1410750299692154,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.123004674911499,
+      "beta_dpo/gap_mean": 115.89306640625,
+      "beta_dpo/gap_std": 145.66278076171875,
+      "beta_dpo/loss_margin_mean": 99.80866241455078,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7665198237885462,
+      "grad_norm": 11.408084869384766,
+      "learning_rate": 7.968821348583643e-08,
+      "logits/chosen": -0.26223623752593994,
+      "logits/rejected": -0.2491573542356491,
+      "loss": 1.2971,
+      "step": 522
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4724850058555603,
+      "beta_dpo/beta_margin_grad_std": 0.03419146686792374,
+      "beta_dpo/beta_margin_mean": 0.11072482913732529,
+      "beta_dpo/beta_margin_std": 0.13797280192375183,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7056801319122314,
+      "beta_dpo/gap_mean": 114.94084167480469,
+      "beta_dpo/gap_std": 144.96939086914062,
+      "beta_dpo/loss_margin_mean": 110.72482299804688,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7679882525697503,
+      "grad_norm": 12.761443138122559,
+      "learning_rate": 7.875099508810484e-08,
+      "logits/chosen": -0.35182422399520874,
+      "logits/rejected": -0.3160788416862488,
+      "loss": 1.2905,
+      "step": 523
+    },
+    {
+      "beta_dpo/beta": 0.34091123938560486,
+      "beta_dpo/beta_margin_grad_mean": -0.28588905930519104,
+      "beta_dpo/beta_margin_grad_std": 0.26944512128829956,
+      "beta_dpo/beta_margin_mean": 39.1301383972168,
+      "beta_dpo/beta_margin_std": 78.40217590332031,
+      "beta_dpo/beta_used": 0.34091123938560486,
+      "beta_dpo/beta_used_raw": -0.35857832431793213,
+      "beta_dpo/gap_mean": 113.64476013183594,
+      "beta_dpo/gap_std": 142.83682250976562,
+      "beta_dpo/loss_margin_mean": 103.63865661621094,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7694566813509545,
+      "grad_norm": 1415.0672607421875,
+      "learning_rate": 7.781828926091535e-08,
+      "logits/chosen": -0.3773775100708008,
+      "logits/rejected": -0.3307211399078369,
+      "loss": 0.7133,
+      "step": 524
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46599993109703064,
+      "beta_dpo/beta_margin_grad_std": 0.03062298335134983,
+      "beta_dpo/beta_margin_mean": 0.13683471083641052,
+      "beta_dpo/beta_margin_std": 0.12389042973518372,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7509552240371704,
+      "beta_dpo/gap_mean": 116.8314208984375,
+      "beta_dpo/gap_std": 139.02029418945312,
+      "beta_dpo/loss_margin_mean": 136.83470153808594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7709251101321586,
+      "grad_norm": 11.353320121765137,
+      "learning_rate": 7.689012058193384e-08,
+      "logits/chosen": -0.29079174995422363,
+      "logits/rejected": -0.29601868987083435,
+      "loss": 1.2884,
+      "step": 525
+    },
+    {
+      "beta_dpo/beta": 1.2091269493103027,
+      "beta_dpo/beta_margin_grad_mean": -0.2980670630931854,
+      "beta_dpo/beta_margin_grad_std": 0.2918414771556854,
+      "beta_dpo/beta_margin_mean": 188.9692840576172,
+      "beta_dpo/beta_margin_std": 288.71917724609375,
+      "beta_dpo/beta_used": 1.2091269493103027,
+      "beta_dpo/beta_used_raw": 0.724345326423645,
+      "beta_dpo/gap_mean": 118.87196350097656,
+      "beta_dpo/gap_std": 137.54379272460938,
+      "beta_dpo/loss_margin_mean": 136.27288818359375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7723935389133627,
+      "grad_norm": 10179.40234375,
+      "learning_rate": 7.596651350926836e-08,
+      "logits/chosen": -0.37073665857315063,
+      "logits/rejected": -0.33339107036590576,
+      "loss": 4.632,
+      "step": 526
+    },
+    {
+      "beta_dpo/beta": 0.31047749519348145,
+      "beta_dpo/beta_margin_grad_mean": -0.31394025683403015,
+      "beta_dpo/beta_margin_grad_std": 0.2968938946723938,
+      "beta_dpo/beta_margin_mean": 37.45048522949219,
+      "beta_dpo/beta_margin_std": 69.46243286132812,
+      "beta_dpo/beta_used": 0.31047749519348145,
+      "beta_dpo/beta_used_raw": -0.9867266416549683,
+      "beta_dpo/gap_mean": 119.21248626708984,
+      "beta_dpo/gap_std": 135.69989013671875,
+      "beta_dpo/loss_margin_mean": 104.62269592285156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7738619676945668,
+      "grad_norm": 997.8250122070312,
+      "learning_rate": 7.504749238082414e-08,
+      "logits/chosen": -0.32467547059059143,
+      "logits/rejected": -0.28431421518325806,
+      "loss": 0.8418,
+      "step": 527
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47215956449508667,
+      "beta_dpo/beta_margin_grad_std": 0.03576524555683136,
+      "beta_dpo/beta_margin_mean": 0.11228987574577332,
+      "beta_dpo/beta_margin_std": 0.1448754370212555,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.420975685119629,
+      "beta_dpo/gap_mean": 117.36293029785156,
+      "beta_dpo/gap_std": 136.00509643554688,
+      "beta_dpo/loss_margin_mean": 112.28987121582031,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.775330396475771,
+      "grad_norm": 9.15918254852295,
+      "learning_rate": 7.413308141366254e-08,
+      "logits/chosen": -0.34611016511917114,
+      "logits/rejected": -0.3225988745689392,
+      "loss": 1.2992,
+      "step": 528
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47805625200271606,
+      "beta_dpo/beta_margin_grad_std": 0.02993660233914852,
+      "beta_dpo/beta_margin_mean": 0.08821769058704376,
+      "beta_dpo/beta_margin_std": 0.12073423713445663,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.3918501138687134,
+      "beta_dpo/gap_mean": 112.62429809570312,
+      "beta_dpo/gap_std": 133.21206665039062,
+      "beta_dpo/loss_margin_mean": 88.21768951416016,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7767988252569751,
+      "grad_norm": 8.978301048278809,
+      "learning_rate": 7.322330470336313e-08,
+      "logits/chosen": -0.29925012588500977,
+      "logits/rejected": -0.2968965470790863,
+      "loss": 1.3025,
+      "step": 529
+    },
+    {
+      "beta_dpo/beta": 0.8380435109138489,
+      "beta_dpo/beta_margin_grad_mean": -0.29539409279823303,
+      "beta_dpo/beta_margin_grad_std": 0.29032719135284424,
+      "beta_dpo/beta_margin_mean": 130.1285858154297,
+      "beta_dpo/beta_margin_std": 249.0910186767578,
+      "beta_dpo/beta_used": 0.8380435109138489,
+      "beta_dpo/beta_used_raw": 0.8118060231208801,
+      "beta_dpo/gap_mean": 116.62379455566406,
+      "beta_dpo/gap_std": 139.05780029296875,
+      "beta_dpo/loss_margin_mean": 146.89210510253906,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7782672540381792,
+      "grad_norm": 5670.451171875,
+      "learning_rate": 7.231818622338822e-08,
+      "logits/chosen": -0.29417866468429565,
+      "logits/rejected": -0.28473860025405884,
+      "loss": 6.8965,
+      "step": 530
+    },
+    {
+      "beta_dpo/beta": 0.3860895335674286,
+      "beta_dpo/beta_margin_grad_mean": -0.3058871030807495,
+      "beta_dpo/beta_margin_grad_std": 0.29022565484046936,
+      "beta_dpo/beta_margin_mean": 48.6815071105957,
+      "beta_dpo/beta_margin_std": 90.59869384765625,
+      "beta_dpo/beta_used": 0.3860895335674286,
+      "beta_dpo/beta_used_raw": -0.38052642345428467,
+      "beta_dpo/gap_mean": 118.85505676269531,
+      "beta_dpo/gap_std": 137.6885986328125,
+      "beta_dpo/loss_margin_mean": 125.42870330810547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7797356828193832,
+      "grad_norm": 3328.2119140625,
+      "learning_rate": 7.141774982445147e-08,
+      "logits/chosen": -0.30007681250572205,
+      "logits/rejected": -0.2692079246044159,
+      "loss": 4.4606,
+      "step": 531
+    },
+    {
+      "beta_dpo/beta": 0.25227928161621094,
+      "beta_dpo/beta_margin_grad_mean": -0.3480188250541687,
+      "beta_dpo/beta_margin_grad_std": 0.31572601199150085,
+      "beta_dpo/beta_margin_mean": 46.9578742980957,
+      "beta_dpo/beta_margin_std": 80.62285614013672,
+      "beta_dpo/beta_used": 0.25227928161621094,
+      "beta_dpo/beta_used_raw": -0.626258373260498,
+      "beta_dpo/gap_mean": 122.90603637695312,
+      "beta_dpo/gap_std": 142.55856323242188,
+      "beta_dpo/loss_margin_mean": 125.72514343261719,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7812041116005873,
+      "grad_norm": 6387.31787109375,
+      "learning_rate": 7.052201923388953e-08,
+      "logits/chosen": -0.3237287104129791,
+      "logits/rejected": -0.28502288460731506,
+      "loss": 6.5028,
+      "step": 532
+    },
+    {
+      "beta_dpo/beta": 0.10688778758049011,
+      "beta_dpo/beta_margin_grad_mean": -0.36453330516815186,
+      "beta_dpo/beta_margin_grad_std": 0.31307417154312134,
+      "beta_dpo/beta_margin_mean": 14.438727378845215,
+      "beta_dpo/beta_margin_std": 29.17506217956543,
+      "beta_dpo/beta_used": 0.10688778758049011,
+      "beta_dpo/beta_used_raw": -1.7720496654510498,
+      "beta_dpo/gap_mean": 116.83836364746094,
+      "beta_dpo/gap_std": 140.88243103027344,
+      "beta_dpo/loss_margin_mean": 107.61312103271484,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7826725403817915,
+      "grad_norm": 854.921630859375,
+      "learning_rate": 6.963101805503646e-08,
+      "logits/chosen": -0.32803478837013245,
+      "logits/rejected": -0.2940494418144226,
+      "loss": 2.1474,
+      "step": 533
+    },
+    {
+      "beta_dpo/beta": 0.4838470220565796,
+      "beta_dpo/beta_margin_grad_mean": -0.3121793866157532,
+      "beta_dpo/beta_margin_grad_std": 0.30149754881858826,
+      "beta_dpo/beta_margin_mean": 61.1616096496582,
+      "beta_dpo/beta_margin_std": 110.03469848632812,
+      "beta_dpo/beta_used": 0.4838470220565796,
+      "beta_dpo/beta_used_raw": -0.25012335181236267,
+      "beta_dpo/gap_mean": 119.16416931152344,
+      "beta_dpo/gap_std": 142.51844787597656,
+      "beta_dpo/loss_margin_mean": 127.46477508544922,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7841409691629956,
+      "grad_norm": 2596.990478515625,
+      "learning_rate": 6.874476976660184e-08,
+      "logits/chosen": -0.3111898899078369,
+      "logits/rejected": -0.2915695905685425,
+      "loss": 7.1215,
+      "step": 534
+    },
+    {
+      "beta_dpo/beta": 0.4798532724380493,
+      "beta_dpo/beta_margin_grad_mean": -0.25442755222320557,
+      "beta_dpo/beta_margin_grad_std": 0.2559193968772888,
+      "beta_dpo/beta_margin_mean": 74.49298858642578,
+      "beta_dpo/beta_margin_std": 107.83834075927734,
+      "beta_dpo/beta_used": 0.4798532724380493,
+      "beta_dpo/beta_used_raw": -0.8804515600204468,
+      "beta_dpo/gap_mean": 118.63661193847656,
+      "beta_dpo/gap_std": 141.1715087890625,
+      "beta_dpo/loss_margin_mean": 122.73117065429688,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7856093979441997,
+      "grad_norm": 5.533578395843506,
+      "learning_rate": 6.786329772205246e-08,
+      "logits/chosen": -0.34731101989746094,
+      "logits/rejected": -0.340278685092926,
+      "loss": 0.6606,
+      "step": 535
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46096980571746826,
+      "beta_dpo/beta_margin_grad_std": 0.03988654166460037,
+      "beta_dpo/beta_margin_mean": 0.1579839587211609,
+      "beta_dpo/beta_margin_std": 0.16417579352855682,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.219361811876297,
+      "beta_dpo/gap_mean": 126.47843933105469,
+      "beta_dpo/gap_std": 143.17359924316406,
+      "beta_dpo/loss_margin_mean": 157.9839630126953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7870778267254038,
+      "grad_norm": 7.822637557983398,
+      "learning_rate": 6.698662514899638e-08,
+      "logits/chosen": -0.28798243403434753,
+      "logits/rejected": -0.27560853958129883,
+      "loss": 1.2712,
+      "step": 536
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4682691991329193,
+      "beta_dpo/beta_margin_grad_std": 0.03821183741092682,
+      "beta_dpo/beta_margin_mean": 0.12798717617988586,
+      "beta_dpo/beta_margin_std": 0.15467973053455353,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.374413013458252,
+      "beta_dpo/gap_mean": 127.0035400390625,
+      "beta_dpo/gap_std": 146.7835693359375,
+      "beta_dpo/loss_margin_mean": 127.98716735839844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.788546255506608,
+      "grad_norm": 11.444367408752441,
+      "learning_rate": 6.611477514857114e-08,
+      "logits/chosen": -0.24693317711353302,
+      "logits/rejected": -0.20856288075447083,
+      "loss": 1.2903,
+      "step": 537
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46676576137542725,
+      "beta_dpo/beta_margin_grad_std": 0.03483714163303375,
+      "beta_dpo/beta_margin_mean": 0.1339321732521057,
+      "beta_dpo/beta_margin_std": 0.1410028487443924,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.4291920065879822,
+      "beta_dpo/gap_mean": 128.6876983642578,
+      "beta_dpo/gap_std": 145.996826171875,
+      "beta_dpo/loss_margin_mean": 133.93215942382812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7900146842878121,
+      "grad_norm": 8.882081031799316,
+      "learning_rate": 6.524777069483525e-08,
+      "logits/chosen": -0.34462568163871765,
+      "logits/rejected": -0.31714940071105957,
+      "loss": 1.2737,
+      "step": 538
+    },
+    {
+      "beta_dpo/beta": 0.25301647186279297,
+      "beta_dpo/beta_margin_grad_mean": -0.3016367256641388,
+      "beta_dpo/beta_margin_grad_std": 0.29386886954307556,
+      "beta_dpo/beta_margin_mean": 32.2935676574707,
+      "beta_dpo/beta_margin_std": 58.6886100769043,
+      "beta_dpo/beta_used": 0.25301647186279297,
+      "beta_dpo/beta_used_raw": -1.4830609560012817,
+      "beta_dpo/gap_mean": 126.75646209716797,
+      "beta_dpo/gap_std": 144.74050903320312,
+      "beta_dpo/loss_margin_mean": 107.55413818359375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7914831130690162,
+      "grad_norm": 1186.32177734375,
+      "learning_rate": 6.438563463416221e-08,
+      "logits/chosen": -0.30251675844192505,
+      "logits/rejected": -0.269988089799881,
+      "loss": 2.8284,
+      "step": 539
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4608391523361206,
+      "beta_dpo/beta_margin_grad_std": 0.041996635496616364,
+      "beta_dpo/beta_margin_mean": 0.15832501649856567,
+      "beta_dpo/beta_margin_std": 0.17094068229198456,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.767475962638855,
+      "beta_dpo/gap_mean": 128.5769805908203,
+      "beta_dpo/gap_std": 145.3531036376953,
+      "beta_dpo/loss_margin_mean": 158.32501220703125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7929515418502202,
+      "grad_norm": 11.150030136108398,
+      "learning_rate": 6.352838968463919e-08,
+      "logits/chosen": -0.32399916648864746,
+      "logits/rejected": -0.3120352029800415,
+      "loss": 1.2796,
+      "step": 540
+    },
+    {
+      "beta_dpo/beta": 0.4254739284515381,
+      "beta_dpo/beta_margin_grad_mean": -0.27390703558921814,
+      "beta_dpo/beta_margin_grad_std": 0.2731405198574066,
+      "beta_dpo/beta_margin_mean": 67.95819091796875,
+      "beta_dpo/beta_margin_std": 111.18570709228516,
+      "beta_dpo/beta_used": 0.4254739284515381,
+      "beta_dpo/beta_used_raw": -1.5122350454330444,
+      "beta_dpo/gap_mean": 130.40518188476562,
+      "beta_dpo/gap_std": 148.4336395263672,
+      "beta_dpo/loss_margin_mean": 109.54701232910156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7944199706314243,
+      "grad_norm": 7.361756324768066,
+      "learning_rate": 6.267605843546767e-08,
+      "logits/chosen": -0.34003913402557373,
+      "logits/rejected": -0.32215964794158936,
+      "loss": 0.6651,
+      "step": 541
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46578720211982727,
+      "beta_dpo/beta_margin_grad_std": 0.04261607676744461,
+      "beta_dpo/beta_margin_mean": 0.13842153549194336,
+      "beta_dpo/beta_margin_std": 0.17371715605258942,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.1535425186157227,
+      "beta_dpo/gap_mean": 129.5877227783203,
+      "beta_dpo/gap_std": 152.70767211914062,
+      "beta_dpo/loss_margin_mean": 138.42153930664062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7958883994126285,
+      "grad_norm": 8.798036575317383,
+      "learning_rate": 6.182866334636888e-08,
+      "logits/chosen": -0.2917734980583191,
+      "logits/rejected": -0.28750523924827576,
+      "loss": 1.3005,
+      "step": 542
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47245243191719055,
+      "beta_dpo/beta_margin_grad_std": 0.0398247130215168,
+      "beta_dpo/beta_margin_mean": 0.1112518459558487,
+      "beta_dpo/beta_margin_std": 0.1615283042192459,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.7853881120681763,
+      "beta_dpo/gap_mean": 126.10411071777344,
+      "beta_dpo/gap_std": 155.04043579101562,
+      "beta_dpo/loss_margin_mean": 111.25183868408203,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7973568281938326,
+      "grad_norm": 10.619677543640137,
+      "learning_rate": 6.098622674699147e-08,
+      "logits/chosen": -0.3245403468608856,
+      "logits/rejected": -0.3284730315208435,
+      "loss": 1.2969,
+      "step": 543
+    },
+    {
+      "beta_dpo/beta": 0.042499665170907974,
+      "beta_dpo/beta_margin_grad_mean": -0.3261357545852661,
+      "beta_dpo/beta_margin_grad_std": 0.27486762404441833,
+      "beta_dpo/beta_margin_mean": 6.365813732147217,
+      "beta_dpo/beta_margin_std": 10.63759708404541,
+      "beta_dpo/beta_used": 0.042499665170907974,
+      "beta_dpo/beta_used_raw": -0.0006970278918743134,
+      "beta_dpo/gap_mean": 126.75240325927734,
+      "beta_dpo/gap_std": 154.43374633789062,
+      "beta_dpo/loss_margin_mean": 138.70376586914062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.7988252569750367,
+      "grad_norm": 337.2016906738281,
+      "learning_rate": 6.01487708363232e-08,
+      "logits/chosen": -0.2916638255119324,
+      "logits/rejected": -0.29204195737838745,
+      "loss": 0.9386,
+      "step": 544
+    },
+    {
+      "beta_dpo/beta": 0.06862561404705048,
+      "beta_dpo/beta_margin_grad_mean": -0.29947012662887573,
+      "beta_dpo/beta_margin_grad_std": 0.2657318115234375,
+      "beta_dpo/beta_margin_mean": 11.304689407348633,
+      "beta_dpo/beta_margin_std": 18.24564552307129,
+      "beta_dpo/beta_used": 0.06862561404705048,
+      "beta_dpo/beta_used_raw": -0.3488979637622833,
+      "beta_dpo/gap_mean": 130.86599731445312,
+      "beta_dpo/gap_std": 152.92401123046875,
+      "beta_dpo/loss_margin_mean": 151.92410278320312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8002936857562408,
+      "grad_norm": 781.7689819335938,
+      "learning_rate": 5.9316317682106294e-08,
+      "logits/chosen": -0.2935147285461426,
+      "logits/rejected": -0.27058857679367065,
+      "loss": 1.6842,
+      "step": 545
+    },
+    {
+      "beta_dpo/beta": 0.188106968998909,
+      "beta_dpo/beta_margin_grad_mean": -0.28278061747550964,
+      "beta_dpo/beta_margin_grad_std": 0.28060972690582275,
+      "beta_dpo/beta_margin_mean": 26.020763397216797,
+      "beta_dpo/beta_margin_std": 42.951210021972656,
+      "beta_dpo/beta_used": 0.188106968998909,
+      "beta_dpo/beta_used_raw": -0.1429443508386612,
+      "beta_dpo/gap_mean": 132.23533630371094,
+      "beta_dpo/gap_std": 149.86732482910156,
+      "beta_dpo/loss_margin_mean": 125.84686279296875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.801762114537445,
+      "grad_norm": 752.8720092773438,
+      "learning_rate": 5.848888922025552e-08,
+      "logits/chosen": -0.27959996461868286,
+      "logits/rejected": -0.2727757394313812,
+      "loss": 1.079,
+      "step": 546
+    },
+    {
+      "beta_dpo/beta": 0.6438117027282715,
+      "beta_dpo/beta_margin_grad_mean": -0.33132269978523254,
+      "beta_dpo/beta_margin_grad_std": 0.31213411688804626,
+      "beta_dpo/beta_margin_mean": 104.74890899658203,
+      "beta_dpo/beta_margin_std": 195.10377502441406,
+      "beta_dpo/beta_used": 0.6438117027282715,
+      "beta_dpo/beta_used_raw": 0.1203995943069458,
+      "beta_dpo/gap_mean": 129.84857177734375,
+      "beta_dpo/gap_std": 149.78875732421875,
+      "beta_dpo/loss_margin_mean": 131.3858642578125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8032305433186491,
+      "grad_norm": 6136.345703125,
+      "learning_rate": 5.7666507254280265e-08,
+      "logits/chosen": -0.3318541646003723,
+      "logits/rejected": -0.30599403381347656,
+      "loss": 8.3158,
+      "step": 547
+    },
+    {
+      "beta_dpo/beta": 0.5348808765411377,
+      "beta_dpo/beta_margin_grad_mean": -0.2953696846961975,
+      "beta_dpo/beta_margin_grad_std": 0.29101452231407166,
+      "beta_dpo/beta_margin_mean": 72.7407455444336,
+      "beta_dpo/beta_margin_std": 127.447021484375,
+      "beta_dpo/beta_used": 0.5348808765411377,
+      "beta_dpo/beta_used_raw": -0.02570188045501709,
+      "beta_dpo/gap_mean": 132.4664764404297,
+      "beta_dpo/gap_std": 154.11122131347656,
+      "beta_dpo/loss_margin_mean": 137.2895965576172,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8046989720998532,
+      "grad_norm": 5.817610263824463,
+      "learning_rate": 5.684919345471029e-08,
+      "logits/chosen": -0.3109471797943115,
+      "logits/rejected": -0.2878919839859009,
+      "loss": 0.6402,
+      "step": 548
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4734934866428375,
+      "beta_dpo/beta_margin_grad_std": 0.03661532700061798,
+      "beta_dpo/beta_margin_mean": 0.10683414340019226,
+      "beta_dpo/beta_margin_std": 0.14824533462524414,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.812859058380127,
+      "beta_dpo/gap_mean": 128.56686401367188,
+      "beta_dpo/gap_std": 153.61985778808594,
+      "beta_dpo/loss_margin_mean": 106.83413696289062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8061674008810573,
+      "grad_norm": 8.842658996582031,
+      "learning_rate": 5.603696935852426e-08,
+      "logits/chosen": -0.2656526565551758,
+      "logits/rejected": -0.245744526386261,
+      "loss": 1.2953,
+      "step": 549
+    },
+    {
+      "beta_dpo/beta": 0.5795989036560059,
+      "beta_dpo/beta_margin_grad_mean": -0.31652987003326416,
+      "beta_dpo/beta_margin_grad_std": 0.3032745122909546,
+      "beta_dpo/beta_margin_mean": 79.51753234863281,
+      "beta_dpo/beta_margin_std": 137.07252502441406,
+      "beta_dpo/beta_used": 0.5795989036560059,
+      "beta_dpo/beta_used_raw": -0.1910473108291626,
+      "beta_dpo/gap_mean": 126.98031616210938,
+      "beta_dpo/gap_std": 149.06398010253906,
+      "beta_dpo/loss_margin_mean": 115.1662368774414,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8076358296622613,
+      "grad_norm": 4275.45068359375,
+      "learning_rate": 5.5229856368582376e-08,
+      "logits/chosen": -0.2921378016471863,
+      "logits/rejected": -0.2875661849975586,
+      "loss": 8.9316,
+      "step": 550
+    },
+    {
+      "beta_dpo/beta": 1.3962814807891846,
+      "beta_dpo/beta_margin_grad_mean": -0.18695083260536194,
+      "beta_dpo/beta_margin_grad_std": 0.38917961716651917,
+      "beta_dpo/beta_margin_mean": 232.1625518798828,
+      "beta_dpo/beta_margin_std": 253.87550354003906,
+      "beta_dpo/beta_used": 1.3962814807891846,
+      "beta_dpo/beta_used_raw": 1.3962814807891846,
+      "beta_dpo/gap_mean": 131.1296844482422,
+      "beta_dpo/gap_std": 147.8602752685547,
+      "beta_dpo/loss_margin_mean": 165.77349853515625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8091042584434655,
+      "grad_norm": 8295.5263671875,
+      "learning_rate": 5.4427875753062734e-08,
+      "logits/chosen": -0.30160123109817505,
+      "logits/rejected": -0.3009389638900757,
+      "loss": 11.5516,
+      "step": 551
+    },
+    {
+      "beta_dpo/beta": 0.030131345614790916,
+      "beta_dpo/beta_margin_grad_mean": -0.26047882437705994,
+      "beta_dpo/beta_margin_grad_std": 0.2447003722190857,
+      "beta_dpo/beta_margin_mean": 6.02596378326416,
+      "beta_dpo/beta_margin_std": 9.554372787475586,
+      "beta_dpo/beta_used": 0.030131345614790916,
+      "beta_dpo/beta_used_raw": -0.81267249584198,
+      "beta_dpo/gap_mean": 139.46234130859375,
+      "beta_dpo/gap_std": 153.2427520751953,
+      "beta_dpo/loss_margin_mean": 167.8729705810547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8105726872246696,
+      "grad_norm": 132.4352264404297,
+      "learning_rate": 5.363104864490034e-08,
+      "logits/chosen": -0.2840738296508789,
+      "logits/rejected": -0.2644941210746765,
+      "loss": 0.9032,
+      "step": 552
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4713681638240814,
+      "beta_dpo/beta_margin_grad_std": 0.03616320341825485,
+      "beta_dpo/beta_margin_mean": 0.11548375338315964,
+      "beta_dpo/beta_margin_std": 0.1468585580587387,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.732727289199829,
+      "beta_dpo/gap_mean": 136.5676727294922,
+      "beta_dpo/gap_std": 154.75587463378906,
+      "beta_dpo/loss_margin_mean": 115.4837417602539,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8120411160058737,
+      "grad_norm": 12.119832038879395,
+      "learning_rate": 5.2839396041230415e-08,
+      "logits/chosen": -0.2949014902114868,
+      "logits/rejected": -0.28429996967315674,
+      "loss": 1.2862,
+      "step": 553
+    },
+    {
+      "beta_dpo/beta": 1.4587900638580322,
+      "beta_dpo/beta_margin_grad_mean": -0.14538182318210602,
+      "beta_dpo/beta_margin_grad_std": 0.3477603495121002,
+      "beta_dpo/beta_margin_mean": 238.0844268798828,
+      "beta_dpo/beta_margin_std": 281.8099365234375,
+      "beta_dpo/beta_used": 1.4587900638580322,
+      "beta_dpo/beta_used_raw": 1.4587900638580322,
+      "beta_dpo/gap_mean": 135.99404907226562,
+      "beta_dpo/gap_std": 153.7836456298828,
+      "beta_dpo/loss_margin_mean": 152.52484130859375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8135095447870778,
+      "grad_norm": 4559.46533203125,
+      "learning_rate": 5.205293880283551e-08,
+      "logits/chosen": -0.3366745710372925,
+      "logits/rejected": -0.2806839942932129,
+      "loss": 5.6062,
+      "step": 554
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46083858609199524,
+      "beta_dpo/beta_margin_grad_std": 0.04272112995386124,
+      "beta_dpo/beta_margin_mean": 0.15844394266605377,
+      "beta_dpo/beta_margin_std": 0.17401549220085144,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.0361934900283813,
+      "beta_dpo/gap_mean": 141.6253662109375,
+      "beta_dpo/gap_std": 156.78480529785156,
+      "beta_dpo/loss_margin_mean": 158.44393920898438,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8149779735682819,
+      "grad_norm": 9.786598205566406,
+      "learning_rate": 5.127169765359515e-08,
+      "logits/chosen": -0.32283300161361694,
+      "logits/rejected": -0.32556623220443726,
+      "loss": 1.2716,
+      "step": 555
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47160035371780396,
+      "beta_dpo/beta_margin_grad_std": 0.03592273220419884,
+      "beta_dpo/beta_margin_mean": 0.11455066502094269,
+      "beta_dpo/beta_margin_std": 0.1455988883972168,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.443986415863037,
+      "beta_dpo/gap_mean": 137.80215454101562,
+      "beta_dpo/gap_std": 157.4153594970703,
+      "beta_dpo/loss_margin_mean": 114.5506591796875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8164464023494861,
+      "grad_norm": 9.365325927734375,
+      "learning_rate": 5.049569317994012e-08,
+      "logits/chosen": -0.26281827688217163,
+      "logits/rejected": -0.25179579854011536,
+      "loss": 1.2816,
+      "step": 556
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4667251408100128,
+      "beta_dpo/beta_margin_grad_std": 0.03912574052810669,
+      "beta_dpo/beta_margin_mean": 0.1342703402042389,
+      "beta_dpo/beta_margin_std": 0.15857142210006714,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.001009464263916,
+      "beta_dpo/gap_mean": 137.3007049560547,
+      "beta_dpo/gap_std": 157.2840576171875,
+      "beta_dpo/loss_margin_mean": 134.2703399658203,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8179148311306902,
+      "grad_norm": 9.669354438781738,
+      "learning_rate": 4.9724945830310144e-08,
+      "logits/chosen": -0.337306410074234,
+      "logits/rejected": -0.3294256329536438,
+      "loss": 1.2898,
+      "step": 557
+    },
+    {
+      "beta_dpo/beta": 1.0059072971343994,
+      "beta_dpo/beta_margin_grad_mean": -0.2754041254520416,
+      "beta_dpo/beta_margin_grad_std": 0.2766437232494354,
+      "beta_dpo/beta_margin_mean": 189.39646911621094,
+      "beta_dpo/beta_margin_std": 301.6690673828125,
+      "beta_dpo/beta_used": 1.0059072971343994,
+      "beta_dpo/beta_used_raw": 0.4606805443763733,
+      "beta_dpo/gap_mean": 142.946044921875,
+      "beta_dpo/gap_std": 159.32034301757812,
+      "beta_dpo/loss_margin_mean": 181.12159729003906,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8193832599118943,
+      "grad_norm": 3461.24609375,
+      "learning_rate": 4.8959475914614554e-08,
+      "logits/chosen": -0.3064291179180145,
+      "logits/rejected": -0.2867761254310608,
+      "loss": 1.8804,
+      "step": 558
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46763336658477783,
+      "beta_dpo/beta_margin_grad_std": 0.037108905613422394,
+      "beta_dpo/beta_margin_mean": 0.13055618107318878,
+      "beta_dpo/beta_margin_std": 0.15036651492118835,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.5490376949310303,
+      "beta_dpo/gap_mean": 142.8798828125,
+      "beta_dpo/gap_std": 159.66058349609375,
+      "beta_dpo/loss_margin_mean": 130.55618286132812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8208516886930984,
+      "grad_norm": 10.119109153747559,
+      "learning_rate": 4.8199303603697614e-08,
+      "logits/chosen": -0.29613497853279114,
+      "logits/rejected": -0.264508992433548,
+      "loss": 1.2773,
+      "step": 559
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4762340188026428,
+      "beta_dpo/beta_margin_grad_std": 0.02926693856716156,
+      "beta_dpo/beta_margin_mean": 0.09551002085208893,
+      "beta_dpo/beta_margin_std": 0.11784511804580688,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.5403027534484863,
+      "beta_dpo/gap_mean": 135.69216918945312,
+      "beta_dpo/gap_std": 153.98773193359375,
+      "beta_dpo/loss_margin_mean": 95.51001739501953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8223201174743024,
+      "grad_norm": 7.162990093231201,
+      "learning_rate": 4.7444448928806615e-08,
+      "logits/chosen": -0.3266592025756836,
+      "logits/rejected": -0.29840749502182007,
+      "loss": 1.3,
+      "step": 560
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4732115864753723,
+      "beta_dpo/beta_margin_grad_std": 0.03771474212408066,
+      "beta_dpo/beta_margin_mean": 0.10795173794031143,
+      "beta_dpo/beta_margin_std": 0.15263213217258453,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.3117592334747314,
+      "beta_dpo/gap_mean": 128.0847930908203,
+      "beta_dpo/gap_std": 150.51815795898438,
+      "beta_dpo/loss_margin_mean": 107.95172882080078,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8237885462555066,
+      "grad_norm": 9.79651165008545,
+      "learning_rate": 4.669493178106432e-08,
+      "logits/chosen": -0.25924211740493774,
+      "logits/rejected": -0.26707911491394043,
+      "loss": 1.2876,
+      "step": 561
+    },
+    {
+      "beta_dpo/beta": 0.3996525704860687,
+      "beta_dpo/beta_margin_grad_mean": -0.18731488287448883,
+      "beta_dpo/beta_margin_grad_std": 0.24937215447425842,
+      "beta_dpo/beta_margin_mean": 71.11713409423828,
+      "beta_dpo/beta_margin_std": 115.91793060302734,
+      "beta_dpo/beta_used": 0.3996525704860687,
+      "beta_dpo/beta_used_raw": 0.3996525704860687,
+      "beta_dpo/gap_mean": 133.90435791015625,
+      "beta_dpo/gap_std": 153.45608520507812,
+      "beta_dpo/loss_margin_mean": 160.7019500732422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8252569750367107,
+      "grad_norm": 1593.489501953125,
+      "learning_rate": 4.5950771910944596e-08,
+      "logits/chosen": -0.2836867570877075,
+      "logits/rejected": -0.2583543062210083,
+      "loss": 0.5564,
+      "step": 562
+    },
+    {
+      "beta_dpo/beta": 0.6970747709274292,
+      "beta_dpo/beta_margin_grad_mean": -0.2882736921310425,
+      "beta_dpo/beta_margin_grad_std": 0.28458070755004883,
+      "beta_dpo/beta_margin_mean": 97.39839935302734,
+      "beta_dpo/beta_margin_std": 165.26593017578125,
+      "beta_dpo/beta_used": 0.6970747709274292,
+      "beta_dpo/beta_used_raw": -1.030278205871582,
+      "beta_dpo/gap_mean": 128.47000122070312,
+      "beta_dpo/gap_std": 152.47921752929688,
+      "beta_dpo/loss_margin_mean": 104.50337219238281,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8267254038179148,
+      "grad_norm": 5.384544372558594,
+      "learning_rate": 4.521198892775202e-08,
+      "logits/chosen": -0.2287236452102661,
+      "logits/rejected": -0.2236756980419159,
+      "loss": 0.6609,
+      "step": 563
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.468271940946579,
+      "beta_dpo/beta_margin_grad_std": 0.026733947917819023,
+      "beta_dpo/beta_margin_mean": 0.12744946777820587,
+      "beta_dpo/beta_margin_std": 0.10762052237987518,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.3562297523021698,
+      "beta_dpo/gap_mean": 128.43161010742188,
+      "beta_dpo/gap_std": 145.12420654296875,
+      "beta_dpo/loss_margin_mean": 127.449462890625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8281938325991189,
+      "grad_norm": 10.955151557922363,
+      "learning_rate": 4.447860229910544e-08,
+      "logits/chosen": -0.3264349102973938,
+      "logits/rejected": -0.27898818254470825,
+      "loss": 1.2715,
+      "step": 564
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46887075901031494,
+      "beta_dpo/beta_margin_grad_std": 0.04425227269530296,
+      "beta_dpo/beta_margin_mean": 0.12599852681159973,
+      "beta_dpo/beta_margin_std": 0.1797182410955429,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.8274688720703125,
+      "beta_dpo/gap_mean": 129.21328735351562,
+      "beta_dpo/gap_std": 149.37860107421875,
+      "beta_dpo/loss_margin_mean": 125.99852752685547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8296622613803231,
+      "grad_norm": 9.339284896850586,
+      "learning_rate": 4.375063135042445e-08,
+      "logits/chosen": -0.32135599851608276,
+      "logits/rejected": -0.29336240887641907,
+      "loss": 1.2962,
+      "step": 565
+    },
+    {
+      "beta_dpo/beta": 0.8117600679397583,
+      "beta_dpo/beta_margin_grad_mean": -0.31733959913253784,
+      "beta_dpo/beta_margin_grad_std": 0.30447834730148315,
+      "beta_dpo/beta_margin_mean": 146.53407287597656,
+      "beta_dpo/beta_margin_std": 228.20166015625,
+      "beta_dpo/beta_used": 0.8117600679397583,
+      "beta_dpo/beta_used_raw": 0.07706618309020996,
+      "beta_dpo/gap_mean": 126.85293579101562,
+      "beta_dpo/gap_std": 152.6265411376953,
+      "beta_dpo/loss_margin_mean": 133.81838989257812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8311306901615272,
+      "grad_norm": 6508.62109375,
+      "learning_rate": 4.3028095264420525e-08,
+      "logits/chosen": -0.32367947697639465,
+      "logits/rejected": -0.31794965267181396,
+      "loss": 15.8724,
+      "step": 566
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46915555000305176,
+      "beta_dpo/beta_margin_grad_std": 0.037161875516176224,
+      "beta_dpo/beta_margin_mean": 0.12432525306940079,
+      "beta_dpo/beta_margin_std": 0.15016567707061768,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7240467667579651,
+      "beta_dpo/gap_mean": 129.08819580078125,
+      "beta_dpo/gap_std": 152.85943603515625,
+      "beta_dpo/loss_margin_mean": 124.32524871826172,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8325991189427313,
+      "grad_norm": 9.504931449890137,
+      "learning_rate": 4.231101308059165e-08,
+      "logits/chosen": -0.23528262972831726,
+      "logits/rejected": -0.2039298713207245,
+      "loss": 1.278,
+      "step": 567
+    },
+    {
+      "beta_dpo/beta": 0.8461459279060364,
+      "beta_dpo/beta_margin_grad_mean": -0.2526528537273407,
+      "beta_dpo/beta_margin_grad_std": 0.24908038973808289,
+      "beta_dpo/beta_margin_mean": 147.88540649414062,
+      "beta_dpo/beta_margin_std": 209.6600341796875,
+      "beta_dpo/beta_used": 0.8461459279060364,
+      "beta_dpo/beta_used_raw": 0.6107033491134644,
+      "beta_dpo/gap_mean": 133.88278198242188,
+      "beta_dpo/gap_std": 151.78158569335938,
+      "beta_dpo/loss_margin_mean": 160.45494079589844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8340675477239354,
+      "grad_norm": 6.678622245788574,
+      "learning_rate": 4.1599403694720145e-08,
+      "logits/chosen": -0.23205448687076569,
+      "logits/rejected": -0.23499351739883423,
+      "loss": 0.6345,
+      "step": 568
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4686329960823059,
+      "beta_dpo/beta_margin_grad_std": 0.042182739824056625,
+      "beta_dpo/beta_margin_mean": 0.1267063468694687,
+      "beta_dpo/beta_margin_std": 0.1721249222755432,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.5694082379341125,
+      "beta_dpo/gap_mean": 132.76881408691406,
+      "beta_dpo/gap_std": 157.49737548828125,
+      "beta_dpo/loss_margin_mean": 126.70633697509766,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8355359765051396,
+      "grad_norm": 8.88830280303955,
+      "learning_rate": 4.089328585837512e-08,
+      "logits/chosen": -0.2558819651603699,
+      "logits/rejected": -0.23038721084594727,
+      "loss": 1.2718,
+      "step": 569
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4649701714515686,
+      "beta_dpo/beta_margin_grad_std": 0.03612607344985008,
+      "beta_dpo/beta_margin_mean": 0.1412174552679062,
+      "beta_dpo/beta_margin_std": 0.1463191956281662,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.3033900260925293,
+      "beta_dpo/gap_mean": 135.02297973632812,
+      "beta_dpo/gap_std": 156.3493194580078,
+      "beta_dpo/loss_margin_mean": 141.2174530029297,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8370044052863436,
+      "grad_norm": 9.188750267028809,
+      "learning_rate": 4.019267817841834e-08,
+      "logits/chosen": -0.2918507754802704,
+      "logits/rejected": -0.25753656029701233,
+      "loss": 1.2812,
+      "step": 570
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4650152325630188,
+      "beta_dpo/beta_margin_grad_std": 0.04063018783926964,
+      "beta_dpo/beta_margin_mean": 0.141206756234169,
+      "beta_dpo/beta_margin_std": 0.16472414135932922,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.18992829322814941,
+      "beta_dpo/gap_mean": 136.13604736328125,
+      "beta_dpo/gap_std": 156.74822998046875,
+      "beta_dpo/loss_margin_mean": 141.20675659179688,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8384728340675477,
+      "grad_norm": 9.97313117980957,
+      "learning_rate": 3.9497599116513705e-08,
+      "logits/chosen": -0.25397494435310364,
+      "logits/rejected": -0.2496742308139801,
+      "loss": 1.2632,
+      "step": 571
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46506214141845703,
+      "beta_dpo/beta_margin_grad_std": 0.04904274642467499,
+      "beta_dpo/beta_margin_mean": 0.1416582465171814,
+      "beta_dpo/beta_margin_std": 0.19958563148975372,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.1367369890213013,
+      "beta_dpo/gap_mean": 137.13278198242188,
+      "beta_dpo/gap_std": 162.1319122314453,
+      "beta_dpo/loss_margin_mean": 141.65823364257812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8399412628487518,
+      "grad_norm": 8.473297119140625,
+      "learning_rate": 3.880806698864086e-08,
+      "logits/chosen": -0.1344674527645111,
+      "logits/rejected": -0.1297120749950409,
+      "loss": 1.2785,
+      "step": 572
+    },
+    {
+      "beta_dpo/beta": 0.5657570362091064,
+      "beta_dpo/beta_margin_grad_mean": -0.31479325890541077,
+      "beta_dpo/beta_margin_grad_std": 0.3017220199108124,
+      "beta_dpo/beta_margin_mean": 95.1263656616211,
+      "beta_dpo/beta_margin_std": 160.51971435546875,
+      "beta_dpo/beta_used": 0.5657570362091064,
+      "beta_dpo/beta_used_raw": -0.6155003905296326,
+      "beta_dpo/gap_mean": 134.93524169921875,
+      "beta_dpo/gap_std": 163.98435974121094,
+      "beta_dpo/loss_margin_mean": 134.92376708984375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8414096916299559,
+      "grad_norm": 2860.332763671875,
+      "learning_rate": 3.812409996461275e-08,
+      "logits/chosen": -0.21585188806056976,
+      "logits/rejected": -0.1981552243232727,
+      "loss": 1.0498,
+      "step": 573
+    },
+    {
+      "beta_dpo/beta": 0.42727431654930115,
+      "beta_dpo/beta_margin_grad_mean": -0.29670077562332153,
+      "beta_dpo/beta_margin_grad_std": 0.2917650043964386,
+      "beta_dpo/beta_margin_mean": 74.77179718017578,
+      "beta_dpo/beta_margin_std": 117.22281646728516,
+      "beta_dpo/beta_used": 0.42727431654930115,
+      "beta_dpo/beta_used_raw": -0.5097041130065918,
+      "beta_dpo/gap_mean": 137.75469970703125,
+      "beta_dpo/gap_std": 164.98902893066406,
+      "beta_dpo/loss_margin_mean": 151.39781188964844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8428781204111601,
+      "grad_norm": 4061.1669921875,
+      "learning_rate": 3.74457160675965e-08,
+      "logits/chosen": -0.2794973850250244,
+      "logits/rejected": -0.27186524868011475,
+      "loss": 7.3757,
+      "step": 574
+    },
+    {
+      "beta_dpo/beta": 0.7542173862457275,
+      "beta_dpo/beta_margin_grad_mean": -0.28391233086586,
+      "beta_dpo/beta_margin_grad_std": 0.2826778292655945,
+      "beta_dpo/beta_margin_mean": 144.06639099121094,
+      "beta_dpo/beta_margin_std": 216.29620361328125,
+      "beta_dpo/beta_used": 0.7542173862457275,
+      "beta_dpo/beta_used_raw": -1.0610246658325195,
+      "beta_dpo/gap_mean": 142.86614990234375,
+      "beta_dpo/gap_std": 165.47073364257812,
+      "beta_dpo/loss_margin_mean": 148.09268188476562,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8443465491923642,
+      "grad_norm": 5152.19970703125,
+      "learning_rate": 3.677293317363864e-08,
+      "logits/chosen": -0.23463058471679688,
+      "logits/rejected": -0.22157064080238342,
+      "loss": 10.9297,
+      "step": 575
+    },
+    {
+      "beta_dpo/beta": 0.7337521910667419,
+      "beta_dpo/beta_margin_grad_mean": -0.33054977655410767,
+      "beta_dpo/beta_margin_grad_std": 0.3121558427810669,
+      "beta_dpo/beta_margin_mean": 134.6069793701172,
+      "beta_dpo/beta_margin_std": 246.19821166992188,
+      "beta_dpo/beta_used": 0.7337521910667419,
+      "beta_dpo/beta_used_raw": -0.325950026512146,
+      "beta_dpo/gap_mean": 143.2208251953125,
+      "beta_dpo/gap_std": 170.84510803222656,
+      "beta_dpo/loss_margin_mean": 145.1151885986328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8458149779735683,
+      "grad_norm": 8114.90380859375,
+      "learning_rate": 3.6105769011194224e-08,
+      "logits/chosen": -0.19612964987754822,
+      "logits/rejected": -0.20850840210914612,
+      "loss": 15.0778,
+      "step": 576
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46494874358177185,
+      "beta_dpo/beta_margin_grad_std": 0.03526080772280693,
+      "beta_dpo/beta_margin_mean": 0.14119017124176025,
+      "beta_dpo/beta_margin_std": 0.1427299827337265,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.49266529083251953,
+      "beta_dpo/gap_mean": 141.38392639160156,
+      "beta_dpo/gap_std": 167.66371154785156,
+      "beta_dpo/loss_margin_mean": 141.19017028808594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8472834067547724,
+      "grad_norm": 10.440290451049805,
+      "learning_rate": 3.5444241160659304e-08,
+      "logits/chosen": -0.23968470096588135,
+      "logits/rejected": -0.20959413051605225,
+      "loss": 1.2622,
+      "step": 577
+    },
+    {
+      "beta_dpo/beta": 0.7611909508705139,
+      "beta_dpo/beta_margin_grad_mean": -0.2679000794887543,
+      "beta_dpo/beta_margin_grad_std": 0.26821058988571167,
+      "beta_dpo/beta_margin_mean": 142.5281219482422,
+      "beta_dpo/beta_margin_std": 197.11514282226562,
+      "beta_dpo/beta_used": 0.7611909508705139,
+      "beta_dpo/beta_used_raw": 0.006027281284332275,
+      "beta_dpo/gap_mean": 143.93539428710938,
+      "beta_dpo/gap_std": 159.52902221679688,
+      "beta_dpo/loss_margin_mean": 147.3227996826172,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8487518355359766,
+      "grad_norm": 6583.7763671875,
+      "learning_rate": 3.478836705390808e-08,
+      "logits/chosen": -0.22640444338321686,
+      "logits/rejected": -0.2157905399799347,
+      "loss": 11.5305,
+      "step": 578
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46830984950065613,
+      "beta_dpo/beta_margin_grad_std": 0.035833120346069336,
+      "beta_dpo/beta_margin_mean": 0.1277673989534378,
+      "beta_dpo/beta_margin_std": 0.14521077275276184,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.2088857889175415,
+      "beta_dpo/gap_mean": 139.8126220703125,
+      "beta_dpo/gap_std": 156.47616577148438,
+      "beta_dpo/loss_margin_mean": 127.76739501953125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8502202643171806,
+      "grad_norm": 9.89820384979248,
+      "learning_rate": 3.41381639738331e-08,
+      "logits/chosen": -0.2302914261817932,
+      "logits/rejected": -0.2305675745010376,
+      "loss": 1.2754,
+      "step": 579
+    },
+    {
+      "beta_dpo/beta": 0.6327630877494812,
+      "beta_dpo/beta_margin_grad_mean": -0.294393390417099,
+      "beta_dpo/beta_margin_grad_std": 0.2901197075843811,
+      "beta_dpo/beta_margin_mean": 124.6340560913086,
+      "beta_dpo/beta_margin_std": 214.6474151611328,
+      "beta_dpo/beta_used": 0.6327630877494812,
+      "beta_dpo/beta_used_raw": 0.005323469638824463,
+      "beta_dpo/gap_mean": 145.12841796875,
+      "beta_dpo/gap_std": 160.601318359375,
+      "beta_dpo/loss_margin_mean": 171.3323516845703,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8516886930983847,
+      "grad_norm": 4675.8388671875,
+      "learning_rate": 3.349364905389032e-08,
+      "logits/chosen": -0.2667354345321655,
+      "logits/rejected": -0.2596646249294281,
+      "loss": 3.4703,
+      "step": 580
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4696502089500427,
+      "beta_dpo/beta_margin_grad_std": 0.037816308438777924,
+      "beta_dpo/beta_margin_mean": 0.12241779267787933,
+      "beta_dpo/beta_margin_std": 0.1532379686832428,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.4444794654846191,
+      "beta_dpo/gap_mean": 142.22879028320312,
+      "beta_dpo/gap_std": 161.37136840820312,
+      "beta_dpo/loss_margin_mean": 122.41778564453125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8531571218795888,
+      "grad_norm": 11.051158905029297,
+      "learning_rate": 3.285483927764726e-08,
+      "logits/chosen": -0.2130197286605835,
+      "logits/rejected": -0.19874969124794006,
+      "loss": 1.2772,
+      "step": 581
+    },
+    {
+      "beta_dpo/beta": 0.8017593622207642,
+      "beta_dpo/beta_margin_grad_mean": -0.3157171308994293,
+      "beta_dpo/beta_margin_grad_std": 0.30175650119781494,
+      "beta_dpo/beta_margin_mean": 149.09133911132812,
+      "beta_dpo/beta_margin_std": 235.7801971435547,
+      "beta_dpo/beta_used": 0.8017593622207642,
+      "beta_dpo/beta_used_raw": 0.31641441583633423,
+      "beta_dpo/gap_mean": 140.53729248046875,
+      "beta_dpo/gap_std": 163.76708984375,
+      "beta_dpo/loss_margin_mean": 150.3306884765625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8546255506607929,
+      "grad_norm": 6046.9873046875,
+      "learning_rate": 3.222175147833556e-08,
+      "logits/chosen": -0.2035096287727356,
+      "logits/rejected": -0.21539103984832764,
+      "loss": 3.3185,
+      "step": 582
+    },
+    {
+      "beta_dpo/beta": 0.9682586193084717,
+      "beta_dpo/beta_margin_grad_mean": -0.30453696846961975,
+      "beta_dpo/beta_margin_grad_std": 0.2952696681022644,
+      "beta_dpo/beta_margin_mean": 162.30221557617188,
+      "beta_dpo/beta_margin_std": 269.2271423339844,
+      "beta_dpo/beta_used": 0.9682586193084717,
+      "beta_dpo/beta_used_raw": -1.43953537940979,
+      "beta_dpo/gap_mean": 141.73876953125,
+      "beta_dpo/gap_std": 164.75506591796875,
+      "beta_dpo/loss_margin_mean": 119.88349151611328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.856093979441997,
+      "grad_norm": 3786.101318359375,
+      "learning_rate": 3.159440233840763e-08,
+      "logits/chosen": -0.24737709760665894,
+      "logits/rejected": -0.2320498675107956,
+      "loss": 1.185,
+      "step": 583
+    },
+    {
+      "beta_dpo/beta": 1.6438066959381104,
+      "beta_dpo/beta_margin_grad_mean": -0.09067382663488388,
+      "beta_dpo/beta_margin_grad_std": 0.27994534373283386,
+      "beta_dpo/beta_margin_mean": 301.57366943359375,
+      "beta_dpo/beta_margin_std": 240.6201934814453,
+      "beta_dpo/beta_used": 1.6438066959381104,
+      "beta_dpo/beta_used_raw": 1.6438066959381104,
+      "beta_dpo/gap_mean": 145.17355346679688,
+      "beta_dpo/gap_std": 163.69281005859375,
+      "beta_dpo/loss_margin_mean": 184.53834533691406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8575624082232012,
+      "grad_norm": 8176.68701171875,
+      "learning_rate": 3.0972808389096635e-08,
+      "logits/chosen": -0.2157582938671112,
+      "logits/rejected": -0.18717166781425476,
+      "loss": 4.5156,
+      "step": 584
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4652203321456909,
+      "beta_dpo/beta_margin_grad_std": 0.04472190886735916,
+      "beta_dpo/beta_margin_mean": 0.14087313413619995,
+      "beta_dpo/beta_margin_std": 0.1823493242263794,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.062327265739441,
+      "beta_dpo/gap_mean": 146.427490234375,
+      "beta_dpo/gap_std": 167.09033203125,
+      "beta_dpo/loss_margin_mean": 140.87313842773438,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8590308370044053,
+      "grad_norm": 10.569422721862793,
+      "learning_rate": 3.035698600998121e-08,
+      "logits/chosen": -0.22004346549510956,
+      "logits/rejected": -0.19343584775924683,
+      "loss": 1.2685,
+      "step": 585
+    },
+    {
+      "beta_dpo/beta": 0.6197296380996704,
+      "beta_dpo/beta_margin_grad_mean": -0.34489572048187256,
+      "beta_dpo/beta_margin_grad_std": 0.31850454211235046,
+      "beta_dpo/beta_margin_mean": 77.84491729736328,
+      "beta_dpo/beta_margin_std": 179.86990356445312,
+      "beta_dpo/beta_used": 0.6197296380996704,
+      "beta_dpo/beta_used_raw": 0.3582208454608917,
+      "beta_dpo/gap_mean": 142.56971740722656,
+      "beta_dpo/gap_std": 166.39047241210938,
+      "beta_dpo/loss_margin_mean": 124.97702026367188,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8604992657856094,
+      "grad_norm": 6330.98046875,
+      "learning_rate": 2.974695142855388e-08,
+      "logits/chosen": -0.15243850648403168,
+      "logits/rejected": -0.1464701145887375,
+      "loss": 20.036,
+      "step": 586
+    },
+    {
+      "beta_dpo/beta": 0.1769709438085556,
+      "beta_dpo/beta_margin_grad_mean": -0.31770533323287964,
+      "beta_dpo/beta_margin_grad_std": 0.2991076707839966,
+      "beta_dpo/beta_margin_mean": 28.48146629333496,
+      "beta_dpo/beta_margin_std": 53.35295104980469,
+      "beta_dpo/beta_used": 0.1769709438085556,
+      "beta_dpo/beta_used_raw": 0.002979278564453125,
+      "beta_dpo/gap_mean": 141.173828125,
+      "beta_dpo/gap_std": 167.37734985351562,
+      "beta_dpo/loss_margin_mean": 143.61300659179688,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8619676945668135,
+      "grad_norm": 1486.959716796875,
+      "learning_rate": 2.9142720719793122e-08,
+      "logits/chosen": -0.21711990237236023,
+      "logits/rejected": -0.22026541829109192,
+      "loss": 1.6782,
+      "step": 587
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46673768758773804,
+      "beta_dpo/beta_margin_grad_std": 0.040590547025203705,
+      "beta_dpo/beta_margin_mean": 0.1343628466129303,
+      "beta_dpo/beta_margin_std": 0.16470497846603394,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.646202802658081,
+      "beta_dpo/gap_mean": 142.1791534423828,
+      "beta_dpo/gap_std": 167.677001953125,
+      "beta_dpo/loss_margin_mean": 134.3628387451172,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8634361233480177,
+      "grad_norm": 10.127455711364746,
+      "learning_rate": 2.8544309805740018e-08,
+      "logits/chosen": -0.20089392364025116,
+      "logits/rejected": -0.21640396118164062,
+      "loss": 1.2803,
+      "step": 588
+    },
+    {
+      "beta_dpo/beta": 0.7172443270683289,
+      "beta_dpo/beta_margin_grad_mean": -0.2917996644973755,
+      "beta_dpo/beta_margin_grad_std": 0.288737952709198,
+      "beta_dpo/beta_margin_mean": 129.02499389648438,
+      "beta_dpo/beta_margin_std": 218.08363342285156,
+      "beta_dpo/beta_used": 0.7172443270683289,
+      "beta_dpo/beta_used_raw": 0.6308818459510803,
+      "beta_dpo/gap_mean": 145.3118438720703,
+      "beta_dpo/gap_std": 171.17291259765625,
+      "beta_dpo/loss_margin_mean": 175.2359619140625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8649045521292217,
+      "grad_norm": 4978.62353515625,
+      "learning_rate": 2.7951734455078786e-08,
+      "logits/chosen": -0.21389494836330414,
+      "logits/rejected": -0.21070238947868347,
+      "loss": 9.0009,
+      "step": 589
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46174660325050354,
+      "beta_dpo/beta_margin_grad_std": 0.04324490576982498,
+      "beta_dpo/beta_margin_mean": 0.15463007986545563,
+      "beta_dpo/beta_margin_std": 0.1757480353116989,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.1024678945541382,
+      "beta_dpo/gap_mean": 148.32342529296875,
+      "beta_dpo/gap_std": 171.41741943359375,
+      "beta_dpo/loss_margin_mean": 154.6300811767578,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8663729809104258,
+      "grad_norm": 9.892497062683105,
+      "learning_rate": 2.736501028272095e-08,
+      "logits/chosen": -0.27166497707366943,
+      "logits/rejected": -0.2824591398239136,
+      "loss": 1.2672,
+      "step": 590
+    },
+    {
+      "beta_dpo/beta": 0.8430722951889038,
+      "beta_dpo/beta_margin_grad_mean": -0.1681036800146103,
+      "beta_dpo/beta_margin_grad_std": 0.3638584315776825,
+      "beta_dpo/beta_margin_mean": 119.6875228881836,
+      "beta_dpo/beta_margin_std": 166.5166778564453,
+      "beta_dpo/beta_used": 0.8430722951889038,
+      "beta_dpo/beta_used_raw": 0.8430722951889038,
+      "beta_dpo/gap_mean": 147.86041259765625,
+      "beta_dpo/gap_std": 171.3108367919922,
+      "beta_dpo/loss_margin_mean": 143.2025604248047,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8678414096916299,
+      "grad_norm": 6685.375,
+      "learning_rate": 2.678415274939408e-08,
+      "logits/chosen": -0.18227970600128174,
+      "logits/rejected": -0.1490815132856369,
+      "loss": 8.5331,
+      "step": 591
+    },
+    {
+      "beta_dpo/beta": 0.3010109066963196,
+      "beta_dpo/beta_margin_grad_mean": -0.17112194001674652,
+      "beta_dpo/beta_margin_grad_std": 0.3744083046913147,
+      "beta_dpo/beta_margin_mean": 41.5831298828125,
+      "beta_dpo/beta_margin_std": 63.77037048339844,
+      "beta_dpo/beta_used": 0.3010109066963196,
+      "beta_dpo/beta_used_raw": 0.3010109066963196,
+      "beta_dpo/gap_mean": 147.7420654296875,
+      "beta_dpo/gap_std": 173.76480102539062,
+      "beta_dpo/loss_margin_mean": 142.8642120361328,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.869309838472834,
+      "grad_norm": 1482.502197265625,
+      "learning_rate": 2.6209177161234442e-08,
+      "logits/chosen": -0.1433703750371933,
+      "logits/rejected": -0.13005104660987854,
+      "loss": 4.0589,
+      "step": 592
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47312307357788086,
+      "beta_dpo/beta_margin_grad_std": 0.037345997989177704,
+      "beta_dpo/beta_margin_mean": 0.10826075077056885,
+      "beta_dpo/beta_margin_std": 0.15056025981903076,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.6807360649108887,
+      "beta_dpo/gap_mean": 140.90626525878906,
+      "beta_dpo/gap_std": 171.15963745117188,
+      "beta_dpo/loss_margin_mean": 108.26074981689453,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8707782672540382,
+      "grad_norm": 9.439023971557617,
+      "learning_rate": 2.564009866938349e-08,
+      "logits/chosen": -0.21954259276390076,
+      "logits/rejected": -0.20099984109401703,
+      "loss": 1.2829,
+      "step": 593
+    },
+    {
+      "beta_dpo/beta": 0.978081226348877,
+      "beta_dpo/beta_margin_grad_mean": -0.30155855417251587,
+      "beta_dpo/beta_margin_grad_std": 0.29437771439552307,
+      "beta_dpo/beta_margin_mean": 191.28977966308594,
+      "beta_dpo/beta_margin_std": 318.696533203125,
+      "beta_dpo/beta_used": 0.978081226348877,
+      "beta_dpo/beta_used_raw": -0.07855743169784546,
+      "beta_dpo/gap_mean": 137.13877868652344,
+      "beta_dpo/gap_std": 171.59979248046875,
+      "beta_dpo/loss_margin_mean": 141.89723205566406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8722466960352423,
+      "grad_norm": 8501.2041015625,
+      "learning_rate": 2.5076932269588708e-08,
+      "logits/chosen": -0.24125239253044128,
+      "logits/rejected": -0.22039398550987244,
+      "loss": 5.7956,
+      "step": 594
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46594342589378357,
+      "beta_dpo/beta_margin_grad_std": 0.04041733592748642,
+      "beta_dpo/beta_margin_mean": 0.13782164454460144,
+      "beta_dpo/beta_margin_std": 0.16540595889091492,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.5019283294677734,
+      "beta_dpo/gap_mean": 140.37985229492188,
+      "beta_dpo/gap_std": 170.879638671875,
+      "beta_dpo/loss_margin_mean": 137.82164001464844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8737151248164464,
+      "grad_norm": 8.183320999145508,
+      "learning_rate": 2.451969280180849e-08,
+      "logits/chosen": -0.22626781463623047,
+      "logits/rejected": -0.209863543510437,
+      "loss": 1.2789,
+      "step": 595
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4717291593551636,
+      "beta_dpo/beta_margin_grad_std": 0.041060976684093475,
+      "beta_dpo/beta_margin_mean": 0.11397657543420792,
+      "beta_dpo/beta_margin_std": 0.1660909652709961,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.0142910480499268,
+      "beta_dpo/gap_mean": 135.27981567382812,
+      "beta_dpo/gap_std": 171.58035278320312,
+      "beta_dpo/loss_margin_mean": 113.97657012939453,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8751835535976505,
+      "grad_norm": 9.269095420837402,
+      "learning_rate": 2.396839494982103e-08,
+      "logits/chosen": -0.2307220697402954,
+      "logits/rejected": -0.1973237693309784,
+      "loss": 1.2921,
+      "step": 596
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46336647868156433,
+      "beta_dpo/beta_margin_grad_std": 0.04198829457163811,
+      "beta_dpo/beta_margin_mean": 0.14806897938251495,
+      "beta_dpo/beta_margin_std": 0.1707853525876999,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7436294555664062,
+      "beta_dpo/gap_mean": 138.75473022460938,
+      "beta_dpo/gap_std": 170.81509399414062,
+      "beta_dpo/loss_margin_mean": 148.0689697265625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8766519823788547,
+      "grad_norm": 8.808784484863281,
+      "learning_rate": 2.3423053240837514e-08,
+      "logits/chosen": -0.25807347893714905,
+      "logits/rejected": -0.271928995847702,
+      "loss": 1.2696,
+      "step": 597
+    },
+    {
+      "beta_dpo/beta": 1.4840975999832153,
+      "beta_dpo/beta_margin_grad_mean": -0.1805470734834671,
+      "beta_dpo/beta_margin_grad_std": 0.3769548535346985,
+      "beta_dpo/beta_margin_mean": 230.9344024658203,
+      "beta_dpo/beta_margin_std": 346.7568054199219,
+      "beta_dpo/beta_used": 1.4840975999832153,
+      "beta_dpo/beta_used_raw": 1.4840975999832153,
+      "beta_dpo/gap_mean": 137.17803955078125,
+      "beta_dpo/gap_std": 168.94393920898438,
+      "beta_dpo/loss_margin_mean": 126.81389617919922,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8781204111600588,
+      "grad_norm": 8300.21875,
+      "learning_rate": 2.2883682045119062e-08,
+      "logits/chosen": -0.15673092007637024,
+      "logits/rejected": -0.1377362161874771,
+      "loss": 0.7417,
+      "step": 598
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47013577818870544,
+      "beta_dpo/beta_margin_grad_std": 0.032581571489572525,
+      "beta_dpo/beta_margin_mean": 0.12014342844486237,
+      "beta_dpo/beta_margin_std": 0.1313522458076477,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.891679584980011,
+      "beta_dpo/gap_mean": 133.7099609375,
+      "beta_dpo/gap_std": 163.5647430419922,
+      "beta_dpo/loss_margin_mean": 120.14342498779297,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8795888399412628,
+      "grad_norm": 8.623753547668457,
+      "learning_rate": 2.2350295575598367e-08,
+      "logits/chosen": -0.23145388066768646,
+      "logits/rejected": -0.22919651865959167,
+      "loss": 1.2758,
+      "step": 599
+    },
+    {
+      "beta_dpo/beta": 0.5338709950447083,
+      "beta_dpo/beta_margin_grad_mean": -0.3133900761604309,
+      "beta_dpo/beta_margin_grad_std": 0.30288076400756836,
+      "beta_dpo/beta_margin_mean": 67.7778091430664,
+      "beta_dpo/beta_margin_std": 132.87322998046875,
+      "beta_dpo/beta_used": 0.5338709950447083,
+      "beta_dpo/beta_used_raw": -0.27364301681518555,
+      "beta_dpo/gap_mean": 130.60569763183594,
+      "beta_dpo/gap_std": 163.328125,
+      "beta_dpo/loss_margin_mean": 123.1740951538086,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8810572687224669,
+      "grad_norm": 6785.72021484375,
+      "learning_rate": 2.1822907887504932e-08,
+      "logits/chosen": -0.25038397312164307,
+      "logits/rejected": -0.22991827130317688,
+      "loss": 4.9835,
+      "step": 600
+    },
+    {
+      "epoch": 0.8810572687224669,
+      "eval_beta_dpo/beta": 0.06907455623149872,
+      "eval_beta_dpo/beta_margin_grad_mean": -0.45501866936683655,
+      "eval_beta_dpo/beta_margin_grad_std": 0.07437112927436829,
+      "eval_beta_dpo/beta_margin_mean": 10.027384757995605,
+      "eval_beta_dpo/beta_margin_std": 12.811722755432129,
+      "eval_beta_dpo/beta_used": 0.06907455623149872,
+      "eval_beta_dpo/beta_used_raw": -2.489274740219116,
+      "eval_beta_dpo/gap_mean": 130.01516723632812,
+      "eval_beta_dpo/gap_std": 165.05413818359375,
+      "eval_beta_dpo/loss_margin_mean": 86.860595703125,
+      "eval_beta_dpo/mask_keep_frac": 1.0,
+      "eval_logits/chosen": -0.2788536548614502,
+      "eval_logits/rejected": -0.2574594020843506,
+      "eval_loss": 1.7101179361343384,
+      "eval_runtime": 40.1564,
+      "eval_samples_per_second": 58.247,
+      "eval_steps_per_second": 1.843,
+      "step": 600
+    },
+    {
+      "beta_dpo/beta": 0.8004127740859985,
+      "beta_dpo/beta_margin_grad_mean": -0.1567797064781189,
+      "beta_dpo/beta_margin_grad_std": 0.36213722825050354,
+      "beta_dpo/beta_margin_mean": 111.2850570678711,
+      "beta_dpo/beta_margin_std": 138.40003967285156,
+      "beta_dpo/beta_used": 0.8004127740859985,
+      "beta_dpo/beta_used_raw": 0.8004127740859985,
+      "beta_dpo/gap_mean": 132.40260314941406,
+      "beta_dpo/gap_std": 165.82818603515625,
+      "beta_dpo/loss_margin_mean": 142.81410217285156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.882525697503671,
+      "grad_norm": 8184.26904296875,
+      "learning_rate": 2.1301532877994742e-08,
+      "logits/chosen": -0.22523418068885803,
+      "logits/rejected": -0.21112903952598572,
+      "loss": 17.4177,
+      "step": 601
+    },
+    {
+      "beta_dpo/beta": 0.405770868062973,
+      "beta_dpo/beta_margin_grad_mean": -0.3060374855995178,
+      "beta_dpo/beta_margin_grad_std": 0.2988956570625305,
+      "beta_dpo/beta_margin_mean": 59.608760833740234,
+      "beta_dpo/beta_margin_std": 99.93406677246094,
+      "beta_dpo/beta_used": 0.405770868062973,
+      "beta_dpo/beta_used_raw": -0.4077162742614746,
+      "beta_dpo/gap_mean": 136.0496826171875,
+      "beta_dpo/gap_std": 164.3628387451172,
+      "beta_dpo/loss_margin_mean": 162.997314453125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8839941262848752,
+      "grad_norm": 3134.716064453125,
+      "learning_rate": 2.0786184285784298e-08,
+      "logits/chosen": -0.2434152215719223,
+      "logits/rejected": -0.23451802134513855,
+      "loss": 3.5737,
+      "step": 602
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47068238258361816,
+      "beta_dpo/beta_margin_grad_std": 0.03925681486725807,
+      "beta_dpo/beta_margin_mean": 0.11826837062835693,
+      "beta_dpo/beta_margin_std": 0.15868444740772247,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.2860097885131836,
+      "beta_dpo/gap_mean": 135.49624633789062,
+      "beta_dpo/gap_std": 164.59576416015625,
+      "beta_dpo/loss_margin_mean": 118.26836395263672,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8854625550660793,
+      "grad_norm": 8.003498077392578,
+      "learning_rate": 2.0276875690788204e-08,
+      "logits/chosen": -0.30411213636398315,
+      "logits/rejected": -0.28685271739959717,
+      "loss": 1.281,
+      "step": 603
+    },
+    {
+      "beta_dpo/beta": 0.6322586536407471,
+      "beta_dpo/beta_margin_grad_mean": -0.27876517176628113,
+      "beta_dpo/beta_margin_grad_std": 0.2794075906276703,
+      "beta_dpo/beta_margin_mean": 95.61994934082031,
+      "beta_dpo/beta_margin_std": 150.78732299804688,
+      "beta_dpo/beta_used": 0.6322586536407471,
+      "beta_dpo/beta_used_raw": 0.08082294464111328,
+      "beta_dpo/gap_mean": 136.69830322265625,
+      "beta_dpo/gap_std": 164.337158203125,
+      "beta_dpo/loss_margin_mean": 149.04656982421875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8869309838472834,
+      "grad_norm": 724.6542358398438,
+      "learning_rate": 1.977362051376158e-08,
+      "logits/chosen": -0.2538166642189026,
+      "logits/rejected": -0.25749316811561584,
+      "loss": 0.8912,
+      "step": 604
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4670778810977936,
+      "beta_dpo/beta_margin_grad_std": 0.044755224138498306,
+      "beta_dpo/beta_margin_mean": 0.13371996581554413,
+      "beta_dpo/beta_margin_std": 0.18470925092697144,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.015389084815979,
+      "beta_dpo/gap_mean": 137.9195098876953,
+      "beta_dpo/gap_std": 170.83059692382812,
+      "beta_dpo/loss_margin_mean": 133.719970703125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8883994126284875,
+      "grad_norm": 12.376964569091797,
+      "learning_rate": 1.9276432015946446e-08,
+      "logits/chosen": -0.2761760950088501,
+      "logits/rejected": -0.2704794406890869,
+      "loss": 1.2738,
+      "step": 605
+    },
+    {
+      "beta_dpo/beta": 1.080771803855896,
+      "beta_dpo/beta_margin_grad_mean": -0.28311601281166077,
+      "beta_dpo/beta_margin_grad_std": 0.2813016474246979,
+      "beta_dpo/beta_margin_mean": 202.94053649902344,
+      "beta_dpo/beta_margin_std": 319.66082763671875,
+      "beta_dpo/beta_used": 1.080771803855896,
+      "beta_dpo/beta_used_raw": 0.5771820545196533,
+      "beta_dpo/gap_mean": 136.48269653320312,
+      "beta_dpo/gap_std": 169.08889770507812,
+      "beta_dpo/loss_margin_mean": 149.46290588378906,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8898678414096917,
+      "grad_norm": 1692.56103515625,
+      "learning_rate": 1.8785323298722093e-08,
+      "logits/chosen": -0.20563073456287384,
+      "logits/rejected": -0.20558518171310425,
+      "loss": 1.7791,
+      "step": 606
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47003647685050964,
+      "beta_dpo/beta_margin_grad_std": 0.03521895408630371,
+      "beta_dpo/beta_margin_mean": 0.12072371691465378,
+      "beta_dpo/beta_margin_std": 0.14232668280601501,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.6541626453399658,
+      "beta_dpo/gap_mean": 136.1642303466797,
+      "beta_dpo/gap_std": 165.0216522216797,
+      "beta_dpo/loss_margin_mean": 120.72370910644531,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8913362701908958,
+      "grad_norm": 8.623156547546387,
+      "learning_rate": 1.8300307303259904e-08,
+      "logits/chosen": -0.28075528144836426,
+      "logits/rejected": -0.26314833760261536,
+      "loss": 1.2853,
+      "step": 607
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46741145849227905,
+      "beta_dpo/beta_margin_grad_std": 0.03372717648744583,
+      "beta_dpo/beta_margin_mean": 0.13120831549167633,
+      "beta_dpo/beta_margin_std": 0.13629145920276642,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6566117405891418,
+      "beta_dpo/gap_mean": 134.62435913085938,
+      "beta_dpo/gap_std": 160.134521484375,
+      "beta_dpo/loss_margin_mean": 131.20831298828125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8928046989720999,
+      "grad_norm": 8.3565673828125,
+      "learning_rate": 1.7821396810182437e-08,
+      "logits/chosen": -0.30109351873397827,
+      "logits/rejected": -0.28483152389526367,
+      "loss": 1.2709,
+      "step": 608
+    },
+    {
+      "beta_dpo/beta": 0.5683431029319763,
+      "beta_dpo/beta_margin_grad_mean": -0.11586936563253403,
+      "beta_dpo/beta_margin_grad_std": 0.3091588318347931,
+      "beta_dpo/beta_margin_mean": 91.26676177978516,
+      "beta_dpo/beta_margin_std": 144.23231506347656,
+      "beta_dpo/beta_used": 0.5683431029319763,
+      "beta_dpo/beta_used_raw": 0.5683431029319763,
+      "beta_dpo/gap_mean": 137.36264038085938,
+      "beta_dpo/gap_std": 161.44122314453125,
+      "beta_dpo/loss_margin_mean": 153.95826721191406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8942731277533039,
+      "grad_norm": 3484.029052734375,
+      "learning_rate": 1.7348604439226617e-08,
+      "logits/chosen": -0.26210033893585205,
+      "logits/rejected": -0.24275103211402893,
+      "loss": 0.6493,
+      "step": 609
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4685831665992737,
+      "beta_dpo/beta_margin_grad_std": 0.04099490866065025,
+      "beta_dpo/beta_margin_mean": 0.1268150508403778,
+      "beta_dpo/beta_margin_std": 0.16618604958057404,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.988802433013916,
+      "beta_dpo/gap_mean": 136.2181854248047,
+      "beta_dpo/gap_std": 160.43869018554688,
+      "beta_dpo/loss_margin_mean": 126.81504821777344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.895741556534508,
+      "grad_norm": 9.066965103149414,
+      "learning_rate": 1.6881942648911074e-08,
+      "logits/chosen": -0.25646454095840454,
+      "logits/rejected": -0.22565940022468567,
+      "loss": 1.2757,
+      "step": 610
+    },
+    {
+      "beta_dpo/beta": 0.7692165374755859,
+      "beta_dpo/beta_margin_grad_mean": -0.3122340738773346,
+      "beta_dpo/beta_margin_grad_std": 0.3016832768917084,
+      "beta_dpo/beta_margin_mean": 129.48629760742188,
+      "beta_dpo/beta_margin_std": 206.50274658203125,
+      "beta_dpo/beta_used": 0.7692165374755859,
+      "beta_dpo/beta_used_raw": 0.4401324391365051,
+      "beta_dpo/gap_mean": 137.39132690429688,
+      "beta_dpo/gap_std": 162.03436279296875,
+      "beta_dpo/loss_margin_mean": 148.3230438232422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8972099853157122,
+      "grad_norm": 7008.0810546875,
+      "learning_rate": 1.6421423736208e-08,
+      "logits/chosen": -0.20377308130264282,
+      "logits/rejected": -0.19680052995681763,
+      "loss": 8.377,
+      "step": 611
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4589446187019348,
+      "beta_dpo/beta_margin_grad_std": 0.039632294327020645,
+      "beta_dpo/beta_margin_mean": 0.16578657925128937,
+      "beta_dpo/beta_margin_std": 0.16075921058654785,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.4418590068817139,
+      "beta_dpo/gap_mean": 142.43182373046875,
+      "beta_dpo/gap_std": 161.67913818359375,
+      "beta_dpo/loss_margin_mean": 165.7865753173828,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.8986784140969163,
+      "grad_norm": 13.170220375061035,
+      "learning_rate": 1.5967059836219042e-08,
+      "logits/chosen": -0.2226446568965912,
+      "logits/rejected": -0.18076658248901367,
+      "loss": 1.2771,
+      "step": 612
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46369874477386475,
+      "beta_dpo/beta_margin_grad_std": 0.034297436475753784,
+      "beta_dpo/beta_margin_mean": 0.14624443650245667,
+      "beta_dpo/beta_margin_std": 0.13885696232318878,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.0288455486297607,
+      "beta_dpo/gap_mean": 144.05943298339844,
+      "beta_dpo/gap_std": 158.86074829101562,
+      "beta_dpo/loss_margin_mean": 146.2444305419922,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9001468428781204,
+      "grad_norm": 8.972193717956543,
+      "learning_rate": 1.551886292185553e-08,
+      "logits/chosen": -0.2800806760787964,
+      "logits/rejected": -0.29024672508239746,
+      "loss": 1.2679,
+      "step": 613
+    },
+    {
+      "beta_dpo/beta": 0.06990689039230347,
+      "beta_dpo/beta_margin_grad_mean": -0.3197058439254761,
+      "beta_dpo/beta_margin_grad_std": 0.2986561954021454,
+      "beta_dpo/beta_margin_mean": 12.157843589782715,
+      "beta_dpo/beta_margin_std": 20.12245750427246,
+      "beta_dpo/beta_used": 0.06990689039230347,
+      "beta_dpo/beta_used_raw": -0.06399475783109665,
+      "beta_dpo/gap_mean": 148.22630310058594,
+      "beta_dpo/gap_std": 159.02099609375,
+      "beta_dpo/loss_margin_mean": 170.205810546875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9016152716593245,
+      "grad_norm": 895.0585327148438,
+      "learning_rate": 1.507684480352292e-08,
+      "logits/chosen": -0.20398010313510895,
+      "logits/rejected": -0.21416090428829193,
+      "loss": 2.7127,
+      "step": 614
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4713370203971863,
+      "beta_dpo/beta_margin_grad_std": 0.036130066961050034,
+      "beta_dpo/beta_margin_mean": 0.1156582459807396,
+      "beta_dpo/beta_margin_std": 0.14664776623249054,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.6342370510101318,
+      "beta_dpo/gap_mean": 143.90347290039062,
+      "beta_dpo/gap_std": 156.93869018554688,
+      "beta_dpo/loss_margin_mean": 115.65824127197266,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9030837004405287,
+      "grad_norm": 8.794045448303223,
+      "learning_rate": 1.4641017128809801e-08,
+      "logits/chosen": -0.2878304719924927,
+      "logits/rejected": -0.2756372094154358,
+      "loss": 1.2775,
+      "step": 615
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4739888608455658,
+      "beta_dpo/beta_margin_grad_std": 0.03806653246283531,
+      "beta_dpo/beta_margin_mean": 0.10492546856403351,
+      "beta_dpo/beta_margin_std": 0.15405791997909546,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -3.256364107131958,
+      "beta_dpo/gap_mean": 137.07403564453125,
+      "beta_dpo/gap_std": 155.02120971679688,
+      "beta_dpo/loss_margin_mean": 104.92546844482422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9045521292217328,
+      "grad_norm": 9.077305793762207,
+      "learning_rate": 1.4211391382180637e-08,
+      "logits/chosen": -0.2529584467411041,
+      "logits/rejected": -0.2234017550945282,
+      "loss": 1.3106,
+      "step": 616
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47770678997039795,
+      "beta_dpo/beta_margin_grad_std": 0.03402474522590637,
+      "beta_dpo/beta_margin_mean": 0.0897776335477829,
+      "beta_dpo/beta_margin_std": 0.13734619319438934,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.259263753890991,
+      "beta_dpo/gap_mean": 129.06411743164062,
+      "beta_dpo/gap_std": 153.8069305419922,
+      "beta_dpo/loss_margin_mean": 89.77762603759766,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9060205580029369,
+      "grad_norm": 8.899731636047363,
+      "learning_rate": 1.378797888467345e-08,
+      "logits/chosen": -0.23405620455741882,
+      "logits/rejected": -0.19954687356948853,
+      "loss": 1.3011,
+      "step": 617
+    },
+    {
+      "beta_dpo/beta": 0.22516019642353058,
+      "beta_dpo/beta_margin_grad_mean": -0.30100154876708984,
+      "beta_dpo/beta_margin_grad_std": 0.2931227684020996,
+      "beta_dpo/beta_margin_mean": 36.04357147216797,
+      "beta_dpo/beta_margin_std": 58.656856536865234,
+      "beta_dpo/beta_used": 0.22516019642353058,
+      "beta_dpo/beta_used_raw": -0.7018966674804688,
+      "beta_dpo/gap_mean": 126.19082641601562,
+      "beta_dpo/gap_std": 157.0688018798828,
+      "beta_dpo/loss_margin_mean": 128.67428588867188,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9074889867841409,
+      "grad_norm": 2414.7275390625,
+      "learning_rate": 1.3370790793601371e-08,
+      "logits/chosen": -0.28824859857559204,
+      "logits/rejected": -0.25596606731414795,
+      "loss": 3.6018,
+      "step": 618
+    },
+    {
+      "beta_dpo/beta": 0.32898879051208496,
+      "beta_dpo/beta_margin_grad_mean": -0.32226526737213135,
+      "beta_dpo/beta_margin_grad_std": 0.3011726140975952,
+      "beta_dpo/beta_margin_mean": 47.31397247314453,
+      "beta_dpo/beta_margin_std": 92.59415435791016,
+      "beta_dpo/beta_used": 0.32898879051208496,
+      "beta_dpo/beta_used_raw": -0.5022631883621216,
+      "beta_dpo/gap_mean": 127.52127075195312,
+      "beta_dpo/gap_std": 159.29910278320312,
+      "beta_dpo/loss_margin_mean": 129.31863403320312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.908957415565345,
+      "grad_norm": 1730.38427734375,
+      "learning_rate": 1.2959838102258535e-08,
+      "logits/chosen": -0.2695918679237366,
+      "logits/rejected": -0.25438401103019714,
+      "loss": 2.3727,
+      "step": 619
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46883711218833923,
+      "beta_dpo/beta_margin_grad_std": 0.04180603846907616,
+      "beta_dpo/beta_margin_mean": 0.1258520781993866,
+      "beta_dpo/beta_margin_std": 0.16934403777122498,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7810671329498291,
+      "beta_dpo/gap_mean": 128.8234405517578,
+      "beta_dpo/gap_std": 161.2275390625,
+      "beta_dpo/loss_margin_mean": 125.8520736694336,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9104258443465492,
+      "grad_norm": 8.195945739746094,
+      "learning_rate": 1.2555131639630567e-08,
+      "logits/chosen": -0.27168160676956177,
+      "logits/rejected": -0.24854370951652527,
+      "loss": 1.2793,
+      "step": 620
+    },
+    {
+      "beta_dpo/beta": 0.315225213766098,
+      "beta_dpo/beta_margin_grad_mean": -0.28073248267173767,
+      "beta_dpo/beta_margin_grad_std": 0.27754899859428406,
+      "beta_dpo/beta_margin_mean": 61.944881439208984,
+      "beta_dpo/beta_margin_std": 95.92522430419922,
+      "beta_dpo/beta_used": 0.315225213766098,
+      "beta_dpo/beta_used_raw": -0.001695185899734497,
+      "beta_dpo/gap_mean": 131.76333618164062,
+      "beta_dpo/gap_std": 162.11734008789062,
+      "beta_dpo/loss_margin_mean": 165.3124237060547,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9118942731277533,
+      "grad_norm": 2288.819091796875,
+      "learning_rate": 1.2156682070109086e-08,
+      "logits/chosen": -0.18687333166599274,
+      "logits/rejected": -0.1780368983745575,
+      "loss": 2.0444,
+      "step": 621
+    },
+    {
+      "beta_dpo/beta": 0.2183779627084732,
+      "beta_dpo/beta_margin_grad_mean": -0.3208658993244171,
+      "beta_dpo/beta_margin_grad_std": 0.29182958602905273,
+      "beta_dpo/beta_margin_mean": 35.79158401489258,
+      "beta_dpo/beta_margin_std": 66.24662017822266,
+      "beta_dpo/beta_used": 0.2183779627084732,
+      "beta_dpo/beta_used_raw": -1.115787386894226,
+      "beta_dpo/gap_mean": 136.07073974609375,
+      "beta_dpo/gap_std": 164.10821533203125,
+      "beta_dpo/loss_margin_mean": 131.12855529785156,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9133627019089574,
+      "grad_norm": 1909.772705078125,
+      "learning_rate": 1.1764499893210878e-08,
+      "logits/chosen": -0.2630102336406708,
+      "logits/rejected": -0.24436010420322418,
+      "loss": 2.2051,
+      "step": 622
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4722324013710022,
+      "beta_dpo/beta_margin_grad_std": 0.04376749321818352,
+      "beta_dpo/beta_margin_mean": 0.11244507133960724,
+      "beta_dpo/beta_margin_std": 0.1788908988237381,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.597635269165039,
+      "beta_dpo/gap_mean": 131.22195434570312,
+      "beta_dpo/gap_std": 165.27459716796875,
+      "beta_dpo/loss_margin_mean": 112.445068359375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9148311306901615,
+      "grad_norm": 8.092933654785156,
+      "learning_rate": 1.1378595443300998e-08,
+      "logits/chosen": -0.2123861014842987,
+      "logits/rejected": -0.18733005225658417,
+      "loss": 1.305,
+      "step": 623
+    },
+    {
+      "beta_dpo/beta": 1.4514429569244385,
+      "beta_dpo/beta_margin_grad_mean": -0.1736312210559845,
+      "beta_dpo/beta_margin_grad_std": 0.3766280710697174,
+      "beta_dpo/beta_margin_mean": 235.16859436035156,
+      "beta_dpo/beta_margin_std": 305.9576416015625,
+      "beta_dpo/beta_used": 1.4514429569244385,
+      "beta_dpo/beta_used_raw": 1.4514429569244385,
+      "beta_dpo/gap_mean": 134.68902587890625,
+      "beta_dpo/gap_std": 172.1035614013672,
+      "beta_dpo/loss_margin_mean": 160.6850128173828,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9162995594713657,
+      "grad_norm": 14112.7099609375,
+      "learning_rate": 1.0998978889320582e-08,
+      "logits/chosen": -0.31213879585266113,
+      "logits/rejected": -0.2707129120826721,
+      "loss": 18.6323,
+      "step": 624
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46674269437789917,
+      "beta_dpo/beta_margin_grad_std": 0.03943945840001106,
+      "beta_dpo/beta_margin_mean": 0.13447730243206024,
+      "beta_dpo/beta_margin_std": 0.16113615036010742,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.086260437965393,
+      "beta_dpo/gap_mean": 135.93350219726562,
+      "beta_dpo/gap_std": 170.4825439453125,
+      "beta_dpo/loss_margin_mean": 134.477294921875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9177679882525698,
+      "grad_norm": 8.834936141967773,
+      "learning_rate": 1.0625660234518913e-08,
+      "logits/chosen": -0.24899110198020935,
+      "logits/rejected": -0.22103792428970337,
+      "loss": 1.277,
+      "step": 625
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47088930010795593,
+      "beta_dpo/beta_margin_grad_std": 0.03784249722957611,
+      "beta_dpo/beta_margin_mean": 0.11733278632164001,
+      "beta_dpo/beta_margin_std": 0.15290819108486176,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.6771858930587769,
+      "beta_dpo/gap_mean": 132.06570434570312,
+      "beta_dpo/gap_std": 165.1246337890625,
+      "beta_dpo/loss_margin_mean": 117.33277893066406,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9192364170337739,
+      "grad_norm": 11.363311767578125,
+      "learning_rate": 1.0258649316189721e-08,
+      "logits/chosen": -0.30383527278900146,
+      "logits/rejected": -0.27899685502052307,
+      "loss": 1.2908,
+      "step": 626
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4600542187690735,
+      "beta_dpo/beta_margin_grad_std": 0.04917608201503754,
+      "beta_dpo/beta_margin_mean": 0.16240194439888,
+      "beta_dpo/beta_margin_std": 0.2026146799325943,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.715671956539154,
+      "beta_dpo/gap_mean": 135.79798889160156,
+      "beta_dpo/gap_std": 170.36813354492188,
+      "beta_dpo/loss_margin_mean": 162.4019317626953,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.920704845814978,
+      "grad_norm": 10.255217552185059,
+      "learning_rate": 9.897955805412e-09,
+      "logits/chosen": -0.2576707601547241,
+      "logits/rejected": -0.27673864364624023,
+      "loss": 1.2721,
+      "step": 627
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46119076013565063,
+      "beta_dpo/beta_margin_grad_std": 0.04088958352804184,
+      "beta_dpo/beta_margin_mean": 0.15677191317081451,
+      "beta_dpo/beta_margin_std": 0.16587892174720764,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7566049098968506,
+      "beta_dpo/gap_mean": 141.70660400390625,
+      "beta_dpo/gap_std": 172.304931640625,
+      "beta_dpo/loss_margin_mean": 156.77191162109375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.922173274596182,
+      "grad_norm": 9.771873474121094,
+      "learning_rate": 9.543589206795238e-09,
+      "logits/chosen": -0.25853201746940613,
+      "logits/rejected": -0.2484220564365387,
+      "loss": 1.2686,
+      "step": 628
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4680294096469879,
+      "beta_dpo/beta_margin_grad_std": 0.033298566937446594,
+      "beta_dpo/beta_margin_mean": 0.1288066953420639,
+      "beta_dpo/beta_margin_std": 0.13501150906085968,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.1783255338668823,
+      "beta_dpo/gap_mean": 140.23866271972656,
+      "beta_dpo/gap_std": 167.48165893554688,
+      "beta_dpo/loss_margin_mean": 128.8066864013672,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9236417033773862,
+      "grad_norm": 13.822155952453613,
+      "learning_rate": 9.19555885822887e-09,
+      "logits/chosen": -0.2648368775844574,
+      "logits/rejected": -0.2452375888824463,
+      "loss": 1.274,
+      "step": 629
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47568345069885254,
+      "beta_dpo/beta_margin_grad_std": 0.03724653273820877,
+      "beta_dpo/beta_margin_mean": 0.09809713065624237,
+      "beta_dpo/beta_margin_std": 0.1510220766067505,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.620537281036377,
+      "beta_dpo/gap_mean": 132.54100036621094,
+      "beta_dpo/gap_std": 162.70718383789062,
+      "beta_dpo/loss_margin_mean": 98.09712219238281,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9251101321585903,
+      "grad_norm": 8.615431785583496,
+      "learning_rate": 8.85387393063622e-09,
+      "logits/chosen": -0.3369476795196533,
+      "logits/rejected": -0.3151329755783081,
+      "loss": 1.3037,
+      "step": 630
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.469342440366745,
+      "beta_dpo/beta_margin_grad_std": 0.04454941302537918,
+      "beta_dpo/beta_margin_mean": 0.12401168048381805,
+      "beta_dpo/beta_margin_std": 0.18085241317749023,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -2.252204656600952,
+      "beta_dpo/gap_mean": 129.70608520507812,
+      "beta_dpo/gap_std": 164.6175079345703,
+      "beta_dpo/loss_margin_mean": 124.01167297363281,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9265785609397944,
+      "grad_norm": 10.43221378326416,
+      "learning_rate": 8.518543427732949e-09,
+      "logits/chosen": -0.19672399759292603,
+      "logits/rejected": -0.16939029097557068,
+      "loss": 1.3022,
+      "step": 631
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4707336127758026,
+      "beta_dpo/beta_margin_grad_std": 0.04446292296051979,
+      "beta_dpo/beta_margin_mean": 0.11808396875858307,
+      "beta_dpo/beta_margin_std": 0.17979924380779266,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.9367992877960205,
+      "beta_dpo/gap_mean": 129.06605529785156,
+      "beta_dpo/gap_std": 169.87759399414062,
+      "beta_dpo/loss_margin_mean": 118.0839614868164,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9280469897209985,
+      "grad_norm": 8.912779808044434,
+      "learning_rate": 8.189576185789637e-09,
+      "logits/chosen": -0.2137627899646759,
+      "logits/rejected": -0.1909235715866089,
+      "loss": 1.2832,
+      "step": 632
+    },
+    {
+      "beta_dpo/beta": 0.1498415768146515,
+      "beta_dpo/beta_margin_grad_mean": -0.3400387465953827,
+      "beta_dpo/beta_margin_grad_std": 0.31042587757110596,
+      "beta_dpo/beta_margin_mean": 17.67989158630371,
+      "beta_dpo/beta_margin_std": 41.04912567138672,
+      "beta_dpo/beta_used": 0.1498415768146515,
+      "beta_dpo/beta_used_raw": -1.1626986265182495,
+      "beta_dpo/gap_mean": 122.80825805664062,
+      "beta_dpo/gap_std": 166.48403930664062,
+      "beta_dpo/loss_margin_mean": 100.83395385742188,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9295154185022027,
+      "grad_norm": 2468.25341796875,
+      "learning_rate": 7.866980873399015e-09,
+      "logits/chosen": -0.262068510055542,
+      "logits/rejected": -0.2606055736541748,
+      "loss": 4.4345,
+      "step": 633
+    },
+    {
+      "beta_dpo/beta": 0.2891407012939453,
+      "beta_dpo/beta_margin_grad_mean": -0.3603072762489319,
+      "beta_dpo/beta_margin_grad_std": 0.3205583393573761,
+      "beta_dpo/beta_margin_mean": 44.27980041503906,
+      "beta_dpo/beta_margin_std": 89.58101654052734,
+      "beta_dpo/beta_used": 0.2891407012939453,
+      "beta_dpo/beta_used_raw": -1.0204623937606812,
+      "beta_dpo/gap_mean": 123.09707641601562,
+      "beta_dpo/gap_std": 168.86935424804688,
+      "beta_dpo/loss_margin_mean": 114.10114288330078,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9309838472834068,
+      "grad_norm": 4420.4560546875,
+      "learning_rate": 7.550765991247654e-09,
+      "logits/chosen": -0.2516968548297882,
+      "logits/rejected": -0.2492125928401947,
+      "loss": 8.1633,
+      "step": 634
+    },
+    {
+      "beta_dpo/beta": 0.8167719841003418,
+      "beta_dpo/beta_margin_grad_mean": -0.3317233920097351,
+      "beta_dpo/beta_margin_grad_std": 0.3114463686943054,
+      "beta_dpo/beta_margin_mean": 93.9231948852539,
+      "beta_dpo/beta_margin_std": 184.6671905517578,
+      "beta_dpo/beta_used": 0.8167719841003418,
+      "beta_dpo/beta_used_raw": 0.44367918372154236,
+      "beta_dpo/gap_mean": 119.10769653320312,
+      "beta_dpo/gap_std": 164.04827880859375,
+      "beta_dpo/loss_margin_mean": 108.52445983886719,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9324522760646109,
+      "grad_norm": 4297.1875,
+      "learning_rate": 7.240939871891699e-09,
+      "logits/chosen": -0.3063223958015442,
+      "logits/rejected": -0.25702351331710815,
+      "loss": 12.3188,
+      "step": 635
+    },
+    {
+      "beta_dpo/beta": 0.21374358236789703,
+      "beta_dpo/beta_margin_grad_mean": -0.29352760314941406,
+      "beta_dpo/beta_margin_grad_std": 0.28238052129745483,
+      "beta_dpo/beta_margin_mean": 32.544044494628906,
+      "beta_dpo/beta_margin_std": 50.19921112060547,
+      "beta_dpo/beta_used": 0.21374358236789703,
+      "beta_dpo/beta_used_raw": -0.49636417627334595,
+      "beta_dpo/gap_mean": 119.43673706054688,
+      "beta_dpo/gap_std": 161.71958923339844,
+      "beta_dpo/loss_margin_mean": 132.7529754638672,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.933920704845815,
+      "grad_norm": 1658.96923828125,
+      "learning_rate": 6.937510679537628e-09,
+      "logits/chosen": -0.2624373733997345,
+      "logits/rejected": -0.23375412821769714,
+      "loss": 2.1742,
+      "step": 636
+    },
+    {
+      "beta_dpo/beta": 0.3223646879196167,
+      "beta_dpo/beta_margin_grad_mean": -0.32306286692619324,
+      "beta_dpo/beta_margin_grad_std": 0.30376118421554565,
+      "beta_dpo/beta_margin_mean": 42.55961608886719,
+      "beta_dpo/beta_margin_std": 81.67517852783203,
+      "beta_dpo/beta_used": 0.3223646879196167,
+      "beta_dpo/beta_used_raw": 0.3115572929382324,
+      "beta_dpo/gap_mean": 124.16712951660156,
+      "beta_dpo/gap_std": 161.0850372314453,
+      "beta_dpo/loss_margin_mean": 139.51402282714844,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9353891336270191,
+      "grad_norm": 4178.92724609375,
+      "learning_rate": 6.640486409826785e-09,
+      "logits/chosen": -0.22674018144607544,
+      "logits/rejected": -0.22383208572864532,
+      "loss": 3.3524,
+      "step": 637
+    },
+    {
+      "beta_dpo/beta": 1.4511369466781616,
+      "beta_dpo/beta_margin_grad_mean": -0.3164081573486328,
+      "beta_dpo/beta_margin_grad_std": 0.30334481596946716,
+      "beta_dpo/beta_margin_mean": 266.310791015625,
+      "beta_dpo/beta_margin_std": 417.8957214355469,
+      "beta_dpo/beta_used": 1.4511369466781616,
+      "beta_dpo/beta_used_raw": -0.3003849983215332,
+      "beta_dpo/gap_mean": 124.66742706298828,
+      "beta_dpo/gap_std": 157.39694213867188,
+      "beta_dpo/loss_margin_mean": 139.00933837890625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9368575624082232,
+      "grad_norm": 9381.5517578125,
+      "learning_rate": 6.349874889624962e-09,
+      "logits/chosen": -0.2576182782649994,
+      "logits/rejected": -0.23263539373874664,
+      "loss": 8.0532,
+      "step": 638
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47581177949905396,
+      "beta_dpo/beta_margin_grad_std": 0.03869582340121269,
+      "beta_dpo/beta_margin_mean": 0.09742747247219086,
+      "beta_dpo/beta_margin_std": 0.1560250073671341,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.47708529233932495,
+      "beta_dpo/gap_mean": 122.42938995361328,
+      "beta_dpo/gap_std": 157.66665649414062,
+      "beta_dpo/loss_margin_mean": 97.4274673461914,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9383259911894273,
+      "grad_norm": 11.267277717590332,
+      "learning_rate": 6.065683776815933e-09,
+      "logits/chosen": -0.2489241063594818,
+      "logits/rejected": -0.20080968737602234,
+      "loss": 1.2811,
+      "step": 639
+    },
+    {
+      "beta_dpo/beta": 1.0406347513198853,
+      "beta_dpo/beta_margin_grad_mean": -0.10319266468286514,
+      "beta_dpo/beta_margin_grad_std": 0.23703627288341522,
+      "beta_dpo/beta_margin_mean": 186.98306274414062,
+      "beta_dpo/beta_margin_std": 294.89520263671875,
+      "beta_dpo/beta_used": 1.0406347513198853,
+      "beta_dpo/beta_used_raw": 1.0406347513198853,
+      "beta_dpo/gap_mean": 126.0462875366211,
+      "beta_dpo/gap_std": 156.94723510742188,
+      "beta_dpo/loss_margin_mean": 156.25440979003906,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9397944199706314,
+      "grad_norm": 2567.301025390625,
+      "learning_rate": 5.7879205600998296e-09,
+      "logits/chosen": -0.2669011354446411,
+      "logits/rejected": -0.2516845762729645,
+      "loss": 0.5288,
+      "step": 640
+    },
+    {
+      "beta_dpo/beta": 0.6511551141738892,
+      "beta_dpo/beta_margin_grad_mean": -0.2987769544124603,
+      "beta_dpo/beta_margin_grad_std": 0.29313045740127563,
+      "beta_dpo/beta_margin_mean": 84.13956451416016,
+      "beta_dpo/beta_margin_std": 165.199462890625,
+      "beta_dpo/beta_used": 0.6511551141738892,
+      "beta_dpo/beta_used_raw": 0.3140296936035156,
+      "beta_dpo/gap_mean": 128.0950164794922,
+      "beta_dpo/gap_std": 159.058837890625,
+      "beta_dpo/loss_margin_mean": 120.50196075439453,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9412628487518355,
+      "grad_norm": 3385.51611328125,
+      "learning_rate": 5.516592558795746e-09,
+      "logits/chosen": -0.2616059482097626,
+      "logits/rejected": -0.23641052842140198,
+      "loss": 10.8266,
+      "step": 641
+    },
+    {
+      "beta_dpo/beta": 0.7909172177314758,
+      "beta_dpo/beta_margin_grad_mean": -0.26804837584495544,
+      "beta_dpo/beta_margin_grad_std": 0.27035075426101685,
+      "beta_dpo/beta_margin_mean": 147.3969268798828,
+      "beta_dpo/beta_margin_std": 221.18307495117188,
+      "beta_dpo/beta_used": 0.7909172177314758,
+      "beta_dpo/beta_used_raw": -0.6517113447189331,
+      "beta_dpo/gap_mean": 128.44711303710938,
+      "beta_dpo/gap_std": 167.51364135742188,
+      "beta_dpo/loss_margin_mean": 147.625244140625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9427312775330396,
+      "grad_norm": 6544.80078125,
+      "learning_rate": 5.251706922648868e-09,
+      "logits/chosen": -0.27374494075775146,
+      "logits/rejected": -0.26332151889801025,
+      "loss": 7.0951,
+      "step": 642
+    },
+    {
+      "beta_dpo/beta": 0.5000445246696472,
+      "beta_dpo/beta_margin_grad_mean": -0.2856932282447815,
+      "beta_dpo/beta_margin_grad_std": 0.28263115882873535,
+      "beta_dpo/beta_margin_mean": 75.19145965576172,
+      "beta_dpo/beta_margin_std": 120.19136047363281,
+      "beta_dpo/beta_used": 0.5000445246696472,
+      "beta_dpo/beta_used_raw": -0.6685765981674194,
+      "beta_dpo/gap_mean": 131.22329711914062,
+      "beta_dpo/gap_std": 162.10546875,
+      "beta_dpo/loss_margin_mean": 120.23302459716797,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9441997063142438,
+      "grad_norm": 4131.7802734375,
+      "learning_rate": 4.993270631642038e-09,
+      "logits/chosen": -0.24260678887367249,
+      "logits/rejected": -0.24370941519737244,
+      "loss": 3.7361,
+      "step": 643
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4704153537750244,
+      "beta_dpo/beta_margin_grad_std": 0.044792983680963516,
+      "beta_dpo/beta_margin_mean": 0.11960872262716293,
+      "beta_dpo/beta_margin_std": 0.18185746669769287,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.3600785732269287,
+      "beta_dpo/gap_mean": 127.92471313476562,
+      "beta_dpo/gap_std": 164.80690002441406,
+      "beta_dpo/loss_margin_mean": 119.60871887207031,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9456681350954479,
+      "grad_norm": 9.257484436035156,
+      "learning_rate": 4.741290495811873e-09,
+      "logits/chosen": -0.29417717456817627,
+      "logits/rejected": -0.2829264998435974,
+      "loss": 1.2896,
+      "step": 644
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47504597902297974,
+      "beta_dpo/beta_margin_grad_std": 0.04654289036989212,
+      "beta_dpo/beta_margin_mean": 0.10111980140209198,
+      "beta_dpo/beta_margin_std": 0.1889955848455429,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.6929526329040527,
+      "beta_dpo/gap_mean": 125.04953002929688,
+      "beta_dpo/gap_std": 169.11019897460938,
+      "beta_dpo/loss_margin_mean": 101.11979675292969,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.947136563876652,
+      "grad_norm": 11.280401229858398,
+      "learning_rate": 4.495773155069299e-09,
+      "logits/chosen": -0.26835355162620544,
+      "logits/rejected": -0.2733767330646515,
+      "loss": 1.2982,
+      "step": 645
+    },
+    {
+      "beta_dpo/beta": 0.9947884678840637,
+      "beta_dpo/beta_margin_grad_mean": -0.3158058226108551,
+      "beta_dpo/beta_margin_grad_std": 0.3032316267490387,
+      "beta_dpo/beta_margin_mean": 126.421630859375,
+      "beta_dpo/beta_margin_std": 230.53216552734375,
+      "beta_dpo/beta_used": 0.9947884678840637,
+      "beta_dpo/beta_used_raw": 0.016669809818267822,
+      "beta_dpo/gap_mean": 121.25621032714844,
+      "beta_dpo/gap_std": 164.90869140625,
+      "beta_dpo/loss_margin_mean": 113.20999145507812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9486049926578561,
+      "grad_norm": 7780.4990234375,
+      "learning_rate": 4.256725079024553e-09,
+      "logits/chosen": -0.21456298232078552,
+      "logits/rejected": -0.19140079617500305,
+      "loss": 3.2758,
+      "step": 646
+    },
+    {
+      "beta_dpo/beta": 0.4405333995819092,
+      "beta_dpo/beta_margin_grad_mean": -0.16993050277233124,
+      "beta_dpo/beta_margin_grad_std": 0.3702445924282074,
+      "beta_dpo/beta_margin_mean": 50.956336975097656,
+      "beta_dpo/beta_margin_std": 66.18246459960938,
+      "beta_dpo/beta_used": 0.4405333995819092,
+      "beta_dpo/beta_used_raw": 0.4405333995819092,
+      "beta_dpo/gap_mean": 119.49800109863281,
+      "beta_dpo/gap_std": 160.93655395507812,
+      "beta_dpo/loss_margin_mean": 118.18896484375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9500734214390602,
+      "grad_norm": 3096.896240234375,
+      "learning_rate": 4.024152566816791e-09,
+      "logits/chosen": -0.23497043550014496,
+      "logits/rejected": -0.23454715311527252,
+      "loss": 8.0903,
+      "step": 647
+    },
+    {
+      "beta_dpo/beta": 0.21638301014900208,
+      "beta_dpo/beta_margin_grad_mean": -0.28432542085647583,
+      "beta_dpo/beta_margin_grad_std": 0.2745562791824341,
+      "beta_dpo/beta_margin_mean": 37.98030090332031,
+      "beta_dpo/beta_margin_std": 73.11116027832031,
+      "beta_dpo/beta_used": 0.21638301014900208,
+      "beta_dpo/beta_used_raw": 0.027231574058532715,
+      "beta_dpo/gap_mean": 127.08036804199219,
+      "beta_dpo/gap_std": 167.84896850585938,
+      "beta_dpo/loss_margin_mean": 167.418212890625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9515418502202643,
+      "grad_norm": 1881.7218017578125,
+      "learning_rate": 3.798061746947995e-09,
+      "logits/chosen": -0.2324717938899994,
+      "logits/rejected": -0.23608848452568054,
+      "loss": 3.7315,
+      "step": 648
+    },
+    {
+      "beta_dpo/beta": 0.17022213339805603,
+      "beta_dpo/beta_margin_grad_mean": -0.37708210945129395,
+      "beta_dpo/beta_margin_grad_std": 0.333068311214447,
+      "beta_dpo/beta_margin_mean": 15.761299133300781,
+      "beta_dpo/beta_margin_std": 38.01227569580078,
+      "beta_dpo/beta_used": 0.17022213339805603,
+      "beta_dpo/beta_used_raw": -0.06394051015377045,
+      "beta_dpo/gap_mean": 124.45140075683594,
+      "beta_dpo/gap_std": 167.86746215820312,
+      "beta_dpo/loss_margin_mean": 101.8471450805664,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9530102790014684,
+      "grad_norm": 2891.095703125,
+      "learning_rate": 3.5784585771215235e-09,
+      "logits/chosen": -0.3063885569572449,
+      "logits/rejected": -0.2801710069179535,
+      "loss": 3.869,
+      "step": 649
+    },
+    {
+      "beta_dpo/beta": 1.3667818307876587,
+      "beta_dpo/beta_margin_grad_mean": -0.2347412258386612,
+      "beta_dpo/beta_margin_grad_std": 0.42016705870628357,
+      "beta_dpo/beta_margin_mean": 236.2583770751953,
+      "beta_dpo/beta_margin_std": 431.2769470214844,
+      "beta_dpo/beta_used": 1.3667818307876587,
+      "beta_dpo/beta_used_raw": 1.3667818307876587,
+      "beta_dpo/gap_mean": 129.84597778320312,
+      "beta_dpo/gap_std": 173.6107635498047,
+      "beta_dpo/loss_margin_mean": 161.89785766601562,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9544787077826725,
+      "grad_norm": 20882.701171875,
+      "learning_rate": 3.3653488440851253e-09,
+      "logits/chosen": -0.22325937449932098,
+      "logits/rejected": -0.22227120399475098,
+      "loss": 43.9246,
+      "step": 650
+    },
+    {
+      "beta_dpo/beta": 0.7648828029632568,
+      "beta_dpo/beta_margin_grad_mean": -0.32739847898483276,
+      "beta_dpo/beta_margin_grad_std": 0.3100513815879822,
+      "beta_dpo/beta_margin_mean": 129.44383239746094,
+      "beta_dpo/beta_margin_std": 225.9346466064453,
+      "beta_dpo/beta_used": 0.7648828029632568,
+      "beta_dpo/beta_used_raw": 0.4660683274269104,
+      "beta_dpo/gap_mean": 134.56472778320312,
+      "beta_dpo/gap_std": 172.713623046875,
+      "beta_dpo/loss_margin_mean": 150.5056610107422,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9559471365638766,
+      "grad_norm": 7399.314453125,
+      "learning_rate": 3.158738163478475e-09,
+      "logits/chosen": -0.29069170355796814,
+      "logits/rejected": -0.3059248924255371,
+      "loss": 8.9479,
+      "step": 651
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46688932180404663,
+      "beta_dpo/beta_margin_grad_std": 0.04138989374041557,
+      "beta_dpo/beta_margin_mean": 0.1338927298784256,
+      "beta_dpo/beta_margin_std": 0.1681978404521942,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.46489205956459045,
+      "beta_dpo/gap_mean": 133.96636962890625,
+      "beta_dpo/gap_std": 171.03175354003906,
+      "beta_dpo/loss_margin_mean": 133.89273071289062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9574155653450808,
+      "grad_norm": 13.33399772644043,
+      "learning_rate": 2.9586319796851555e-09,
+      "logits/chosen": -0.2815973162651062,
+      "logits/rejected": -0.2725764214992523,
+      "loss": 1.2702,
+      "step": 652
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4622488021850586,
+      "beta_dpo/beta_margin_grad_std": 0.0421992689371109,
+      "beta_dpo/beta_margin_mean": 0.15270715951919556,
+      "beta_dpo/beta_margin_std": 0.1718183010816574,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.37464144825935364,
+      "beta_dpo/gap_mean": 136.72564697265625,
+      "beta_dpo/gap_std": 170.6292724609375,
+      "beta_dpo/loss_margin_mean": 152.7071533203125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9588839941262849,
+      "grad_norm": 9.623185157775879,
+      "learning_rate": 2.7650355656892166e-09,
+      "logits/chosen": -0.26191675662994385,
+      "logits/rejected": -0.26024746894836426,
+      "loss": 1.2661,
+      "step": 653
+    },
+    {
+      "beta_dpo/beta": 0.12737774848937988,
+      "beta_dpo/beta_margin_grad_mean": -0.3520982265472412,
+      "beta_dpo/beta_margin_grad_std": 0.311506450176239,
+      "beta_dpo/beta_margin_mean": 14.189286231994629,
+      "beta_dpo/beta_margin_std": 31.74391746520996,
+      "beta_dpo/beta_used": 0.12737774848937988,
+      "beta_dpo/beta_used_raw": -0.6519217491149902,
+      "beta_dpo/gap_mean": 135.6177978515625,
+      "beta_dpo/gap_std": 171.04434204101562,
+      "beta_dpo/loss_margin_mean": 119.36299896240234,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.960352422907489,
+      "grad_norm": 1289.0914306640625,
+      "learning_rate": 2.577954022936174e-09,
+      "logits/chosen": -0.285967618227005,
+      "logits/rejected": -0.2813323140144348,
+      "loss": 1.479,
+      "step": 654
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4685191512107849,
+      "beta_dpo/beta_margin_grad_std": 0.04493279755115509,
+      "beta_dpo/beta_margin_mean": 0.12751449644565582,
+      "beta_dpo/beta_margin_std": 0.1827131062746048,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.6912943124771118,
+      "beta_dpo/gap_mean": 134.3379364013672,
+      "beta_dpo/gap_std": 172.51646423339844,
+      "beta_dpo/loss_margin_mean": 127.51449584960938,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9618208516886931,
+      "grad_norm": 11.29627513885498,
+      "learning_rate": 2.397392281198729e-09,
+      "logits/chosen": -0.21164986491203308,
+      "logits/rejected": -0.22321152687072754,
+      "loss": 1.2895,
+      "step": 655
+    },
+    {
+      "beta_dpo/beta": 1.46394944190979,
+      "beta_dpo/beta_margin_grad_mean": -0.09375060349702835,
+      "beta_dpo/beta_margin_grad_std": 0.2914803922176361,
+      "beta_dpo/beta_margin_mean": 281.1544494628906,
+      "beta_dpo/beta_margin_std": 236.0167694091797,
+      "beta_dpo/beta_used": 1.46394944190979,
+      "beta_dpo/beta_used_raw": 1.46394944190979,
+      "beta_dpo/gap_mean": 140.21481323242188,
+      "beta_dpo/gap_std": 170.7769775390625,
+      "beta_dpo/loss_margin_mean": 189.06527709960938,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9632892804698973,
+      "grad_norm": 4871.01171875,
+      "learning_rate": 2.223355098446622e-09,
+      "logits/chosen": -0.20203420519828796,
+      "logits/rejected": -0.2107037454843521,
+      "loss": 10.8002,
+      "step": 656
+    },
+    {
+      "beta_dpo/beta": 0.7246884703636169,
+      "beta_dpo/beta_margin_grad_mean": -0.24664191901683807,
+      "beta_dpo/beta_margin_grad_std": 0.24966345727443695,
+      "beta_dpo/beta_margin_mean": 136.55160522460938,
+      "beta_dpo/beta_margin_std": 201.0517578125,
+      "beta_dpo/beta_used": 0.7246884703636169,
+      "beta_dpo/beta_used_raw": -0.031182467937469482,
+      "beta_dpo/gap_mean": 148.42965698242188,
+      "beta_dpo/gap_std": 167.33609008789062,
+      "beta_dpo/loss_margin_mean": 171.03836059570312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9647577092511013,
+      "grad_norm": 5.878337860107422,
+      "learning_rate": 2.055847060721566e-09,
+      "logits/chosen": -0.2323456108570099,
+      "logits/rejected": -0.23794196546077728,
+      "loss": 0.6362,
+      "step": 657
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.466478168964386,
+      "beta_dpo/beta_margin_grad_std": 0.03783747926354408,
+      "beta_dpo/beta_margin_mean": 0.13517163693904877,
+      "beta_dpo/beta_margin_std": 0.15315905213356018,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.7150457501411438,
+      "beta_dpo/gap_mean": 145.939208984375,
+      "beta_dpo/gap_std": 164.26235961914062,
+      "beta_dpo/loss_margin_mean": 135.171630859375,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9662261380323054,
+      "grad_norm": 9.239810943603516,
+      "learning_rate": 1.8948725820160662e-09,
+      "logits/chosen": -0.23999705910682678,
+      "logits/rejected": -0.2215622067451477,
+      "loss": 1.2622,
+      "step": 658
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46911635994911194,
+      "beta_dpo/beta_margin_grad_std": 0.0383928045630455,
+      "beta_dpo/beta_margin_mean": 0.12460412085056305,
+      "beta_dpo/beta_margin_std": 0.15533404052257538,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6675459146499634,
+      "beta_dpo/gap_mean": 143.0897216796875,
+      "beta_dpo/gap_std": 163.14138793945312,
+      "beta_dpo/loss_margin_mean": 124.60411071777344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9676945668135095,
+      "grad_norm": 13.10746955871582,
+      "learning_rate": 1.7404359041573723e-09,
+      "logits/chosen": -0.3149293065071106,
+      "logits/rejected": -0.26698166131973267,
+      "loss": 1.2654,
+      "step": 659
+    },
+    {
+      "beta_dpo/beta": 0.336564302444458,
+      "beta_dpo/beta_margin_grad_mean": -0.2779940366744995,
+      "beta_dpo/beta_margin_grad_std": 0.27703657746315,
+      "beta_dpo/beta_margin_mean": 57.831546783447266,
+      "beta_dpo/beta_margin_std": 95.76539611816406,
+      "beta_dpo/beta_used": 0.336564302444458,
+      "beta_dpo/beta_used_raw": 0.0521998405456543,
+      "beta_dpo/gap_mean": 144.819091796875,
+      "beta_dpo/gap_std": 160.9578857421875,
+      "beta_dpo/loss_margin_mean": 162.99786376953125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9691629955947136,
+      "grad_norm": 1521.5159912109375,
+      "learning_rate": 1.592541096695571e-09,
+      "logits/chosen": -0.18781328201293945,
+      "logits/rejected": -0.15785738825798035,
+      "loss": 2.3556,
+      "step": 660
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4634128510951996,
+      "beta_dpo/beta_margin_grad_std": 0.04297526925802231,
+      "beta_dpo/beta_margin_mean": 0.1479966789484024,
+      "beta_dpo/beta_margin_std": 0.1754070222377777,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.1518099308013916,
+      "beta_dpo/gap_mean": 144.63906860351562,
+      "beta_dpo/gap_std": 161.95355224609375,
+      "beta_dpo/loss_margin_mean": 147.99667358398438,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9706314243759178,
+      "grad_norm": 8.182291030883789,
+      "learning_rate": 1.4511920567963908e-09,
+      "logits/chosen": -0.2719656527042389,
+      "logits/rejected": -0.2467373013496399,
+      "loss": 1.2689,
+      "step": 661
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4679609537124634,
+      "beta_dpo/beta_margin_grad_std": 0.04259883239865303,
+      "beta_dpo/beta_margin_mean": 0.1293320655822754,
+      "beta_dpo/beta_margin_std": 0.17222696542739868,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.6409615278244019,
+      "beta_dpo/gap_mean": 144.40728759765625,
+      "beta_dpo/gap_std": 164.30880737304688,
+      "beta_dpo/loss_margin_mean": 129.33206176757812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9720998531571219,
+      "grad_norm": 10.364067077636719,
+      "learning_rate": 1.3163925091384532e-09,
+      "logits/chosen": -0.3215191066265106,
+      "logits/rejected": -0.2895079255104065,
+      "loss": 1.2631,
+      "step": 662
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4659326374530792,
+      "beta_dpo/beta_margin_grad_std": 0.041490860283374786,
+      "beta_dpo/beta_margin_mean": 0.1374731808900833,
+      "beta_dpo/beta_margin_std": 0.1681915521621704,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.430047631263733,
+      "beta_dpo/gap_mean": 142.96701049804688,
+      "beta_dpo/gap_std": 167.32403564453125,
+      "beta_dpo/loss_margin_mean": 137.47317504882812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.973568281938326,
+      "grad_norm": 7.655603885650635,
+      "learning_rate": 1.1881460058152382e-09,
+      "logits/chosen": -0.31214457750320435,
+      "logits/rejected": -0.310594379901886,
+      "loss": 1.2757,
+      "step": 663
+    },
+    {
+      "beta_dpo/beta": 1.081035852432251,
+      "beta_dpo/beta_margin_grad_mean": -0.3265109956264496,
+      "beta_dpo/beta_margin_grad_std": 0.31032606959342957,
+      "beta_dpo/beta_margin_mean": 193.7392120361328,
+      "beta_dpo/beta_margin_std": 372.88427734375,
+      "beta_dpo/beta_used": 1.081035852432251,
+      "beta_dpo/beta_used_raw": 0.9985529780387878,
+      "beta_dpo/gap_mean": 145.85546875,
+      "beta_dpo/gap_std": 171.21942138671875,
+      "beta_dpo/loss_margin_mean": 160.23175048828125,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9750367107195301,
+      "grad_norm": 14736.9189453125,
+      "learning_rate": 1.066455926241383e-09,
+      "logits/chosen": -0.23802334070205688,
+      "logits/rejected": -0.23446832597255707,
+      "loss": 22.277,
+      "step": 664
+    },
+    {
+      "beta_dpo/beta": 0.17351345717906952,
+      "beta_dpo/beta_margin_grad_mean": -0.30906784534454346,
+      "beta_dpo/beta_margin_grad_std": 0.29436877369880676,
+      "beta_dpo/beta_margin_mean": 24.549057006835938,
+      "beta_dpo/beta_margin_std": 46.99803924560547,
+      "beta_dpo/beta_used": 0.17351345717906952,
+      "beta_dpo/beta_used_raw": 0.05960509926080704,
+      "beta_dpo/gap_mean": 143.3297882080078,
+      "beta_dpo/gap_std": 168.05531311035156,
+      "beta_dpo/loss_margin_mean": 132.63438415527344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9765051395007343,
+      "grad_norm": 950.77587890625,
+      "learning_rate": 9.513254770636137e-10,
+      "logits/chosen": -0.2172248661518097,
+      "logits/rejected": -0.18482929468154907,
+      "loss": 1.9778,
+      "step": 665
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4638909697532654,
+      "beta_dpo/beta_margin_grad_std": 0.034985702484846115,
+      "beta_dpo/beta_margin_mean": 0.14538602530956268,
+      "beta_dpo/beta_margin_std": 0.14133024215698242,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.8510459661483765,
+      "beta_dpo/gap_mean": 144.62229919433594,
+      "beta_dpo/gap_std": 164.13558959960938,
+      "beta_dpo/loss_margin_mean": 145.38601684570312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9779735682819384,
+      "grad_norm": 10.848896026611328,
+      "learning_rate": 8.427576920763956e-10,
+      "logits/chosen": -0.26341164112091064,
+      "logits/rejected": -0.24032096564769745,
+      "loss": 1.2653,
+      "step": 666
+    },
+    {
+      "beta_dpo/beta": 0.555698573589325,
+      "beta_dpo/beta_margin_grad_mean": -0.32695654034614563,
+      "beta_dpo/beta_margin_grad_std": 0.3104262053966522,
+      "beta_dpo/beta_margin_mean": 75.98949432373047,
+      "beta_dpo/beta_margin_std": 132.38754272460938,
+      "beta_dpo/beta_used": 0.555698573589325,
+      "beta_dpo/beta_used_raw": 0.0477980375289917,
+      "beta_dpo/gap_mean": 142.28619384765625,
+      "beta_dpo/gap_std": 162.02328491210938,
+      "beta_dpo/loss_margin_mean": 135.94004821777344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9794419970631424,
+      "grad_norm": 7423.337890625,
+      "learning_rate": 7.407554321417764e-10,
+      "logits/chosen": -0.24232017993927002,
+      "logits/rejected": -0.21042859554290771,
+      "loss": 3.6685,
+      "step": 667
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.47267022728919983,
+      "beta_dpo/beta_margin_grad_std": 0.04184536263346672,
+      "beta_dpo/beta_margin_mean": 0.11026235669851303,
+      "beta_dpo/beta_margin_std": 0.16938358545303345,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.565541386604309,
+      "beta_dpo/gap_mean": 135.5725555419922,
+      "beta_dpo/gap_std": 161.8687744140625,
+      "beta_dpo/loss_margin_mean": 110.26235961914062,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9809104258443465,
+      "grad_norm": 15.746362686157227,
+      "learning_rate": 6.453213851142225e-10,
+      "logits/chosen": -0.26321089267730713,
+      "logits/rejected": -0.2517067492008209,
+      "loss": 1.2854,
+      "step": 668
+    },
+    {
+      "beta_dpo/beta": 0.49764859676361084,
+      "beta_dpo/beta_margin_grad_mean": -0.2775057852268219,
+      "beta_dpo/beta_margin_grad_std": 0.27767181396484375,
+      "beta_dpo/beta_margin_mean": 76.75032043457031,
+      "beta_dpo/beta_margin_std": 137.6516876220703,
+      "beta_dpo/beta_used": 0.49764859676361084,
+      "beta_dpo/beta_used_raw": 0.24128052592277527,
+      "beta_dpo/gap_mean": 139.15911865234375,
+      "beta_dpo/gap_std": 162.9943084716797,
+      "beta_dpo/loss_margin_mean": 155.27737426757812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9823788546255506,
+      "grad_norm": 2606.953125,
+      "learning_rate": 5.564580657695939e-10,
+      "logits/chosen": -0.239346444606781,
+      "logits/rejected": -0.21844345331192017,
+      "loss": 3.9008,
+      "step": 669
+    },
+    {
+      "beta_dpo/beta": 0.5937625169754028,
+      "beta_dpo/beta_margin_grad_mean": -0.32673099637031555,
+      "beta_dpo/beta_margin_grad_std": 0.3107914626598358,
+      "beta_dpo/beta_margin_mean": 102.75801086425781,
+      "beta_dpo/beta_margin_std": 171.8385009765625,
+      "beta_dpo/beta_used": 0.5937625169754028,
+      "beta_dpo/beta_used_raw": -0.3109077215194702,
+      "beta_dpo/gap_mean": 141.39236450195312,
+      "beta_dpo/gap_std": 165.60235595703125,
+      "beta_dpo/loss_margin_mean": 155.38189697265625,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9838472834067548,
+      "grad_norm": 7477.4453125,
+      "learning_rate": 4.741678157389739e-10,
+      "logits/chosen": -0.25414931774139404,
+      "logits/rejected": -0.23977619409561157,
+      "loss": 13.5793,
+      "step": 670
+    },
+    {
+      "beta_dpo/beta": 1.3876622915267944,
+      "beta_dpo/beta_margin_grad_mean": -0.2369070202112198,
+      "beta_dpo/beta_margin_grad_std": 0.42259082198143005,
+      "beta_dpo/beta_margin_mean": 201.6892547607422,
+      "beta_dpo/beta_margin_std": 243.80215454101562,
+      "beta_dpo/beta_used": 1.3876622915267944,
+      "beta_dpo/beta_used_raw": 1.3876622915267944,
+      "beta_dpo/gap_mean": 142.10791015625,
+      "beta_dpo/gap_std": 166.866943359375,
+      "beta_dpo/loss_margin_mean": 143.68527221679688,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9853157121879589,
+      "grad_norm": 13217.642578125,
+      "learning_rate": 3.9845280344705245e-10,
+      "logits/chosen": -0.21202997863292694,
+      "logits/rejected": -0.20390699803829193,
+      "loss": 15.1475,
+      "step": 671
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.469896525144577,
+      "beta_dpo/beta_margin_grad_std": 0.043766915798187256,
+      "beta_dpo/beta_margin_mean": 0.12151134014129639,
+      "beta_dpo/beta_margin_std": 0.1770341694355011,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -0.8151004910469055,
+      "beta_dpo/gap_mean": 139.9226531982422,
+      "beta_dpo/gap_std": 167.88650512695312,
+      "beta_dpo/loss_margin_mean": 121.51133728027344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.986784140969163,
+      "grad_norm": 10.910394668579102,
+      "learning_rate": 3.293150240547549e-10,
+      "logits/chosen": -0.24089352786540985,
+      "logits/rejected": -0.22517436742782593,
+      "loss": 1.2722,
+      "step": 672
+    },
+    {
+      "beta_dpo/beta": 0.39367401599884033,
+      "beta_dpo/beta_margin_grad_mean": -0.27898791432380676,
+      "beta_dpo/beta_margin_grad_std": 0.2772313356399536,
+      "beta_dpo/beta_margin_mean": 63.47161102294922,
+      "beta_dpo/beta_margin_std": 101.09577178955078,
+      "beta_dpo/beta_used": 0.39367401599884033,
+      "beta_dpo/beta_used_raw": 0.13607317209243774,
+      "beta_dpo/gap_mean": 141.91412353515625,
+      "beta_dpo/gap_std": 166.22857666015625,
+      "beta_dpo/loss_margin_mean": 155.3968048095703,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9882525697503671,
+      "grad_norm": 4248.92431640625,
+      "learning_rate": 2.6675629940689504e-10,
+      "logits/chosen": -0.21331897377967834,
+      "logits/rejected": -0.20891378819942474,
+      "loss": 7.6929,
+      "step": 673
+    },
+    {
+      "beta_dpo/beta": 0.3700469732284546,
+      "beta_dpo/beta_margin_grad_mean": -0.31875723600387573,
+      "beta_dpo/beta_margin_grad_std": 0.2990269958972931,
+      "beta_dpo/beta_margin_mean": 60.167579650878906,
+      "beta_dpo/beta_margin_std": 115.83226776123047,
+      "beta_dpo/beta_used": 0.3700469732284546,
+      "beta_dpo/beta_used_raw": 0.35867586731910706,
+      "beta_dpo/gap_mean": 145.38265991210938,
+      "beta_dpo/gap_std": 166.84365844726562,
+      "beta_dpo/loss_margin_mean": 163.85891723632812,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9897209985315712,
+      "grad_norm": 3347.8056640625,
+      "learning_rate": 2.1077827798404725e-10,
+      "logits/chosen": -0.22968342900276184,
+      "logits/rejected": -0.21133801341056824,
+      "loss": 3.5724,
+      "step": 674
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.4584572911262512,
+      "beta_dpo/beta_margin_grad_std": 0.04273706302046776,
+      "beta_dpo/beta_margin_mean": 0.1682644486427307,
+      "beta_dpo/beta_margin_std": 0.17532816529273987,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.1393800973892212,
+      "beta_dpo/gap_mean": 149.49859619140625,
+      "beta_dpo/gap_std": 167.7472381591797,
+      "beta_dpo/loss_margin_mean": 168.26443481445312,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9911894273127754,
+      "grad_norm": 10.684988021850586,
+      "learning_rate": 1.6138243485910863e-10,
+      "logits/chosen": -0.2344612330198288,
+      "logits/rejected": -0.22431063652038574,
+      "loss": 1.2649,
+      "step": 675
+    },
+    {
+      "beta_dpo/beta": 0.3458569049835205,
+      "beta_dpo/beta_margin_grad_mean": -0.2846805453300476,
+      "beta_dpo/beta_margin_grad_std": 0.2793225646018982,
+      "beta_dpo/beta_margin_mean": 58.578914642333984,
+      "beta_dpo/beta_margin_std": 92.11776733398438,
+      "beta_dpo/beta_used": 0.3458569049835205,
+      "beta_dpo/beta_used_raw": -0.8106540441513062,
+      "beta_dpo/gap_mean": 150.6968994140625,
+      "beta_dpo/gap_std": 166.34634399414062,
+      "beta_dpo/loss_margin_mean": 143.155029296875,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9926578560939795,
+      "grad_norm": 3344.320068359375,
+      "learning_rate": 1.1857007165852472e-10,
+      "logits/chosen": -0.314957857131958,
+      "logits/rejected": -0.2842877507209778,
+      "loss": 5.0433,
+      "step": 676
+    },
+    {
+      "beta_dpo/beta": 0.9840426445007324,
+      "beta_dpo/beta_margin_grad_mean": -0.2947867214679718,
+      "beta_dpo/beta_margin_grad_std": 0.29029718041419983,
+      "beta_dpo/beta_margin_mean": 163.275146484375,
+      "beta_dpo/beta_margin_std": 241.04299926757812,
+      "beta_dpo/beta_used": 0.9840426445007324,
+      "beta_dpo/beta_used_raw": 0.5463694334030151,
+      "beta_dpo/gap_mean": 149.2086181640625,
+      "beta_dpo/gap_std": 164.42991638183594,
+      "beta_dpo/loss_margin_mean": 154.48655700683594,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9941262848751835,
+      "grad_norm": 9669.5361328125,
+      "learning_rate": 8.23423165278725e-11,
+      "logits/chosen": -0.22851765155792236,
+      "logits/rejected": -0.20020201802253723,
+      "loss": 12.5035,
+      "step": 677
+    },
+    {
+      "beta_dpo/beta": 0.5137372016906738,
+      "beta_dpo/beta_margin_grad_mean": -0.33945244550704956,
+      "beta_dpo/beta_margin_grad_std": 0.3146733343601227,
+      "beta_dpo/beta_margin_mean": 91.00566101074219,
+      "beta_dpo/beta_margin_std": 150.59832763671875,
+      "beta_dpo/beta_used": 0.5137372016906738,
+      "beta_dpo/beta_used_raw": 0.4158139228820801,
+      "beta_dpo/gap_mean": 150.82748413085938,
+      "beta_dpo/gap_std": 165.1314697265625,
+      "beta_dpo/loss_margin_mean": 160.3917999267578,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9955947136563876,
+      "grad_norm": 6134.18310546875,
+      "learning_rate": 5.270012410216185e-11,
+      "logits/chosen": -0.24406661093235016,
+      "logits/rejected": -0.23352187871932983,
+      "loss": 5.5623,
+      "step": 678
+    },
+    {
+      "beta_dpo/beta": 0.4399394392967224,
+      "beta_dpo/beta_margin_grad_mean": -0.202021986246109,
+      "beta_dpo/beta_margin_grad_std": 0.3905799984931946,
+      "beta_dpo/beta_margin_mean": 58.7913932800293,
+      "beta_dpo/beta_margin_std": 76.95616149902344,
+      "beta_dpo/beta_used": 0.4399394392967224,
+      "beta_dpo/beta_used_raw": 0.4399394392967224,
+      "beta_dpo/gap_mean": 149.608642578125,
+      "beta_dpo/gap_std": 166.2967529296875,
+      "beta_dpo/loss_margin_mean": 132.75094604492188,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9970631424375918,
+      "grad_norm": 2949.92333984375,
+      "learning_rate": 2.9644275480772416e-11,
+      "logits/chosen": -0.24739307165145874,
+      "logits/rejected": -0.2278253436088562,
+      "loss": 4.2081,
+      "step": 679
+    },
+    {
+      "beta_dpo/beta": 0.16887128353118896,
+      "beta_dpo/beta_margin_grad_mean": -0.2913900911808014,
+      "beta_dpo/beta_margin_grad_std": 0.28668370842933655,
+      "beta_dpo/beta_margin_mean": 24.72771453857422,
+      "beta_dpo/beta_margin_std": 45.65426254272461,
+      "beta_dpo/beta_used": 0.16887128353118896,
+      "beta_dpo/beta_used_raw": -0.949596643447876,
+      "beta_dpo/gap_mean": 149.79739379882812,
+      "beta_dpo/gap_std": 168.91465759277344,
+      "beta_dpo/loss_margin_mean": 154.96934509277344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 0.9985315712187959,
+      "grad_norm": 773.09716796875,
+      "learning_rate": 1.31753782067201e-11,
+      "logits/chosen": -0.282899409532547,
+      "logits/rejected": -0.2579476833343506,
+      "loss": 1.4902,
+      "step": 680
+    },
+    {
+      "beta_dpo/beta": 0.0010000000474974513,
+      "beta_dpo/beta_margin_grad_mean": -0.46664658188819885,
+      "beta_dpo/beta_margin_grad_std": 0.041838180273771286,
+      "beta_dpo/beta_margin_mean": 0.13485069572925568,
+      "beta_dpo/beta_margin_std": 0.17000959813594818,
+      "beta_dpo/beta_used": 0.0010000000474974513,
+      "beta_dpo/beta_used_raw": -1.753014087677002,
+      "beta_dpo/gap_mean": 145.9384002685547,
+      "beta_dpo/gap_std": 166.8389892578125,
+      "beta_dpo/loss_margin_mean": 134.85069274902344,
+      "beta_dpo/mask_keep_frac": 0.78125,
+      "epoch": 1.0,
+      "grad_norm": 11.882765769958496,
+      "learning_rate": 3.2938662507808745e-12,
+      "logits/chosen": -0.26762282848358154,
+      "logits/rejected": -0.25434818863868713,
+      "loss": 1.2798,
+      "step": 681
+    },
+    {
+      "epoch": 1.0,
+      "step": 681,
+      "total_flos": 0.0,
+      "train_loss": 2.627565469291942,
+      "train_runtime": 3177.7378,
+      "train_samples_per_second": 13.72,
+      "train_steps_per_second": 0.214
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 681,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}