llama-3-8b-base-beta-dpo-hh…/train.log

2026-04-17 23:08:16 - INFO - __main__ - Model parameters ModelArguments(base_model_revision=None, model_name_or_path='/scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101', model_revision='main', model_code_revision=None, torch_dtype='bfloat16', tokenizer_name_or_path=None, trust_remote_code=False, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False, bnb_4bit_quant_storage='uint8')
2026-04-17 23:08:16 - INFO - __main__ - Data parameters DataArguments(chat_template=None, dataset_mixer={'Anthropic/hh-rlhf': 1.0}, text_column='text', dataset_splits=['train', 'test'], dataset_configs=['helpful-base'], dataset_dir=None, preprocessing_num_workers=12, use_persistent_hf_cache=True, hf_cache_dir='/scratch/feng.yulu/dynamic-dpo-v4/hf/datasets', truncation_side=None, auto_insert_empty_system_msg=True, preprocessing_log_samples=0, preprocessing_log_dir=None)
2026-04-17 23:08:16 - INFO - __main__ - Training/evaluation parameters BetaDPOConfig(
_n_gpu=1,
accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
alpha=0.6,
auto_find_batch_size=False,
average_tokens_across_devices=False,
batch_eval_metrics=False,
beta=0.1,
beta_min=0.001,
bf16=True,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=True,
dataloader_num_workers=0,
dataloader_persistent_workers=False,
dataloader_pin_memory=True,
dataloader_prefetch_factor=None,
dataset_num_proc=12,
ddp_backend=None,
ddp_broadcast_buffers=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
deterministic_eval=True,
disable_dropout=True,
disable_tqdm=False,
do_eval=True,
do_predict=False,
do_train=False,
ema_momentum=0.9,
eval_accumulation_steps=None,
eval_delay=0,
eval_do_concat_batches=True,
eval_on_start=False,
eval_steps=100,
eval_strategy=IntervalStrategy.STEPS,
eval_use_gather_object=False,
f_alpha_divergence_coef=1.0,
f_divergence_type=FDivergenceType.REVERSE_KL,
force_use_ref_model=False,
fp16=False,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=[],
fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
fsdp_min_num_params=0,
fsdp_transformer_layer_cls_to_wrap=None,
full_determinism=False,
generate_during_eval=False,
gradient_accumulation_steps=2,
gradient_checkpointing=True,
gradient_checkpointing_kwargs={'use_reentrant': False},
greater_is_better=None,
group_by_length=False,
half_precision_backend=auto,
hub_always_push=False,
hub_model_id=W-61/llama-3-8b-base-beta-dpo-hh-helpful-4xh200,
hub_model_revision=main,
hub_private_repo=None,
hub_strategy=HubStrategy.EVERY_SAVE,
hub_token=<HUB_TOKEN>,
ignore_data_skip=False,
include_for_metrics=[],
include_inputs_for_metrics=False,
include_num_input_tokens_seen=False,
include_tokens_per_second=False,
is_encoder_decoder=None,
jit_mode_eval=False,
label_names=None,
label_pad_token_id=-100,
label_smoothing=0.0,
label_smoothing_factor=0.0,
learning_rate=5e-07,
length_column_name=length,
load_best_model_at_end=False,
local_rank=0,
log_level=info,
log_level_replica=warning,
log_on_each_node=True,
logging_dir=outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200/runs/Apr17_23-08-16_d4054,
logging_first_step=True,
logging_nan_inf_filter=True,
logging_steps=1,
logging_strategy=IntervalStrategy.STEPS,
loss_type=sigmoid,
lr_scheduler_kwargs={},
lr_scheduler_type=SchedulerType.COSINE,
max_grad_norm=1.0,
max_length=512,
max_prompt_length=256,
max_steps=-1,
max_target_length=None,
metric_for_best_model=None,
model_adapter_name=None,
model_init_kwargs=None,
mp_parameters=,
neftune_noise_alpha=None,
no_cuda=False,
non_finite_logits_handling=sanitize,
num_train_epochs=1,
optim=OptimizerNames.ADAMW_TORCH,
optim_args=None,
optim_target_modules=None,
output_dir=/scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753,
overwrite_output_dir=False,
padding_value=None,
past_index=-1,
per_device_eval_batch_size=8,
per_device_train_batch_size=8,
post_tokenization_log_dir=None,
post_tokenization_log_samples=0,
precompute_ref_batch_size=None,
precompute_ref_eval_batch_size=None,
precompute_ref_log_probs=False,
prediction_loss_only=False,
push_to_hub=False,
push_to_hub_model_id=None,
push_to_hub_organization=None,
push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
ray_scope=last,
ref_adapter_name=None,
ref_model_init_kwargs=None,
ref_model_mixup_alpha=0.9,
ref_model_sync_steps=64,
reference_free=False,
remove_unused_columns=False,
report_to=['wandb'],
require_equal_local_batch_size=True,
restore_callback_states_from_checkpoint=False,
resume_from_checkpoint=None,
reuse_tokenized_dataset=True,
rho=0.8,
rpo_alpha=None,
run_name=llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753,
save_on_each_node=False,
save_only_model=False,
save_safetensors=True,
save_steps=200,
save_strategy=SaveStrategy.STEPS,
save_total_limit=2,
seed=42,
sft_weight=0.0,
skip_memory_metrics=True,
sync_global_mask=True,
sync_ref_model=False,
tf32=None,
tokenization_batch_size=128,
tokenization_mode=online,
tokenized_dataset_cache_dir=/scratch/feng.yulu/dynamic-dpo-v4/tokenized_preferences,
torch_compile=False,
torch_compile_backend=None,
torch_compile_mode=None,
torch_empty_cache_steps=None,
torchdynamo=None,
tp_size=0,
tpu_metrics_debug=False,
tpu_num_cores=None,
trainer_type=beta_dpo,
truncation_mode=keep_end,
use_cpu=False,
use_ipex=False,
use_legacy_prediction_loop=False,
use_liger_kernel=False,
use_mps_device=False,
wandb_project=ood-run-4xh200,
warmup_ratio=0.1,
warmup_steps=0,
weight_decay=0.0,
)
2026-04-17 23:08:16 - INFO - __main__ - W&B project: ood-run-4xh200
2026-04-17 23:08:16 - INFO - __main__ - Beta-DPO parameters: beta=0.1, rho=0.8, alpha=0.6, ema_momentum=0.9
2026-04-17 23:08:16 - INFO - __main__ - Using persistent HF datasets cache at /scratch/feng.yulu/dynamic-dpo-v4/hf/datasets
2026-04-17 23:08:19 - WARNING - __main__ - Dropped 237 non-canonical HH preference examples from split `train` before normalization (126 x HH preprocessing expects exactly one final assistant response in chosen/rejected suffixes., 111 x HH chosen/rejected transcripts must each contain a divergent assistant response.).

Normalizing raw HH preferences (train):   0%|                                       | 0/43598 [00:00<?, ? examples/s]
Normalizing raw HH preferences (train):   0%|                                       | 0/43598 [00:00<?, ? examples/s]
Normalizing raw HH preferences (train):   0%|                                       | 0/43598 [00:00<?, ? examples/s]
Normalizing raw HH preferences (train):   3%|▋                        | 1143/43598 [00:00<00:03, 11369.21 examples/s]
Normalizing raw HH preferences (train):   2%|▌                        | 1044/43598 [00:00<00:04, 10389.33 examples/s]
Normalizing raw HH preferences (train):   3%|▋                        | 1145/43598 [00:00<00:03, 11391.27 examples/s]
Normalizing raw HH preferences (train):   6%|█▍                       | 2428/43598 [00:00<00:03, 12229.75 examples/s]
Normalizing raw HH preferences (train):   5%|█▎                       | 2292/43598 [00:00<00:03, 11607.64 examples/s]
Normalizing raw HH preferences (train):   6%|█▍                       | 2442/43598 [00:00<00:03, 12313.10 examples/s]
Normalizing raw HH preferences (train):   9%|██▏                      | 3707/43598 [00:00<00:03, 12480.41 examples/s]
Normalizing raw HH preferences (train):   8%|██                       | 3525/43598 [00:00<00:03, 11933.66 examples/s]
Normalizing raw HH preferences (train):   9%|██▏                      | 3727/43598 [00:00<00:03, 12550.97 examples/s]
Normalizing raw HH preferences (train):  11%|██▊                      | 4971/43598 [00:00<00:03, 12539.61 examples/s]
Normalizing raw HH preferences (train):  11%|██▋                      | 4738/43598 [00:00<00:03, 12008.69 examples/s]
Normalizing raw HH preferences (train):  11%|██▊                      | 4990/43598 [00:00<00:03, 12579.39 examples/s]
Normalizing raw HH preferences (train):  16%|███▉                     | 6822/43598 [00:00<00:02, 12443.88 examples/s]
Normalizing raw HH preferences (train):  14%|███▍                     | 5959/43598 [00:00<00:03, 12079.32 examples/s]
Normalizing raw HH preferences (train):  16%|████                      | 6838/43598 [00:00<00:04, 8210.26 examples/s]
Normalizing raw HH preferences (train):  17%|████▍                     | 7378/43598 [00:00<00:04, 8022.90 examples/s]
Normalizing raw HH preferences (train):  20%|█████▏                    | 8686/43598 [00:00<00:04, 8522.69 examples/s]
Normalizing raw HH preferences (train):  18%|████▊                     | 8000/43598 [00:00<00:03, 8943.91 examples/s]
Normalizing raw HH preferences (train):  20%|█████▏                    | 8670/43598 [00:00<00:03, 9069.59 examples/s]
Normalizing raw HH preferences (train):  23%|█████▉                    | 9952/43598 [00:00<00:03, 9369.85 examples/s]
Normalizing raw HH preferences (train):  21%|█████▍                    | 9186/43598 [00:00<00:03, 9645.78 examples/s]
Normalizing raw HH preferences (train):  23%|█████▉                    | 9904/43598 [00:00<00:03, 9878.71 examples/s]
Normalizing raw HH preferences (train):  24%|█████▊                  | 10457/43598 [00:01<00:03, 10428.82 examples/s]
Normalizing raw HH preferences (train):  27%|██████▍                 | 11729/43598 [00:01<00:03, 10120.57 examples/s]
Normalizing raw HH preferences (train):  25%|██████                  | 11034/43598 [00:01<00:03, 10248.52 examples/s]
Normalizing raw HH preferences (train):  27%|██████▍                 | 11716/43598 [00:01<00:02, 11005.06 examples/s]
Normalizing raw HH preferences (train):  30%|███████▏                | 12979/43598 [00:01<00:02, 10654.05 examples/s]
Normalizing raw HH preferences (train):  28%|██████▊                 | 12269/43598 [00:01<00:02, 10818.30 examples/s]
Normalizing raw HH preferences (train):  30%|███████▏                | 12979/43598 [00:01<00:02, 11452.16 examples/s]
Normalizing raw HH preferences (train):  31%|███████▍                | 13498/43598 [00:01<00:02, 11226.82 examples/s]
Normalizing raw HH preferences (train):  34%|████████▏               | 14827/43598 [00:01<00:02, 11193.05 examples/s]
Normalizing raw HH preferences (train):  34%|████████                | 14738/43598 [00:01<00:02, 11557.01 examples/s]
Normalizing raw HH preferences (train):  34%|████████▏               | 14824/43598 [00:01<00:02, 11762.85 examples/s]
Normalizing raw HH preferences (train):  38%|█████████▏              | 16700/43598 [00:01<00:02, 11602.11 examples/s]
Normalizing raw HH preferences (train):  37%|████████▊               | 15981/43598 [00:01<00:02, 11806.67 examples/s]
Normalizing raw HH preferences (train):  38%|█████████▏              | 16693/43598 [00:01<00:02, 12000.78 examples/s]
Normalizing raw HH preferences (train):  41%|█████████▉              | 17951/43598 [00:01<00:02, 11811.35 examples/s]
Normalizing raw HH preferences (train):  41%|█████████▊              | 17777/43598 [00:01<00:02, 11866.46 examples/s]
Normalizing raw HH preferences (train):  41%|█████████▉              | 17947/43598 [00:01<00:02, 12132.45 examples/s]
Normalizing raw HH preferences (train):  45%|██████████▉             | 19756/43598 [00:01<00:02, 11882.29 examples/s]
Normalizing raw HH preferences (train):  44%|██████████▍             | 18997/43598 [00:01<00:02, 11954.65 examples/s]
Normalizing raw HH preferences (train):  45%|██████████▉             | 19756/43598 [00:01<00:01, 12101.25 examples/s]
Normalizing raw HH preferences (train):  48%|███████████▌            | 21000/43598 [00:01<00:01, 11786.22 examples/s]
Normalizing raw HH preferences (train):  48%|███████████▍            | 20787/43598 [00:01<00:01, 11943.99 examples/s]
Normalizing raw HH preferences (train):  48%|███████████▌            | 21000/43598 [00:01<00:01, 11960.99 examples/s]
Normalizing raw HH preferences (train):  51%|████████████▎           | 22275/43598 [00:01<00:01, 12026.99 examples/s]
Normalizing raw HH preferences (train):  50%|████████████            | 22000/43598 [00:01<00:01, 11758.06 examples/s]
Normalizing raw HH preferences (train):  51%|████████████▎           | 22273/43598 [00:01<00:01, 12156.77 examples/s]
Normalizing raw HH preferences (train):  54%|████████████▉           | 23564/43598 [00:02<00:01, 12250.12 examples/s]
Normalizing raw HH preferences (train):  53%|████████████▊           | 23227/43598 [00:02<00:01, 11891.50 examples/s]
Normalizing raw HH preferences (train):  54%|████████████▉           | 23548/43598 [00:02<00:01, 12314.23 examples/s]
Normalizing raw HH preferences (train):  57%|█████████████▋          | 24818/43598 [00:02<00:01, 12325.09 examples/s]
Normalizing raw HH preferences (train):  56%|█████████████▍          | 24455/43598 [00:02<00:01, 11995.92 examples/s]
Normalizing raw HH preferences (train):  57%|█████████████▋          | 24797/43598 [00:02<00:01, 12358.19 examples/s]
Normalizing raw HH preferences (train):  61%|██████████████▋         | 26678/43598 [00:02<00:01, 12225.40 examples/s]
Normalizing raw HH preferences (train):  59%|██████████████▏         | 25682/43598 [00:02<00:01, 12072.51 examples/s]
Normalizing raw HH preferences (train):  61%|██████████████▋         | 26687/43598 [00:02<00:01, 12254.96 examples/s]
Normalizing raw HH preferences (train):  65%|███████████████▌        | 28163/43598 [00:02<00:01, 11424.42 examples/s]
Normalizing raw HH preferences (train):  63%|███████████████         | 27342/43598 [00:02<00:01, 11692.08 examples/s]
Normalizing raw HH preferences (train):  65%|███████████████▌        | 28205/43598 [00:02<00:01, 11385.01 examples/s]
Normalizing raw HH preferences (train):  68%|████████████████▏       | 29438/43598 [00:02<00:01, 11749.91 examples/s]
Normalizing raw HH preferences (train):  66%|███████████████▊        | 28673/43598 [00:02<00:01, 11865.47 examples/s]
Normalizing raw HH preferences (train):  68%|████████████████▏       | 29478/43598 [00:02<00:01, 11711.49 examples/s]
Normalizing raw HH preferences (train):  70%|████████████████▉       | 30698/43598 [00:02<00:01, 11962.90 examples/s]
Normalizing raw HH preferences (train):  69%|████████████████▍       | 29918/43598 [00:02<00:01, 12020.72 examples/s]
Normalizing raw HH preferences (train):  71%|████████████████▉       | 30754/43598 [00:02<00:01, 11980.13 examples/s]
Normalizing raw HH preferences (train):  73%|█████████████████▌      | 31962/43598 [00:02<00:00, 12141.52 examples/s]
Normalizing raw HH preferences (train):  73%|█████████████████▍      | 31726/43598 [00:02<00:00, 12026.53 examples/s]
Normalizing raw HH preferences (train):  73%|█████████████████▌      | 32000/43598 [00:02<00:00, 11875.99 examples/s]
Normalizing raw HH preferences (train):  78%|██████████████████▌     | 33799/43598 [00:02<00:00, 12177.15 examples/s]
Normalizing raw HH preferences (train):  76%|██████████████████▏     | 32952/43598 [00:02<00:00, 12084.06 examples/s]
Normalizing raw HH preferences (train):  76%|██████████████████▎     | 33268/43598 [00:02<00:00, 12094.15 examples/s]
Normalizing raw HH preferences (train):  79%|██████████████████▉     | 34506/43598 [00:02<00:00, 12170.71 examples/s]
Normalizing raw HH preferences (train):  82%|███████████████████▋    | 35652/43598 [00:03<00:00, 12114.76 examples/s]
Normalizing raw HH preferences (train):  80%|███████████████████     | 34734/43598 [00:03<00:00, 12008.00 examples/s]
Normalizing raw HH preferences (train):  82%|███████████████████▋    | 35732/43598 [00:03<00:00, 12192.34 examples/s]
Normalizing raw HH preferences (train):  86%|████████████████████▌   | 37434/43598 [00:03<00:00, 12036.60 examples/s]
Normalizing raw HH preferences (train):  84%|████████████████████    | 36491/43598 [00:03<00:00, 11906.45 examples/s]
Normalizing raw HH preferences (train):  85%|████████████████████▎   | 36966/43598 [00:03<00:00, 12233.20 examples/s]
Normalizing raw HH preferences (train):  89%|█████████████████████▎  | 38698/43598 [00:03<00:00, 12161.07 examples/s]
Normalizing raw HH preferences (train):  87%|████████████████████▊   | 37718/43598 [00:03<00:00, 11994.01 examples/s]
Normalizing raw HH preferences (train):  89%|█████████████████████▎  | 38787/43598 [00:03<00:00, 12193.15 examples/s]
Normalizing raw HH preferences (train):  92%|█████████████████████▉  | 39930/43598 [00:03<00:00, 12199.02 examples/s]
Normalizing raw HH preferences (train):  89%|█████████████████████▍  | 38937/43598 [00:03<00:00, 12040.19 examples/s]
Normalizing raw HH preferences (train):  93%|██████████████████████▍ | 40695/43598 [00:03<00:00, 12189.40 examples/s]
Normalizing raw HH preferences (train):  96%|██████████████████████▉ | 41762/43598 [00:03<00:00, 12201.60 examples/s]
Normalizing raw HH preferences (train):  93%|██████████████████████▍ | 40708/43598 [00:03<00:00, 11955.52 examples/s]
Normalizing raw HH preferences (train):  96%|███████████████████████ | 41954/43598 [00:03<00:00, 12287.02 examples/s]
Normalizing raw HH preferences (train):  99%|███████████████████████▋| 43000/43598 [00:03<00:00, 12053.94 examples/s]
Normalizing raw HH preferences (train):  96%|███████████████████████ | 41936/43598 [00:03<00:00, 12032.31 examples/s]
Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:03<00:00, 10887.62 examples/s]
Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:03<00:00, 11204.80 examples/s]

Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:03<00:00, 10495.69 examples/s]
Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:03<00:00, 11145.11 examples/s]

Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:04<00:00, 10883.18 examples/s]
2026-04-17 23:08:23 - WARNING - __main__ - Dropped 15 non-canonical HH preference examples from split `test` before normalization (9 x HH preprocessing expects exactly one final assistant response in chosen/rejected suffixes., 6 x HH chosen/rejected transcripts must each contain a divergent assistant response.).

Normalizing raw HH preferences (test):   0%|                                         | 0/2339 [00:00<?, ? examples/s]
Normalizing raw HH preferences (test):   0%|                                         | 0/2339 [00:00<?, ? examples/s]
Normalizing raw HH preferences (test):  49%|█████████████              | 1137/2339 [00:00<00:00, 11313.23 examples/s]
Normalizing raw HH preferences (test):  49%|█████████████▎             | 1150/2339 [00:00<00:00, 11453.78 examples/s]
Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5526.14 examples/s]
Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5952.31 examples/s]
Normalizing raw HH preferences (test):   0%|                                         | 0/2339 [00:00<?, ? examples/s]
Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5888.93 examples/s]

Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5351.51 examples/s]
2026-04-17 23:08:24 - INFO - __main__ - Training on the following splits: ['train : 43598', 'test : 2339']
[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file tokenizer.json
[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file tokenizer.model
[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file added_tokens.json
[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file special_tokens_map.json
[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file tokenizer_config.json
[INFO|tokenization_utils_base.py:2058] 2026-04-17 23:08:24,385 >> loading file chat_template.jinja

Normalizing raw HH preferences (test):  43%|███████████▉                | 1000/2339 [00:00<00:00, 9772.97 examples/s]
Normalizing raw HH preferences (test):  85%|███████████████████████▊    | 1986/2339 [00:00<00:00, 6171.60 examples/s][INFO|tokenization_utils_base.py:2323] 2026-04-17 23:08:24,776 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.

Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5391.68 examples/s]
2026-04-17 23:08:25 - INFO - __main__ - Processed train sample 41905:

Prompt:
<|begin_of_text|><|start_header_id|>user<|end_header_id|>

What is the best way to clean my refrigerator?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Well, I have a few ideas, but the best way to know what works best is to run some tests and then analyze the data to figure out which technique works best.<|eot_id|><|start_header_id|>user<|end_header_id|>

What are your ideas?<|eot_id|>

Chosen:
<|start_header_id|>assistant<|end_header_id|>

Some of my ideas include wiping down the interior with a rag, using bleach and water to wipe down the door, emptying the contents of the fridge to scrub the shelves with a clean cloth, cleaning the interior of the fridge with vinegar and water, and using a vacuum cleaner to clean the interior.<|eot_id|>

Rejected:
<|start_header_id|>assistant<|end_header_id|>

I was thinking that you could try different types of soap, which could be a variation of “soap,” like antibacterial soap.  I was also thinking that you could try using different tools, like a toothbrush, to clean the inside.  Or I was thinking that you could try different ways to get the gunk out, like using a squeegee, or using a paper towel.  I was also thinking you could try other types of cleaning, like vacuuming, but I think that could have the opposite of the desired effect.<|eot_id|>
/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
[INFO|configuration_utils.py:691] 2026-04-17 23:08:25,111 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/config.json
[INFO|configuration_utils.py:765] 2026-04-17 23:08:25,123 >> Model config LlamaConfig {
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 128000,
  "eos_token_id": 128001,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 8192,
  "mlp_bias": false,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.51.0",
  "use_cache": false,
  "vocab_size": 128256
}

[INFO|modeling_utils.py:1121] 2026-04-17 23:08:25,330 >> loading weights file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/model.safetensors.index.json
[INFO|modeling_utils.py:2167] 2026-04-17 23:08:25,331 >> Instantiating LlamaForCausalLM model under default dtype torch.bfloat16.
[WARNING|logging.py:328] 2026-04-17 23:08:25,333 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[WARNING|logging.py:328] 2026-04-17 23:08:25,333 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[INFO|configuration_utils.py:1142] 2026-04-17 23:08:25,334 >> Generate config GenerationConfig {
  "bos_token_id": 128000,
  "eos_token_id": 128001,
  "use_cache": false
}


Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 460.01it/s]

Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 395.92it/s]
[WARNING|trainer.py:821] 2026-04-17 23:08:25,443 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
[WARNING|logging.py:328] 2026-04-17 23:08:25,667 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.

Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 505.50it/s]

Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 659.85it/s]
[WARNING|trainer.py:821] 2026-04-17 23:08:25,765 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.

Loading checkpoint shards:  14%|███████▊                                               | 1/7 [00:01<00:11,  1.84s/it]
Loading checkpoint shards:  29%|███████████████▋                                       | 2/7 [00:06<00:17,  3.41s/it]
Loading checkpoint shards:  43%|███████████████████████▌                               | 3/7 [00:08<00:11,  2.77s/it]
Loading checkpoint shards:  57%|███████████████████████████████▍                       | 4/7 [00:10<00:07,  2.56s/it]
Loading checkpoint shards:  71%|███████████████████████████████████████▎               | 5/7 [00:12<00:04,  2.42s/it]
Loading checkpoint shards:  86%|███████████████████████████████████████████████▏       | 6/7 [00:14<00:02,  2.30s/it]
Loading checkpoint shards: 100%|███████████████████████████████████████████████████████| 7/7 [00:15<00:00,  1.89s/it]
Loading checkpoint shards: 100%|███████████████████████████████████████████████████████| 7/7 [00:15<00:00,  2.27s/it]
[INFO|modeling_utils.py:4926] 2026-04-17 23:08:41,252 >> All model checkpoint weights were used when initializing LlamaForCausalLM.

[INFO|modeling_utils.py:4934] 2026-04-17 23:08:41,252 >> All the weights of LlamaForCausalLM were initialized from the model checkpoint at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101.
If your task is similar to the task the model of the checkpoint was trained on, you can already use LlamaForCausalLM for predictions without further training.
[INFO|configuration_utils.py:1095] 2026-04-17 23:08:41,255 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/generation_config.json
[INFO|configuration_utils.py:1142] 2026-04-17 23:08:41,255 >> Generate config GenerationConfig {
  "bos_token_id": 128000,
  "do_sample": true,
  "eos_token_id": 128001,
  "max_length": 4096,
  "temperature": 0.6,
  "top_p": 0.9
}

[INFO|configuration_utils.py:691] 2026-04-17 23:08:41,256 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/config.json
[INFO|configuration_utils.py:765] 2026-04-17 23:08:41,257 >> Model config LlamaConfig {
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 128000,
  "eos_token_id": 128001,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 8192,
  "mlp_bias": false,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.51.0",
  "use_cache": false,
  "vocab_size": 128256
}

[INFO|modeling_utils.py:1121] 2026-04-17 23:08:41,258 >> loading weights file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/model.safetensors.index.json
[INFO|modeling_utils.py:2167] 2026-04-17 23:08:41,259 >> Instantiating LlamaForCausalLM model under default dtype torch.bfloat16.
[INFO|configuration_utils.py:1142] 2026-04-17 23:08:41,262 >> Generate config GenerationConfig {
  "bos_token_id": 128000,
  "eos_token_id": 128001,
  "use_cache": false
}


Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards:  14%|███████▊                                               | 1/7 [00:01<00:10,  1.82s/it]
Loading checkpoint shards:  29%|███████████████▋                                       | 2/7 [00:03<00:09,  1.92s/it]
Loading checkpoint shards:  43%|███████████████████████▌                               | 3/7 [00:05<00:07,  1.95s/it]
Loading checkpoint shards:  57%|███████████████████████████████▍                       | 4/7 [00:08<00:06,  2.06s/it]
Loading checkpoint shards:  71%|███████████████████████████████████████▎               | 5/7 [00:10<00:04,  2.08s/it]
Normalizing raw HH preferences (train):   0%|                                       | 0/43598 [00:00<?, ? examples/s]
Normalizing raw HH preferences (train):   3%|▋                        | 1099/43598 [00:00<00:03, 10938.94 examples/s]
Normalizing raw HH preferences (train):   5%|█▎                       | 2391/43598 [00:00<00:03, 12099.20 examples/s]
Normalizing raw HH preferences (train):   8%|██                       | 3704/43598 [00:00<00:03, 12458.27 examples/s]
Normalizing raw HH preferences (train):  11%|██▊                      | 4954/43598 [00:00<00:03, 12472.09 examples/s]
Normalizing raw HH preferences (train):  16%|███▉                     | 6787/43598 [00:00<00:02, 12352.80 examples/s]
Normalizing raw HH preferences (train):  20%|█████▏                    | 8690/43598 [00:00<00:04, 8642.43 examples/s]
Normalizing raw HH preferences (train):  23%|█████▉                    | 9963/43598 [00:00<00:03, 9484.18 examples/s]
Normalizing raw HH preferences (train):  25%|██████▎                  | 11116/43598 [00:01<00:03, 9948.33 examples/s]
Normalizing raw HH preferences (train):  28%|██████▊                 | 12380/43598 [00:01<00:02, 10604.96 examples/s]
Normalizing raw HH preferences (train):  31%|███████▌                | 13694/43598 [00:01<00:02, 11169.24 examples/s]
Loading checkpoint shards:  86%|███████████████████████████████████████████████▏       | 6/7 [00:12<00:02,  2.07s/it]
Normalizing raw HH preferences (train):  34%|████████▏               | 14956/43598 [00:01<00:02, 11554.87 examples/s]
Normalizing raw HH preferences (train):  39%|█████████▎              | 16813/43598 [00:01<00:02, 11848.51 examples/s]
Normalizing raw HH preferences (train):  43%|██████████▎             | 18621/43598 [00:01<00:02, 11824.37 examples/s]
Normalizing raw HH preferences (train):  46%|██████████▉             | 19858/43598 [00:01<00:01, 11954.83 examples/s]
Normalizing raw HH preferences (train):  50%|███████████▉            | 21703/43598 [00:01<00:01, 12072.19 examples/s]
Normalizing raw HH preferences (train):  53%|████████████▋           | 22961/43598 [00:02<00:01, 12193.85 examples/s]
Normalizing raw HH preferences (train):  57%|█████████████▋          | 24804/43598 [00:02<00:01, 12220.50 examples/s]
Normalizing raw HH preferences (train):  61%|██████████████▋         | 26686/43598 [00:02<00:01, 12187.46 examples/s]
Loading checkpoint shards: 100%|███████████████████████████████████████████████████████| 7/7 [00:13<00:00,  1.73s/it]
Loading checkpoint shards: 100%|███████████████████████████████████████████████████████| 7/7 [00:13<00:00,  1.89s/it]
[INFO|modeling_utils.py:4926] 2026-04-17 23:08:54,510 >> All model checkpoint weights were used when initializing LlamaForCausalLM.

[INFO|modeling_utils.py:4934] 2026-04-17 23:08:54,510 >> All the weights of LlamaForCausalLM were initialized from the model checkpoint at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101.
If your task is similar to the task the model of the checkpoint was trained on, you can already use LlamaForCausalLM for predictions without further training.
[INFO|configuration_utils.py:1095] 2026-04-17 23:08:54,512 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-sft-hh-helpful-4xh200-batch-64-20260416-162101/generation_config.json
[INFO|configuration_utils.py:1142] 2026-04-17 23:08:54,513 >> Generate config GenerationConfig {
  "bos_token_id": 128000,
  "do_sample": true,
  "eos_token_id": 128001,
  "max_length": 4096,
  "temperature": 0.6,
  "top_p": 0.9
}

[WARNING|trainer.py:821] 2026-04-17 23:08:54,514 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
[WARNING|trainer.py:816] 2026-04-17 23:08:54,514 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

Normalizing raw HH preferences (train):  64%|███████████████▎        | 27929/43598 [00:02<00:01, 12244.36 examples/s]
Normalizing raw HH preferences (train):  68%|████████████████▍       | 29785/43598 [00:02<00:01, 12282.94 examples/s]
Normalizing raw HH preferences (train):  72%|█████████████████▍      | 31570/43598 [00:02<00:00, 12154.65 examples/s]
Normalizing raw HH preferences (train):  75%|██████████████████      | 32835/43598 [00:02<00:00, 12269.71 examples/s]
Normalizing raw HH preferences (train):  80%|███████████████████     | 34703/43598 [00:02<00:00, 12256.80 examples/s]
Normalizing raw HH preferences (train):  82%|███████████████████▊    | 35934/43598 [00:03<00:00, 12268.15 examples/s]
Normalizing raw HH preferences (train):  87%|████████████████████▊   | 37772/43598 [00:03<00:00, 12260.22 examples/s]
Normalizing raw HH preferences (train):  91%|█████████████████████▊  | 39692/43598 [00:03<00:00, 12258.75 examples/s]
Normalizing raw HH preferences (train):  94%|██████████████████████▌ | 40942/43598 [00:03<00:00, 12313.21 examples/s]
Normalizing raw HH preferences (train):  98%|███████████████████████▌| 42785/43598 [00:03<00:00, 12301.37 examples/s]
Normalizing raw HH preferences (train): 100%|████████████████████████| 43598/43598 [00:03<00:00, 11250.34 examples/s]

Normalizing raw HH preferences (test):   0%|                                         | 0/2339 [00:00<?, ? examples/s]
Normalizing raw HH preferences (test):  48%|████████████▉              | 1123/2339 [00:00<00:00, 11177.43 examples/s]
Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5949.14 examples/s]
Normalizing raw HH preferences (test): 100%|████████████████████████████| 2339/2339 [00:00<00:00, 5962.15 examples/s]
/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
[WARNING|logging.py:328] 2026-04-17 23:08:57,748 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.

Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 688.07it/s]

Loading checkpoint shards:   0%|                                                               | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 643.54it/s]
[WARNING|trainer.py:821] 2026-04-17 23:08:57,855 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.

Tokenizing train (num_proc=12):   0%|                                               | 0/43598 [00:00<?, ? examples/s]
Tokenizing train (num_proc=12):   0%|                                   | 128/43598 [00:45<4:16:11,  2.83 examples/s]
Tokenizing train (num_proc=12):   1%|▍                                    | 512/43598 [00:45<48:20, 14.85 examples/s]
Tokenizing train (num_proc=12):   2%|▋                                    | 768/43598 [00:45<27:26, 26.02 examples/s]
Tokenizing train (num_proc=12):   2%|▊                                   | 1024/43598 [00:45<17:04, 41.54 examples/s]
Tokenizing train (num_proc=12):   3%|▉                                   | 1152/43598 [00:46<13:30, 52.34 examples/s]
Tokenizing train (num_proc=12):   3%|█                                   | 1280/43598 [00:46<10:27, 67.39 examples/s]
Tokenizing train (num_proc=12):   3%|█▏                                  | 1408/43598 [00:46<07:58, 88.23 examples/s]
Tokenizing train (num_proc=12):   4%|█▏                                 | 1536/43598 [00:46<06:00, 116.69 examples/s]
Tokenizing train (num_proc=12):   4%|█▎                                 | 1664/43598 [00:46<04:31, 154.43 examples/s]
Tokenizing train (num_proc=12):   4%|█▍                                 | 1792/43598 [00:46<03:26, 202.76 examples/s]
Tokenizing train (num_proc=12):   4%|█▌                                 | 1920/43598 [00:46<02:38, 263.20 examples/s]
Tokenizing train (num_proc=12):   5%|█▋                                 | 2048/43598 [00:46<02:03, 336.73 examples/s]
Tokenizing train (num_proc=12):   5%|█▋                                 | 2176/43598 [00:47<01:38, 419.29 examples/s]
Tokenizing train (num_proc=12):   5%|█▊                                 | 2304/43598 [00:47<01:21, 508.35 examples/s]
Tokenizing train (num_proc=12):   6%|█▉                                 | 2432/43598 [00:47<01:08, 601.32 examples/s]
Tokenizing train (num_proc=12):   6%|██                                 | 2560/43598 [00:47<01:00, 682.26 examples/s]
Tokenizing train (num_proc=12):   6%|██▏                                | 2688/43598 [00:47<00:52, 776.37 examples/s]
Tokenizing train (num_proc=12):   6%|██▎                                | 2816/43598 [00:47<00:49, 829.26 examples/s]
Tokenizing train (num_proc=12):   7%|██▎                                | 2944/43598 [00:47<00:45, 893.99 examples/s]
Tokenizing train (num_proc=12):   7%|██▍                                | 3072/43598 [00:47<00:44, 915.48 examples/s]
Tokenizing train (num_proc=12):   7%|██▌                                | 3200/43598 [00:48<00:42, 959.01 examples/s]
Tokenizing train (num_proc=12):   8%|██▋                                | 3328/43598 [00:48<00:42, 956.87 examples/s]
Tokenizing train (num_proc=12):   8%|██▋                               | 3456/43598 [00:48<00:39, 1004.20 examples/s]
Tokenizing train (num_proc=12):   8%|██▊                               | 3584/43598 [00:48<00:38, 1034.43 examples/s]
Tokenizing train (num_proc=12):   8%|██▊                               | 3634/43598 [01:03<00:38, 1034.43 examples/s]
Tokenizing train (num_proc=12):   9%|███                                 | 3762/43598 [01:12<33:31, 19.80 examples/s]
Tokenizing train (num_proc=12):   9%|███▏                                | 3890/43598 [01:12<24:18, 27.22 examples/s]
Tokenizing train (num_proc=12):   9%|███▎                                | 4018/43598 [01:12<17:30, 37.67 examples/s]
Tokenizing train (num_proc=12):  10%|███▍                                | 4146/43598 [01:12<12:34, 52.27 examples/s]
Tokenizing train (num_proc=12):  10%|███▌                                | 4274/43598 [01:12<09:02, 72.46 examples/s]
Tokenizing train (num_proc=12):  10%|███▋                                | 4402/43598 [01:12<06:32, 99.82 examples/s]
Tokenizing train (num_proc=12):  10%|███▋                               | 4530/43598 [01:12<04:46, 136.47 examples/s]
Tokenizing train (num_proc=12):  11%|███▋                               | 4658/43598 [01:12<03:31, 184.43 examples/s]
Tokenizing train (num_proc=12):  11%|███▊                               | 4786/43598 [01:13<02:39, 243.38 examples/s]
Tokenizing train (num_proc=12):  11%|███▉                               | 4914/43598 [01:13<02:03, 312.80 examples/s]
Tokenizing train (num_proc=12):  12%|████                               | 5042/43598 [01:13<01:37, 393.63 examples/s]
Tokenizing train (num_proc=12):  12%|████▏                              | 5170/43598 [01:13<01:18, 487.13 examples/s]
Tokenizing train (num_proc=12):  12%|████▎                              | 5298/43598 [01:13<01:05, 582.90 examples/s]
Tokenizing train (num_proc=12):  12%|████▎                              | 5426/43598 [01:13<00:54, 695.37 examples/s]
Tokenizing train (num_proc=12):  13%|████▍                              | 5554/43598 [01:13<00:48, 779.11 examples/s]
Tokenizing train (num_proc=12):  13%|████▌                              | 5682/43598 [01:13<00:44, 843.70 examples/s]
Tokenizing train (num_proc=12):  13%|████▋                              | 5810/43598 [01:14<00:41, 917.78 examples/s]
Tokenizing train (num_proc=12):  14%|████▊                              | 5938/43598 [01:14<00:38, 985.64 examples/s]
Tokenizing train (num_proc=12):  14%|████▋                             | 6066/43598 [01:14<00:36, 1032.62 examples/s]
Tokenizing train (num_proc=12):  14%|████▊                             | 6194/43598 [01:14<00:36, 1034.24 examples/s]
Tokenizing train (num_proc=12):  15%|████▉                             | 6322/43598 [01:14<00:36, 1028.22 examples/s]
Tokenizing train (num_proc=12):  15%|█████                             | 6450/43598 [01:14<00:35, 1058.67 examples/s]
Tokenizing train (num_proc=12):  15%|█████▏                            | 6578/43598 [01:14<00:34, 1088.35 examples/s]
Tokenizing train (num_proc=12):  15%|█████▏                            | 6706/43598 [01:14<00:34, 1079.61 examples/s]
Tokenizing train (num_proc=12):  16%|█████▎                            | 6834/43598 [01:15<00:34, 1069.24 examples/s]
Tokenizing train (num_proc=12):  16%|█████▍                            | 6962/43598 [01:15<00:34, 1061.62 examples/s]
Tokenizing train (num_proc=12):  16%|█████▌                            | 7090/43598 [01:15<00:33, 1081.57 examples/s]
Tokenizing train (num_proc=12):  17%|█████▋                            | 7218/43598 [01:15<00:33, 1076.76 examples/s]
Tokenizing train (num_proc=12):  17%|█████▋                            | 7268/43598 [01:26<00:33, 1076.76 examples/s]
Tokenizing train (num_proc=12):  17%|██████                              | 7396/43598 [01:38<29:14, 20.64 examples/s]
Tokenizing train (num_proc=12):  17%|██████▏                             | 7524/43598 [01:38<21:13, 28.33 examples/s]
Tokenizing train (num_proc=12):  18%|██████▎                             | 7652/43598 [01:38<15:18, 39.15 examples/s]
Tokenizing train (num_proc=12):  18%|██████▍                             | 7780/43598 [01:38<11:00, 54.26 examples/s]
Tokenizing train (num_proc=12):  18%|██████▌                             | 7908/43598 [01:38<07:54, 75.28 examples/s]
Tokenizing train (num_proc=12):  18%|██████▍                            | 8036/43598 [01:38<05:44, 103.27 examples/s]
Tokenizing train (num_proc=12):  19%|██████▌                            | 8164/43598 [01:38<04:11, 140.64 examples/s]
Tokenizing train (num_proc=12):  19%|██████▋                            | 8292/43598 [01:39<03:05, 190.28 examples/s]
Tokenizing train (num_proc=12):  19%|██████▊                            | 8420/43598 [01:39<02:19, 252.14 examples/s]
Tokenizing train (num_proc=12):  20%|██████▊                            | 8548/43598 [01:39<01:47, 326.17 examples/s]
Tokenizing train (num_proc=12):  20%|██████▉                            | 8676/43598 [01:39<01:23, 418.33 examples/s]
Tokenizing train (num_proc=12):  20%|███████                            | 8804/43598 [01:39<01:07, 514.81 examples/s]
Tokenizing train (num_proc=12):  20%|███████▏                           | 8932/43598 [01:39<00:55, 620.11 examples/s]
Tokenizing train (num_proc=12):  21%|███████▎                           | 9060/43598 [01:39<00:48, 705.60 examples/s]
Tokenizing train (num_proc=12):  21%|███████▍                           | 9188/43598 [01:39<00:44, 779.37 examples/s]
Tokenizing train (num_proc=12):  21%|███████▍                           | 9316/43598 [01:39<00:40, 850.38 examples/s]
Tokenizing train (num_proc=12):  22%|███████▌                           | 9444/43598 [01:40<00:38, 896.06 examples/s]
Tokenizing train (num_proc=12):  22%|███████▋                           | 9572/43598 [01:40<00:36, 943.91 examples/s]
Tokenizing train (num_proc=12):  22%|███████▊                           | 9700/43598 [01:40<00:34, 989.50 examples/s]
Tokenizing train (num_proc=12):  23%|███████▉                           | 9828/43598 [01:40<00:34, 986.97 examples/s]
Tokenizing train (num_proc=12):  23%|███████▊                          | 9956/43598 [01:40<00:33, 1009.29 examples/s]
Tokenizing train (num_proc=12):  23%|███████▋                         | 10084/43598 [01:40<00:33, 1004.12 examples/s]
Tokenizing train (num_proc=12):  23%|███████▉                          | 10212/43598 [01:40<00:33, 999.61 examples/s]
Tokenizing train (num_proc=12):  24%|███████▊                         | 10340/43598 [01:40<00:32, 1034.31 examples/s]
Tokenizing train (num_proc=12):  24%|███████▉                         | 10468/43598 [01:41<00:31, 1044.94 examples/s]
Tokenizing train (num_proc=12):  24%|████████                         | 10596/43598 [01:41<00:31, 1051.40 examples/s]
Tokenizing train (num_proc=12):  25%|████████                         | 10724/43598 [01:41<00:30, 1076.25 examples/s]
Tokenizing train (num_proc=12):  25%|████████▏                        | 10852/43598 [01:41<00:30, 1072.34 examples/s]
Tokenizing train (num_proc=12):  25%|████████▎                        | 10901/43598 [01:53<00:30, 1072.34 examples/s]
Tokenizing train (num_proc=12):  25%|████████▊                          | 11029/43598 [02:03<25:54, 20.95 examples/s]
Tokenizing train (num_proc=12):  26%|████████▉                          | 11157/43598 [02:03<18:48, 28.74 examples/s]
Tokenizing train (num_proc=12):  26%|█████████                          | 11285/43598 [02:04<13:33, 39.73 examples/s]
Tokenizing train (num_proc=12):  26%|█████████▏                         | 11413/43598 [02:04<09:45, 55.00 examples/s]
Tokenizing train (num_proc=12):  26%|█████████▎                         | 11541/43598 [02:04<07:01, 75.98 examples/s]
Tokenizing train (num_proc=12):  27%|█████████                         | 11669/43598 [02:04<05:05, 104.48 examples/s]
Tokenizing train (num_proc=12):  27%|█████████▏                        | 11797/43598 [02:04<03:44, 141.76 examples/s]
Tokenizing train (num_proc=12):  27%|█████████▎                        | 11925/43598 [02:04<02:46, 190.70 examples/s]
Tokenizing train (num_proc=12):  28%|█████████▍                        | 12053/43598 [02:04<02:06, 249.61 examples/s]
Tokenizing train (num_proc=12):  28%|█████████▍                        | 12181/43598 [02:04<01:36, 326.19 examples/s]
Tokenizing train (num_proc=12):  28%|█████████▌                        | 12309/43598 [02:05<01:16, 406.87 examples/s]
Tokenizing train (num_proc=12):  29%|█████████▋                        | 12437/43598 [02:05<01:02, 498.77 examples/s]
Tokenizing train (num_proc=12):  29%|█████████▊                        | 12565/43598 [02:05<00:51, 604.98 examples/s]
Tokenizing train (num_proc=12):  29%|█████████▉                        | 12821/43598 [02:05<00:39, 779.84 examples/s]
Tokenizing train (num_proc=12):  30%|██████████                        | 12949/43598 [02:05<00:36, 846.14 examples/s]
Tokenizing train (num_proc=12):  30%|██████████▏                       | 13077/43598 [02:05<00:33, 912.57 examples/s]
Tokenizing train (num_proc=12):  30%|██████████▎                       | 13205/43598 [02:05<00:32, 939.48 examples/s]
Tokenizing train (num_proc=12):  31%|██████████▍                       | 13333/43598 [02:06<00:31, 974.05 examples/s]
Tokenizing train (num_proc=12):  31%|██████████▍                       | 13461/43598 [02:06<00:30, 984.28 examples/s]
Tokenizing train (num_proc=12):  31%|██████████▎                      | 13589/43598 [02:06<00:29, 1004.46 examples/s]
Tokenizing train (num_proc=12):  31%|██████████▍                      | 13717/43598 [02:06<00:28, 1043.70 examples/s]
Tokenizing train (num_proc=12):  32%|██████████▍                      | 13845/43598 [02:06<00:27, 1069.54 examples/s]
Tokenizing train (num_proc=12):  32%|██████████▌                      | 13973/43598 [02:06<00:27, 1081.21 examples/s]
Tokenizing train (num_proc=12):  32%|██████████▋                      | 14101/43598 [02:06<00:27, 1062.32 examples/s]
Tokenizing train (num_proc=12):  33%|██████████▊                      | 14229/43598 [02:06<00:27, 1072.64 examples/s]
Tokenizing train (num_proc=12):  33%|██████████▊                      | 14357/43598 [02:06<00:26, 1108.37 examples/s]
Tokenizing train (num_proc=12):  33%|███████████▎                      | 14534/43598 [02:07<00:37, 779.28 examples/s]
Tokenizing train (num_proc=12):  33%|███████████▎                      | 14534/43598 [02:23<00:37, 779.28 examples/s]
Tokenizing train (num_proc=12):  34%|███████████▊                       | 14662/43598 [02:28<22:59, 20.98 examples/s]
Tokenizing train (num_proc=12):  34%|███████████▊                       | 14790/43598 [02:29<16:32, 29.02 examples/s]
Tokenizing train (num_proc=12):  34%|███████████▉                       | 14918/43598 [02:29<11:51, 40.32 examples/s]
Tokenizing train (num_proc=12):  35%|████████████                       | 15046/43598 [02:29<08:29, 56.06 examples/s]
Tokenizing train (num_proc=12):  35%|████████████▏                      | 15174/43598 [02:29<06:05, 77.73 examples/s]
Tokenizing train (num_proc=12):  35%|███████████▉                      | 15302/43598 [02:29<04:23, 107.22 examples/s]
Tokenizing train (num_proc=12):  35%|████████████                      | 15430/43598 [02:29<03:13, 145.66 examples/s]
Tokenizing train (num_proc=12):  36%|████████████▏                     | 15558/43598 [02:29<02:22, 196.09 examples/s]
Tokenizing train (num_proc=12):  36%|████████████▏                     | 15686/43598 [02:29<01:47, 260.58 examples/s]
Tokenizing train (num_proc=12):  36%|████████████▎                     | 15814/43598 [02:29<01:21, 339.70 examples/s]
Tokenizing train (num_proc=12):  37%|████████████▍                     | 15942/43598 [02:30<01:04, 428.39 examples/s]
Tokenizing train (num_proc=12):  37%|████████████▌                     | 16070/43598 [02:30<00:53, 516.17 examples/s]
Tokenizing train (num_proc=12):  37%|████████████▋                     | 16198/43598 [02:30<00:44, 609.17 examples/s]
Tokenizing train (num_proc=12):  37%|████████████▋                     | 16326/43598 [02:30<00:38, 712.62 examples/s]
Tokenizing train (num_proc=12):  38%|████████████▊                     | 16454/43598 [02:30<00:33, 820.81 examples/s]
Tokenizing train (num_proc=12):  38%|████████████▉                     | 16582/43598 [02:30<00:31, 866.18 examples/s]
Tokenizing train (num_proc=12):  38%|█████████████                     | 16710/43598 [02:30<00:29, 922.05 examples/s]
Tokenizing train (num_proc=12):  39%|█████████████▏                    | 16838/43598 [02:30<00:27, 975.10 examples/s]
Tokenizing train (num_proc=12):  39%|████████████▊                    | 16966/43598 [02:31<00:26, 1010.72 examples/s]
Tokenizing train (num_proc=12):  39%|████████████▉                    | 17094/43598 [02:31<00:25, 1020.43 examples/s]
Tokenizing train (num_proc=12):  40%|█████████████                    | 17222/43598 [02:31<00:25, 1037.77 examples/s]
Tokenizing train (num_proc=12):  40%|█████████████▏                   | 17350/43598 [02:31<00:25, 1038.36 examples/s]
Tokenizing train (num_proc=12):  40%|█████████████▏                   | 17478/43598 [02:31<00:25, 1039.10 examples/s]
Tokenizing train (num_proc=12):  40%|█████████████▎                   | 17606/43598 [02:31<00:24, 1068.25 examples/s]
Tokenizing train (num_proc=12):  41%|█████████████▍                   | 17734/43598 [02:31<00:24, 1074.89 examples/s]
Tokenizing train (num_proc=12):  41%|█████████████▌                   | 17862/43598 [02:31<00:23, 1097.07 examples/s]
Tokenizing train (num_proc=12):  41%|█████████████▌                   | 17990/43598 [02:31<00:22, 1115.28 examples/s]
Tokenizing train (num_proc=12):  42%|█████████████▋                   | 18118/43598 [02:32<00:22, 1117.23 examples/s]
Tokenizing train (num_proc=12):  42%|█████████████▊                   | 18167/43598 [02:43<00:22, 1117.23 examples/s]
Tokenizing train (num_proc=12):  42%|██████████████▋                    | 18295/43598 [02:53<19:00, 22.18 examples/s]
Tokenizing train (num_proc=12):  42%|██████████████▊                    | 18423/43598 [02:53<13:46, 30.46 examples/s]
Tokenizing train (num_proc=12):  43%|██████████████▉                    | 18551/43598 [02:53<09:55, 42.06 examples/s]
Tokenizing train (num_proc=12):  43%|██████████████▉                    | 18679/43598 [02:53<07:07, 58.30 examples/s]
Tokenizing train (num_proc=12):  43%|███████████████                    | 18807/43598 [02:53<05:07, 80.54 examples/s]
Tokenizing train (num_proc=12):  43%|██████████████▊                   | 18935/43598 [02:53<03:43, 110.29 examples/s]
Tokenizing train (num_proc=12):  44%|██████████████▊                   | 19063/43598 [02:53<02:44, 149.29 examples/s]
Tokenizing train (num_proc=12):  44%|██████████████▉                   | 19191/43598 [02:54<02:00, 202.25 examples/s]
Tokenizing train (num_proc=12):  44%|███████████████                   | 19319/43598 [02:54<01:31, 266.38 examples/s]
Tokenizing train (num_proc=12):  45%|███████████████▏                  | 19447/43598 [02:54<01:11, 339.44 examples/s]
Tokenizing train (num_proc=12):  45%|███████████████▎                  | 19575/43598 [02:54<00:55, 429.34 examples/s]
Tokenizing train (num_proc=12):  45%|███████████████▎                  | 19703/43598 [02:54<00:45, 530.61 examples/s]
Tokenizing train (num_proc=12):  45%|███████████████▍                  | 19831/43598 [02:54<00:38, 616.69 examples/s]
Tokenizing train (num_proc=12):  46%|███████████████▌                  | 19959/43598 [02:54<00:34, 688.78 examples/s]
Tokenizing train (num_proc=12):  46%|███████████████▋                  | 20087/43598 [02:54<00:30, 758.96 examples/s]
Tokenizing train (num_proc=12):  46%|███████████████▊                  | 20215/43598 [02:55<00:28, 815.47 examples/s]
Tokenizing train (num_proc=12):  47%|███████████████▊                  | 20343/43598 [02:55<00:26, 870.86 examples/s]
Tokenizing train (num_proc=12):  47%|███████████████▉                  | 20471/43598 [02:55<00:24, 959.77 examples/s]
Tokenizing train (num_proc=12):  47%|████████████████                  | 20599/43598 [02:55<00:23, 968.19 examples/s]
Tokenizing train (num_proc=12):  48%|████████████████▏                 | 20727/43598 [02:55<00:23, 961.04 examples/s]
Tokenizing train (num_proc=12):  48%|████████████████▎                 | 20855/43598 [02:55<00:23, 950.48 examples/s]
Tokenizing train (num_proc=12):  48%|████████████████▎                 | 20983/43598 [02:55<00:23, 978.79 examples/s]
Tokenizing train (num_proc=12):  48%|███████████████▉                 | 21111/43598 [02:55<00:22, 1008.37 examples/s]
Tokenizing train (num_proc=12):  49%|████████████████                 | 21239/43598 [02:56<00:21, 1036.10 examples/s]
Tokenizing train (num_proc=12):  49%|████████████████▏                | 21367/43598 [02:56<00:20, 1084.11 examples/s]
Tokenizing train (num_proc=12):  49%|████████████████▎                | 21495/43598 [02:56<00:19, 1110.15 examples/s]
Tokenizing train (num_proc=12):  50%|████████████████▎                | 21623/43598 [02:56<00:20, 1096.14 examples/s]
Tokenizing train (num_proc=12):  50%|████████████████▍                | 21751/43598 [02:56<00:20, 1072.16 examples/s]
Tokenizing train (num_proc=12):  50%|████████████████▌                | 21800/43598 [03:06<00:20, 1072.16 examples/s]
Tokenizing train (num_proc=12):  50%|█████████████████▌                 | 21928/43598 [03:17<16:29, 21.90 examples/s]
Tokenizing train (num_proc=12):  51%|█████████████████▋                 | 22056/43598 [03:18<11:57, 30.04 examples/s]
Tokenizing train (num_proc=12):  51%|█████████████████▊                 | 22184/43598 [03:18<08:36, 41.50 examples/s]
Tokenizing train (num_proc=12):  51%|█████████████████▉                 | 22312/43598 [03:18<06:10, 57.47 examples/s]
Tokenizing train (num_proc=12):  51%|██████████████████                 | 22440/43598 [03:18<04:27, 79.20 examples/s]
Tokenizing train (num_proc=12):  52%|█████████████████▌                | 22568/43598 [03:18<03:13, 108.66 examples/s]
Tokenizing train (num_proc=12):  52%|█████████████████▋                | 22696/43598 [03:18<02:21, 147.93 examples/s]
Tokenizing train (num_proc=12):  52%|█████████████████▊                | 22824/43598 [03:18<01:44, 199.26 examples/s]
Tokenizing train (num_proc=12):  53%|█████████████████▉                | 22952/43598 [03:18<01:18, 264.15 examples/s]
Tokenizing train (num_proc=12):  53%|█████████████████▉                | 23080/43598 [03:19<00:59, 342.40 examples/s]
Tokenizing train (num_proc=12):  53%|██████████████████                | 23208/43598 [03:19<00:47, 430.76 examples/s]
Tokenizing train (num_proc=12):  54%|██████████████████▏               | 23336/43598 [03:19<00:38, 526.53 examples/s]
Tokenizing train (num_proc=12):  54%|██████████████████▎               | 23464/43598 [03:19<00:32, 624.46 examples/s]
Tokenizing train (num_proc=12):  54%|██████████████████▍               | 23592/43598 [03:19<00:27, 717.09 examples/s]
Tokenizing train (num_proc=12):  54%|██████████████████▍               | 23720/43598 [03:19<00:25, 791.98 examples/s]
Tokenizing train (num_proc=12):  55%|██████████████████▌               | 23848/43598 [03:19<00:23, 853.53 examples/s]
Tokenizing train (num_proc=12):  55%|██████████████████▋               | 23976/43598 [03:19<00:21, 917.95 examples/s]
Tokenizing train (num_proc=12):  55%|██████████████████▊               | 24104/43598 [03:20<00:19, 981.45 examples/s]
Tokenizing train (num_proc=12):  56%|██████████████████▎              | 24232/43598 [03:20<00:19, 1014.01 examples/s]
Tokenizing train (num_proc=12):  56%|██████████████████▍              | 24360/43598 [03:20<00:18, 1019.56 examples/s]
Tokenizing train (num_proc=12):  56%|██████████████████▌              | 24488/43598 [03:20<00:18, 1060.44 examples/s]
Tokenizing train (num_proc=12):  56%|██████████████████▋              | 24616/43598 [03:20<00:17, 1098.35 examples/s]
Tokenizing train (num_proc=12):  57%|██████████████████▋              | 24744/43598 [03:20<00:16, 1128.94 examples/s]
Tokenizing train (num_proc=12):  57%|██████████████████▊              | 24872/43598 [03:20<00:16, 1111.83 examples/s]
Tokenizing train (num_proc=12):  57%|██████████████████▉              | 25000/43598 [03:20<00:16, 1119.80 examples/s]
Tokenizing train (num_proc=12):  58%|███████████████████              | 25128/43598 [03:20<00:16, 1107.45 examples/s]
Tokenizing train (num_proc=12):  58%|███████████████████              | 25256/43598 [03:21<00:16, 1106.13 examples/s]
Tokenizing train (num_proc=12):  58%|███████████████████▏             | 25384/43598 [03:21<00:16, 1073.69 examples/s]
Tokenizing train (num_proc=12):  58%|███████████████████▎             | 25433/43598 [03:33<00:16, 1073.69 examples/s]
Tokenizing train (num_proc=12):  59%|████████████████████▌              | 25561/43598 [03:43<14:05, 21.34 examples/s]
Tokenizing train (num_proc=12):  59%|████████████████████▌              | 25689/43598 [03:43<10:11, 29.30 examples/s]
Tokenizing train (num_proc=12):  59%|████████████████████▋              | 25817/43598 [03:43<07:19, 40.46 examples/s]
Tokenizing train (num_proc=12):  60%|████████████████████▊              | 25945/43598 [03:43<05:15, 55.99 examples/s]
Tokenizing train (num_proc=12):  60%|████████████████████▉              | 26073/43598 [03:43<03:46, 77.43 examples/s]
Tokenizing train (num_proc=12):  60%|████████████████████▍             | 26201/43598 [03:43<02:43, 106.57 examples/s]
Tokenizing train (num_proc=12):  60%|████████████████████▌             | 26329/43598 [03:43<01:58, 145.50 examples/s]
Tokenizing train (num_proc=12):  61%|████████████████████▋             | 26457/43598 [03:44<01:27, 196.87 examples/s]
Tokenizing train (num_proc=12):  61%|████████████████████▋             | 26585/43598 [03:44<01:05, 258.45 examples/s]
Tokenizing train (num_proc=12):  61%|████████████████████▊             | 26713/43598 [03:44<00:50, 334.32 examples/s]
Tokenizing train (num_proc=12):  62%|████████████████████▉             | 26841/43598 [03:44<00:39, 420.03 examples/s]
Tokenizing train (num_proc=12):  62%|█████████████████████             | 26969/43598 [03:44<00:32, 514.07 examples/s]
Tokenizing train (num_proc=12):  62%|█████████████████████▏            | 27097/43598 [03:44<00:27, 598.11 examples/s]
Tokenizing train (num_proc=12):  62%|█████████████████████▏            | 27225/43598 [03:44<00:23, 694.28 examples/s]
Tokenizing train (num_proc=12):  63%|█████████████████████▎            | 27353/43598 [03:44<00:20, 782.37 examples/s]
Tokenizing train (num_proc=12):  63%|█████████████████████▍            | 27481/43598 [03:44<00:18, 860.48 examples/s]
Tokenizing train (num_proc=12):  63%|█████████████████████▌            | 27609/43598 [03:45<00:17, 911.77 examples/s]
Tokenizing train (num_proc=12):  64%|█████████████████████▋            | 27737/43598 [03:45<00:16, 947.03 examples/s]
Tokenizing train (num_proc=12):  64%|█████████████████████▋            | 27865/43598 [03:45<00:16, 968.90 examples/s]
Tokenizing train (num_proc=12):  64%|█████████████████████▊            | 27993/43598 [03:45<00:15, 982.81 examples/s]
Tokenizing train (num_proc=12):  65%|█████████████████████▉            | 28121/43598 [03:45<00:15, 989.81 examples/s]
Tokenizing train (num_proc=12):  65%|█████████████████████▍           | 28249/43598 [03:45<00:15, 1015.29 examples/s]
Tokenizing train (num_proc=12):  65%|█████████████████████▍           | 28377/43598 [03:45<00:14, 1047.38 examples/s]
Tokenizing train (num_proc=12):  65%|█████████████████████▌           | 28505/43598 [03:45<00:14, 1062.11 examples/s]
Tokenizing train (num_proc=12):  66%|█████████████████████▋           | 28633/43598 [03:46<00:13, 1109.86 examples/s]
Tokenizing train (num_proc=12):  66%|█████████████████████▊           | 28761/43598 [03:46<00:13, 1108.61 examples/s]
Tokenizing train (num_proc=12):  66%|█████████████████████▊           | 28889/43598 [03:46<00:13, 1095.39 examples/s]
Tokenizing train (num_proc=12):  67%|█████████████████████▉           | 29017/43598 [03:46<00:13, 1062.01 examples/s]
Tokenizing train (num_proc=12):  67%|██████████████████████           | 29066/43598 [03:57<00:13, 1062.01 examples/s]
Tokenizing train (num_proc=12):  67%|███████████████████████▍           | 29194/43598 [04:07<10:36, 22.62 examples/s]
Tokenizing train (num_proc=12):  67%|███████████████████████▌           | 29322/43598 [04:07<07:40, 31.02 examples/s]
Tokenizing train (num_proc=12):  68%|███████████████████████▋           | 29450/43598 [04:07<05:30, 42.83 examples/s]
Tokenizing train (num_proc=12):  68%|███████████████████████▋           | 29578/43598 [04:07<03:56, 59.22 examples/s]
Tokenizing train (num_proc=12):  68%|███████████████████████▊           | 29706/43598 [04:07<02:49, 81.74 examples/s]
Tokenizing train (num_proc=12):  68%|███████████████████████▎          | 29834/43598 [04:07<02:02, 112.43 examples/s]
Tokenizing train (num_proc=12):  69%|███████████████████████▎          | 29962/43598 [04:07<01:29, 153.16 examples/s]
Tokenizing train (num_proc=12):  69%|███████████████████████▍          | 30090/43598 [04:08<01:05, 205.60 examples/s]
Tokenizing train (num_proc=12):  69%|███████████████████████▌          | 30218/43598 [04:08<00:49, 271.60 examples/s]
Tokenizing train (num_proc=12):  70%|███████████████████████▊          | 30474/43598 [04:08<00:31, 420.85 examples/s]
Tokenizing train (num_proc=12):  70%|███████████████████████▊          | 30602/43598 [04:08<00:26, 496.71 examples/s]
Tokenizing train (num_proc=12):  70%|███████████████████████▉          | 30730/43598 [04:08<00:22, 582.17 examples/s]
Tokenizing train (num_proc=12):  71%|████████████████████████          | 30858/43598 [04:08<00:19, 669.61 examples/s]
Tokenizing train (num_proc=12):  71%|████████████████████████▏         | 30986/43598 [04:08<00:16, 761.33 examples/s]
Tokenizing train (num_proc=12):  71%|████████████████████████▎         | 31114/43598 [04:08<00:14, 835.36 examples/s]
Tokenizing train (num_proc=12):  72%|████████████████████████▎         | 31242/43598 [04:09<00:13, 905.00 examples/s]
Tokenizing train (num_proc=12):  72%|████████████████████████▍         | 31370/43598 [04:09<00:12, 954.39 examples/s]
Tokenizing train (num_proc=12):  72%|████████████████████████▌         | 31498/43598 [04:09<00:12, 987.82 examples/s]
Tokenizing train (num_proc=12):  73%|███████████████████████▉         | 31626/43598 [04:09<00:11, 1005.00 examples/s]
Tokenizing train (num_proc=12):  73%|████████████████████████         | 31754/43598 [04:09<00:11, 1066.19 examples/s]
Tokenizing train (num_proc=12):  73%|████████████████████████▏        | 31882/43598 [04:09<00:11, 1062.83 examples/s]
Tokenizing train (num_proc=12):  73%|████████████████████████▏        | 32010/43598 [04:09<00:10, 1087.98 examples/s]
Tokenizing train (num_proc=12):  74%|████████████████████████▎        | 32138/43598 [04:09<00:10, 1108.66 examples/s]
Tokenizing train (num_proc=12):  74%|████████████████████████▍        | 32266/43598 [04:09<00:10, 1061.26 examples/s]
Tokenizing train (num_proc=12):  74%|████████████████████████▌        | 32394/43598 [04:10<00:10, 1100.46 examples/s]
Tokenizing train (num_proc=12):  75%|████████████████████████▌        | 32522/43598 [04:10<00:10, 1084.68 examples/s]
Tokenizing train (num_proc=12):  75%|████████████████████████▋        | 32650/43598 [04:10<00:10, 1043.46 examples/s]
Tokenizing train (num_proc=12):  75%|████████████████████████▊        | 32699/43598 [04:23<00:10, 1043.46 examples/s]
Tokenizing train (num_proc=12):  75%|██████████████████████████▎        | 32827/43598 [04:33<08:42, 20.63 examples/s]
Tokenizing train (num_proc=12):  76%|██████████████████████████▍        | 32955/43598 [04:33<06:15, 28.32 examples/s]
Tokenizing train (num_proc=12):  76%|██████████████████████████▌        | 33083/43598 [04:33<04:28, 39.14 examples/s]
Tokenizing train (num_proc=12):  76%|██████████████████████████▋        | 33211/43598 [04:33<03:11, 54.26 examples/s]
Tokenizing train (num_proc=12):  76%|██████████████████████████▊        | 33339/43598 [04:33<02:16, 75.14 examples/s]
Tokenizing train (num_proc=12):  77%|██████████████████████████        | 33467/43598 [04:33<01:37, 103.62 examples/s]
Tokenizing train (num_proc=12):  77%|██████████████████████████▏       | 33595/43598 [04:33<01:10, 141.59 examples/s]
Tokenizing train (num_proc=12):  77%|██████████████████████████▎       | 33723/43598 [04:33<00:51, 191.09 examples/s]
Tokenizing train (num_proc=12):  78%|██████████████████████████▍       | 33851/43598 [04:34<00:38, 251.67 examples/s]
Tokenizing train (num_proc=12):  78%|██████████████████████████▍       | 33979/43598 [04:34<00:29, 326.79 examples/s]
Tokenizing train (num_proc=12):  78%|██████████████████████████▌       | 34107/43598 [04:34<00:23, 412.10 examples/s]
Tokenizing train (num_proc=12):  79%|██████████████████████████▋       | 34235/43598 [04:34<00:18, 510.33 examples/s]
Tokenizing train (num_proc=12):  79%|██████████████████████████▊       | 34363/43598 [04:34<00:15, 600.15 examples/s]
Tokenizing train (num_proc=12):  79%|██████████████████████████▉       | 34491/43598 [04:34<00:13, 697.25 examples/s]
Tokenizing train (num_proc=12):  79%|██████████████████████████▉       | 34619/43598 [04:34<00:11, 766.10 examples/s]
Tokenizing train (num_proc=12):  80%|███████████████████████████       | 34747/43598 [04:34<00:10, 851.59 examples/s]
Tokenizing train (num_proc=12):  80%|███████████████████████████▏      | 34875/43598 [04:35<00:09, 903.18 examples/s]
Tokenizing train (num_proc=12):  80%|███████████████████████████▎      | 35003/43598 [04:35<00:08, 980.96 examples/s]
Tokenizing train (num_proc=12):  81%|██████████████████████████▌      | 35131/43598 [04:35<00:08, 1025.12 examples/s]
Tokenizing train (num_proc=12):  81%|██████████████████████████▋      | 35259/43598 [04:35<00:08, 1022.39 examples/s]
Tokenizing train (num_proc=12):  81%|██████████████████████████▊      | 35387/43598 [04:35<00:07, 1043.17 examples/s]
Tokenizing train (num_proc=12):  81%|██████████████████████████▉      | 35515/43598 [04:35<00:07, 1039.44 examples/s]
Tokenizing train (num_proc=12):  82%|██████████████████████████▉      | 35643/43598 [04:35<00:07, 1029.73 examples/s]
Tokenizing train (num_proc=12):  82%|███████████████████████████      | 35771/43598 [04:35<00:07, 1043.40 examples/s]
Tokenizing train (num_proc=12):  82%|███████████████████████████▏     | 35899/43598 [04:35<00:07, 1003.87 examples/s]
Tokenizing train (num_proc=12):  83%|███████████████████████████▎     | 36027/43598 [04:36<00:07, 1025.62 examples/s]
Tokenizing train (num_proc=12):  83%|███████████████████████████▎     | 36155/43598 [04:36<00:07, 1061.42 examples/s]
Tokenizing train (num_proc=12):  83%|███████████████████████████▍     | 36283/43598 [04:36<00:06, 1067.21 examples/s]
Tokenizing train (num_proc=12):  83%|███████████████████████████▌     | 36332/43598 [04:47<00:06, 1067.21 examples/s]
Tokenizing train (num_proc=12):  84%|█████████████████████████████▎     | 36460/43598 [04:56<05:08, 23.14 examples/s]
Tokenizing train (num_proc=12):  84%|█████████████████████████████▎     | 36588/43598 [04:56<03:40, 31.78 examples/s]
Tokenizing train (num_proc=12):  84%|█████████████████████████████▍     | 36716/43598 [04:56<02:36, 43.91 examples/s]
Tokenizing train (num_proc=12):  85%|█████████████████████████████▌     | 36844/43598 [04:56<01:51, 60.84 examples/s]
Tokenizing train (num_proc=12):  85%|█████████████████████████████▋     | 36972/43598 [04:57<01:18, 84.21 examples/s]
Tokenizing train (num_proc=12):  85%|████████████████████████████▉     | 37100/43598 [04:57<00:56, 115.44 examples/s]
Tokenizing train (num_proc=12):  85%|█████████████████████████████     | 37228/43598 [04:57<00:40, 156.84 examples/s]
Tokenizing train (num_proc=12):  86%|█████████████████████████████▏    | 37356/43598 [04:57<00:29, 209.59 examples/s]
Tokenizing train (num_proc=12):  86%|█████████████████████████████▏    | 37484/43598 [04:57<00:22, 276.87 examples/s]
Tokenizing train (num_proc=12):  86%|█████████████████████████████▎    | 37612/43598 [04:57<00:16, 353.88 examples/s]
Tokenizing train (num_proc=12):  87%|█████████████████████████████▍    | 37740/43598 [04:57<00:13, 443.95 examples/s]
Tokenizing train (num_proc=12):  87%|█████████████████████████████▌    | 37868/43598 [04:57<00:10, 536.84 examples/s]
Tokenizing train (num_proc=12):  87%|█████████████████████████████▋    | 37996/43598 [04:58<00:09, 621.51 examples/s]
Tokenizing train (num_proc=12):  87%|█████████████████████████████▋    | 38124/43598 [04:58<00:07, 714.37 examples/s]
Tokenizing train (num_proc=12):  88%|█████████████████████████████▊    | 38252/43598 [04:58<00:06, 778.72 examples/s]
Tokenizing train (num_proc=12):  88%|█████████████████████████████▉    | 38380/43598 [04:58<00:06, 854.41 examples/s]
Tokenizing train (num_proc=12):  88%|██████████████████████████████    | 38508/43598 [04:58<00:05, 903.85 examples/s]
Tokenizing train (num_proc=12):  89%|██████████████████████████████▏   | 38636/43598 [04:58<00:05, 973.83 examples/s]
Tokenizing train (num_proc=12):  89%|██████████████████████████████▏   | 38764/43598 [04:58<00:04, 989.30 examples/s]
Tokenizing train (num_proc=12):  89%|█████████████████████████████▍   | 38892/43598 [04:58<00:04, 1027.56 examples/s]
Tokenizing train (num_proc=12):  89%|█████████████████████████████▌   | 39020/43598 [04:58<00:04, 1022.96 examples/s]
Tokenizing train (num_proc=12):  90%|█████████████████████████████▋   | 39148/43598 [04:59<00:04, 1043.02 examples/s]
Tokenizing train (num_proc=12):  90%|█████████████████████████████▋   | 39276/43598 [04:59<00:04, 1076.46 examples/s]
Tokenizing train (num_proc=12):  90%|█████████████████████████████▊   | 39404/43598 [04:59<00:03, 1103.11 examples/s]
Tokenizing train (num_proc=12):  91%|█████████████████████████████▉   | 39532/43598 [04:59<00:03, 1097.49 examples/s]
Tokenizing train (num_proc=12):  91%|██████████████████████████████   | 39660/43598 [04:59<00:03, 1063.63 examples/s]
Tokenizing train (num_proc=12):  91%|██████████████████████████████   | 39788/43598 [04:59<00:03, 1118.72 examples/s]
Tokenizing train (num_proc=12):  92%|██████████████████████████████▏  | 39916/43598 [04:59<00:03, 1074.88 examples/s]
Tokenizing train (num_proc=12):  92%|██████████████████████████████▎  | 39965/43598 [05:13<00:03, 1074.88 examples/s]
Tokenizing train (num_proc=12):  92%|████████████████████████████████▏  | 40093/43598 [05:20<02:36, 22.37 examples/s]
Tokenizing train (num_proc=12):  92%|████████████████████████████████▎  | 40221/43598 [05:20<01:49, 30.72 examples/s]
Tokenizing train (num_proc=12):  93%|████████████████████████████████▍  | 40349/43598 [05:21<01:16, 42.43 examples/s]
Tokenizing train (num_proc=12):  93%|████████████████████████████████▍  | 40477/43598 [05:21<00:53, 58.72 examples/s]
Tokenizing train (num_proc=12):  93%|████████████████████████████████▌  | 40605/43598 [05:21<00:36, 81.03 examples/s]
Tokenizing train (num_proc=12):  93%|███████████████████████████████▊  | 40733/43598 [05:21<00:25, 111.63 examples/s]
Tokenizing train (num_proc=12):  94%|███████████████████████████████▊  | 40861/43598 [05:21<00:17, 152.84 examples/s]
Tokenizing train (num_proc=12):  94%|███████████████████████████████▉  | 40989/43598 [05:21<00:12, 204.38 examples/s]
Tokenizing train (num_proc=12):  94%|████████████████████████████████  | 41117/43598 [05:21<00:09, 269.29 examples/s]
Tokenizing train (num_proc=12):  95%|████████████████████████████████▏ | 41245/43598 [05:21<00:06, 341.71 examples/s]
Tokenizing train (num_proc=12):  95%|████████████████████████████████▎ | 41373/43598 [05:21<00:05, 429.94 examples/s]
Tokenizing train (num_proc=12):  95%|████████████████████████████████▎ | 41501/43598 [05:22<00:04, 523.06 examples/s]
Tokenizing train (num_proc=12):  95%|████████████████████████████████▍ | 41629/43598 [05:22<00:03, 622.59 examples/s]
Tokenizing train (num_proc=12):  96%|████████████████████████████████▌ | 41757/43598 [05:22<00:02, 718.48 examples/s]
Tokenizing train (num_proc=12):  96%|████████████████████████████████▋ | 41885/43598 [05:22<00:02, 803.71 examples/s]
Tokenizing train (num_proc=12):  96%|████████████████████████████████▊ | 42013/43598 [05:22<00:01, 865.52 examples/s]
Tokenizing train (num_proc=12):  97%|████████████████████████████████▊ | 42141/43598 [05:22<00:01, 908.31 examples/s]
Tokenizing train (num_proc=12):  97%|████████████████████████████████▉ | 42269/43598 [05:22<00:01, 956.64 examples/s]
Tokenizing train (num_proc=12):  97%|████████████████████████████████ | 42397/43598 [05:22<00:01, 1026.57 examples/s]
Tokenizing train (num_proc=12):  98%|████████████████████████████████▏| 42525/43598 [05:23<00:01, 1036.48 examples/s]
Tokenizing train (num_proc=12):  98%|████████████████████████████████▎| 42653/43598 [05:23<00:00, 1031.30 examples/s]
Tokenizing train (num_proc=12):  98%|████████████████████████████████▍| 42781/43598 [05:23<00:00, 1045.67 examples/s]
Tokenizing train (num_proc=12):  98%|████████████████████████████████▍| 42909/43598 [05:23<00:00, 1080.66 examples/s]
Tokenizing train (num_proc=12):  99%|████████████████████████████████▌| 43037/43598 [05:23<00:00, 1093.14 examples/s]
Tokenizing train (num_proc=12):  99%|████████████████████████████████▊| 43293/43598 [05:23<00:00, 1147.39 examples/s]
Tokenizing train (num_proc=12): 100%|████████████████████████████████▊| 43421/43598 [05:23<00:00, 1120.24 examples/s]
Tokenizing train (num_proc=12): 100%|████████████████████████████████▉| 43549/43598 [05:23<00:00, 1112.68 examples/s]Traceback (most recent call last):
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/process.py", line 314, in _bootstrap
    self.run()
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/process.py", line 108, in run
    self._target(*self._args, **self._kwargs)
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/managers.py", line 600, in _run_server
    server.serve_forever()
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/managers.py", line 184, in serve_forever
    sys.exit(0)
SystemExit: 0

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 300, in _run_finalizers
    finalizer()
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 224, in __call__
    res = self._callback(*self._args, **self._kwargs)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 133, in _remove_temp_dir
    rmtree(tempdir)
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 752, in rmtree
    _rmtree_safe_fd(fd, path, onerror)
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 703, in _rmtree_safe_fd
    onerror(os.unlink, fullname, sys.exc_info())
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 701, in _rmtree_safe_fd
    os.unlink(entry.name, dir_fd=topfd)
OSError: [Errno 16] Device or resource busy: '.nfsf11b8e076c605d0b00004a77'

Tokenizing train (num_proc=12): 100%|██████████████████████████████████| 43598/43598 [05:24<00:00, 134.18 examples/s]
[WARNING|trainer.py:816] 2026-04-17 23:15:28,732 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

Saving the dataset (0/2 shards):   0%|                                              | 0/43598 [00:00<?, ? examples/s]
Saving the dataset (0/2 shards):   9%|██▉                             | 4000/43598 [00:00<00:01, 24844.87 examples/s]
Saving the dataset (0/2 shards):  18%|█████▊                          | 8000/43598 [00:00<00:01, 28619.48 examples/s]
Saving the dataset (0/2 shards):  28%|████████▌                      | 12000/43598 [00:00<00:01, 29601.42 examples/s]
Saving the dataset (0/2 shards):  39%|████████████                   | 17000/43598 [00:00<00:00, 32546.57 examples/s]
Saving the dataset (0/2 shards):  48%|██████████████▉                | 21000/43598 [00:00<00:00, 31410.45 examples/s]
Saving the dataset (1/2 shards):  50%|███████████████▌               | 21799/43598 [00:01<00:00, 31410.45 examples/s]
Saving the dataset (1/2 shards):  59%|██████████████████▎            | 25799/43598 [00:01<00:01, 17442.33 examples/s]
Saving the dataset (1/2 shards):  71%|█████████████████████▉         | 30799/43598 [00:01<00:00, 21505.01 examples/s]
Saving the dataset (1/2 shards):  80%|████████████████████████▋      | 34799/43598 [00:01<00:00, 24138.95 examples/s]
Saving the dataset (1/2 shards):  89%|███████████████████████████▌   | 38799/43598 [00:01<00:00, 26447.90 examples/s]
Saving the dataset (1/2 shards): 100%|███████████████████████████████| 43598/43598 [00:01<00:00, 27802.12 examples/s]
Saving the dataset (2/2 shards): 100%|███████████████████████████████| 43598/43598 [00:02<00:00, 27802.12 examples/s]
Saving the dataset (2/2 shards): 100%|███████████████████████████████| 43598/43598 [00:02<00:00, 20826.88 examples/s]
[WARNING|trainer.py:816] 2026-04-17 23:15:33,479 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

Tokenizing test (num_proc=12):   0%|                                                 | 0/2339 [00:00<?, ? examples/s]
Tokenizing test (num_proc=12):   5%|██▏                                    | 128/2339 [00:41<12:00,  3.07 examples/s]
Tokenizing test (num_proc=12):  14%|█████▍                                 | 323/2339 [01:14<07:19,  4.59 examples/s]
Tokenizing test (num_proc=12):  22%|████████▋                              | 518/2339 [01:48<05:57,  5.10 examples/s]
Tokenizing test (num_proc=12):  30%|███████████▉                           | 713/2339 [02:21<05:00,  5.41 examples/s]
Tokenizing test (num_proc=12):  33%|█████████████                          | 780/2339 [02:21<03:59,  6.50 examples/s]
Tokenizing test (num_proc=12):  33%|█████████████                          | 780/2339 [02:38<03:59,  6.50 examples/s]
Tokenizing test (num_proc=12):  39%|███████████████▏                       | 908/2339 [02:54<04:26,  5.37 examples/s]
Tokenizing test (num_proc=12):  47%|█████████████████▉                    | 1103/2339 [03:28<03:43,  5.52 examples/s]
Tokenizing test (num_proc=12):  50%|███████████████████                   | 1170/2339 [03:28<02:56,  6.62 examples/s]
Tokenizing test (num_proc=12):  50%|███████████████████                   | 1170/2339 [03:38<02:56,  6.62 examples/s]
Tokenizing test (num_proc=12):  55%|█████████████████████                 | 1298/2339 [04:02<03:15,  5.34 examples/s]
Tokenizing test (num_proc=12):  64%|████████████████████████▎             | 1493/2339 [04:35<02:33,  5.52 examples/s]
Tokenizing test (num_proc=12):  67%|█████████████████████████▎            | 1560/2339 [04:36<01:57,  6.61 examples/s]
Tokenizing test (num_proc=12):  67%|█████████████████████████▎            | 1560/2339 [04:48<01:57,  6.61 examples/s]
Tokenizing test (num_proc=12):  72%|███████████████████████████▍          | 1688/2339 [05:09<02:00,  5.39 examples/s]
Tokenizing test (num_proc=12):  81%|██████████████████████████████▌       | 1883/2339 [05:44<01:23,  5.48 examples/s]
Tokenizing test (num_proc=12):  89%|█████████████████████████████████▊    | 2078/2339 [06:17<00:46,  5.59 examples/s]
Tokenizing test (num_proc=12):  97%|████████████████████████████████████▉ | 2273/2339 [06:52<00:11,  5.63 examples/s]Traceback (most recent call last):
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/process.py", line 314, in _bootstrap
    self.run()
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/process.py", line 108, in run
    self._target(*self._args, **self._kwargs)
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/managers.py", line 600, in _run_server
    server.serve_forever()
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/managers.py", line 184, in serve_forever
    sys.exit(0)
SystemExit: 0

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 300, in _run_finalizers
    finalizer()
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 224, in __call__
    res = self._callback(*self._args, **self._kwargs)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/multiprocess/util.py", line 133, in _remove_temp_dir
    rmtree(tempdir)
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 752, in rmtree
    _rmtree_safe_fd(fd, path, onerror)
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 703, in _rmtree_safe_fd
    onerror(os.unlink, fullname, sys.exc_info())
  File "/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/shutil.py", line 701, in _rmtree_safe_fd
    os.unlink(entry.name, dir_fd=topfd)
OSError: [Errno 16] Device or resource busy: '.nfsbe3c7026e5ff91b100004a78'

Tokenizing test (num_proc=12): 100%|██████████████████████████████████████| 2339/2339 [06:52<00:00,  5.67 examples/s]
[WARNING|trainer.py:816] 2026-04-17 23:23:12,662 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

Saving the dataset (0/1 shards):   0%|                                               | 0/2339 [00:00<?, ? examples/s]
Saving the dataset (1/1 shards): 100%|█████████████████████████████████| 2339/2339 [00:00<00:00, 15509.95 examples/s]
Saving the dataset (1/1 shards): 100%|█████████████████████████████████| 2339/2339 [00:00<00:00, 15488.82 examples/s]
/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
[WARNING|trainer.py:816] 2026-04-17 23:23:14,281 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,282 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,282 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,475 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,475 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,475 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,475 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,476 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,476 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,501 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,501 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-17 23:23:14,501 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
/home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
[INFO|trainer.py:748] 2026-04-17 23:23:14,673 >> Using auto half precision backend
/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in LlamaForCausalLM because mixed precision turned on in FSDP. Affects: model.embed_tokens.weight, model.norm.weight, lm_head.weight.
  warnings.warn(
/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in LlamaDecoderLayer because mixed precision turned on in FSDP. Affects: self_attn.q_proj.weight, self_attn.k_proj.weight, self_attn.v_proj.weight, self_attn.o_proj.weight, mlp.gate_proj.weight, mlp.up_proj.weight, mlp.down_proj.weight, input_layernorm.weight, post_attention_layernorm.weight.
  warnings.warn(
/home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/accelerate/accelerator.py:1563: UserWarning: FSDP upcast of low precision parameters may affect the precision of model checkpoints.
  warnings.warn(
[INFO|trainer.py:2414] 2026-04-17 23:23:23,819 >> ***** Running training *****
[INFO|trainer.py:2415] 2026-04-17 23:23:23,819 >>   Num examples = 43,598
[INFO|trainer.py:2416] 2026-04-17 23:23:23,819 >>   Num Epochs = 1
[INFO|trainer.py:2417] 2026-04-17 23:23:23,819 >>   Instantaneous batch size per device = 8
[INFO|trainer.py:2420] 2026-04-17 23:23:23,819 >>   Total train batch size (w. parallel, distributed & accumulation) = 64
[INFO|trainer.py:2421] 2026-04-17 23:23:23,819 >>   Gradient Accumulation steps = 2
[INFO|trainer.py:2422] 2026-04-17 23:23:23,819 >>   Total optimization steps = 681
[INFO|trainer.py:2423] 2026-04-17 23:23:23,820 >>   Number of trainable parameters = 2,007,565,312
[INFO|integration_utils.py:831] 2026-04-17 23:23:23,821 >> Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
wandb: Currently logged in as: can-not-fand (can-not-fand-northeastern-university). Use `wandb login --relogin` to force relogin
wandb: wandb version 0.26.0 is available!  To upgrade, please run:
wandb:  $ pip install wandb --upgrade
wandb: Tracking run with wandb version 0.17.5
wandb: Run data is saved locally in /scratch/feng.yulu/dynamic-dpo-v4/wandb/wandb/run-20260417_232327-zg7hpnnu
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753
wandb: ⭐️ View project at https://wandb.ai/can-not-fand-northeastern-university/ood-run-4xh200
wandb: 🚀 View run at https://wandb.ai/can-not-fand-northeastern-university/ood-run-4xh200/runs/zg7hpnnu

  0%|                                                                                        | 0/681 [00:00<?, ?it/s][WARNING|modeling_utils.py:1713] 2026-04-17 23:23:33,563 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
[WARNING|modeling_utils.py:1713] 2026-04-17 23:23:33,571 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
[WARNING|modeling_utils.py:1713] 2026-04-17 23:23:33,579 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
[WARNING|modeling_utils.py:1713] 2026-04-17 23:23:33,587 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed

  0%|                                                                                | 1/681 [00:02<30:46,  2.72s/it]
                                                                                                                     
{'loss': 1.3849, 'grad_norm': 83.69244384765625, 'learning_rate': 0.0, 'beta_dpo/gap_mean': -0.004527175799012184, 'beta_dpo/gap_std': 0.06229356676340103, 'beta_dpo/beta_used_raw': 0.10115084052085876, 'beta_dpo/beta_used': 0.10115084052085876, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4974287748336792, 'logits/rejected': -0.43299180269241333, 'beta_dpo/beta': 0.10115084052085876, 'beta_dpo/loss_margin_mean': -0.02287048101425171, 'beta_dpo/beta_margin_mean': -0.002253394341096282, 'beta_dpo/beta_margin_std': 0.042461980134248734, 'beta_dpo/beta_margin_grad_mean': -0.5005621910095215, 'beta_dpo/beta_margin_grad_std': 0.010608955286443233, 'epoch': 0.0}

  0%|                                                                                | 1/681 [00:02<30:46,  2.72s/it]
  0%|▏                                                                               | 2/681 [00:05<32:04,  2.83s/it]
                                                                                                                     
{'loss': 1.389, 'grad_norm': 72.02227783203125, 'learning_rate': 7.246376811594203e-09, 'beta_dpo/gap_mean': -0.0141224917024374, 'beta_dpo/gap_std': 0.1194789782166481, 'beta_dpo/beta_used_raw': 0.09928660839796066, 'beta_dpo/beta_used': 0.09928660839796066, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4953641891479492, 'logits/rejected': -0.4594460129737854, 'beta_dpo/beta': 0.09928660839796066, 'beta_dpo/loss_margin_mean': -0.06572240591049194, 'beta_dpo/beta_margin_mean': -0.006530125625431538, 'beta_dpo/beta_margin_std': 0.034978773444890976, 'beta_dpo/beta_margin_grad_mean': -0.501632034778595, 'beta_dpo/beta_margin_grad_std': 0.008741416968405247, 'epoch': 0.0}

  0%|▏                                                                               | 2/681 [00:05<32:04,  2.83s/it]
  0%|▎                                                                               | 3/681 [00:08<31:45,  2.81s/it]
                                                                                                                     
{'loss': 1.389, 'grad_norm': 67.19432067871094, 'learning_rate': 1.4492753623188406e-08, 'beta_dpo/gap_mean': -0.006174812093377113, 'beta_dpo/gap_std': 0.16936704516410828, 'beta_dpo/beta_used_raw': 0.09881577640771866, 'beta_dpo/beta_used': 0.09881577640771866, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48158758878707886, 'logits/rejected': -0.4422696828842163, 'beta_dpo/beta': 0.09881577640771866, 'beta_dpo/loss_margin_mean': 0.04976421594619751, 'beta_dpo/beta_margin_mean': 0.00491556478664279, 'beta_dpo/beta_margin_std': 0.03592138737440109, 'beta_dpo/beta_margin_grad_mean': -0.49877238273620605, 'beta_dpo/beta_margin_grad_std': 0.008976051583886147, 'epoch': 0.0}

  0%|▎                                                                               | 3/681 [00:08<31:45,  2.81s/it]
  1%|▍                                                                               | 4/681 [00:11<31:56,  2.83s/it]
                                                                                                                     
{'loss': 1.3977, 'grad_norm': 67.43733215332031, 'learning_rate': 2.1739130434782606e-08, 'beta_dpo/gap_mean': -0.00973600521683693, 'beta_dpo/gap_std': 0.2109805941581726, 'beta_dpo/beta_used_raw': 0.09335151314735413, 'beta_dpo/beta_used': 0.09335151314735413, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45274418592453003, 'logits/rejected': -0.42465052008628845, 'beta_dpo/beta': 0.09335151314735413, 'beta_dpo/loss_margin_mean': -0.04590195417404175, 'beta_dpo/beta_margin_mean': -0.004296026658266783, 'beta_dpo/beta_margin_std': 0.03754071146249771, 'beta_dpo/beta_margin_grad_mean': -0.5010735988616943, 'beta_dpo/beta_margin_grad_std': 0.009380017407238483, 'epoch': 0.01}

  1%|▍                                                                               | 4/681 [00:11<31:56,  2.83s/it]
  1%|▌                                                                               | 5/681 [00:14<31:55,  2.83s/it]
                                                                                                                     
{'loss': 1.3858, 'grad_norm': 87.71318817138672, 'learning_rate': 2.898550724637681e-08, 'beta_dpo/gap_mean': -0.0020640306174755096, 'beta_dpo/gap_std': 0.2421741932630539, 'beta_dpo/beta_used_raw': 0.10049673914909363, 'beta_dpo/beta_used': 0.10049673914909363, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4956454932689667, 'logits/rejected': -0.4505915641784668, 'beta_dpo/beta': 0.10049673914909363, 'beta_dpo/loss_margin_mean': 0.05585688352584839, 'beta_dpo/beta_margin_mean': 0.005582462064921856, 'beta_dpo/beta_margin_std': 0.03796974569559097, 'beta_dpo/beta_margin_grad_mean': -0.4986048936843872, 'beta_dpo/beta_margin_grad_std': 0.009488900192081928, 'epoch': 0.01}

  1%|▌                                                                               | 5/681 [00:14<31:55,  2.83s/it]
  1%|▋                                                                               | 6/681 [00:16<30:26,  2.71s/it]
                                                                                                                     
{'loss': 1.3854, 'grad_norm': 90.84674072265625, 'learning_rate': 3.6231884057971014e-08, 'beta_dpo/gap_mean': 0.0017710481770336628, 'beta_dpo/gap_std': 0.2680016756057739, 'beta_dpo/beta_used_raw': 0.10047884285449982, 'beta_dpo/beta_used': 0.10047884285449982, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5020167827606201, 'logits/rejected': -0.4594297409057617, 'beta_dpo/beta': 0.10047884285449982, 'beta_dpo/loss_margin_mean': -0.007976382970809937, 'beta_dpo/beta_margin_mean': -0.0008351176511496305, 'beta_dpo/beta_margin_std': 0.03574404865503311, 'beta_dpo/beta_margin_grad_mean': -0.500208854675293, 'beta_dpo/beta_margin_grad_std': 0.008933261968195438, 'epoch': 0.01}

  1%|▋                                                                               | 6/681 [00:16<30:26,  2.71s/it]
  1%|▊                                                                               | 7/681 [00:19<29:57,  2.67s/it]
                                                                                                                     
{'loss': 1.3865, 'grad_norm': 83.6563491821289, 'learning_rate': 4.347826086956521e-08, 'beta_dpo/gap_mean': 6.500491872429848e-05, 'beta_dpo/gap_std': 0.2939686179161072, 'beta_dpo/beta_used_raw': 0.09998422861099243, 'beta_dpo/beta_used': 0.09998422861099243, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5061265826225281, 'logits/rejected': -0.4723086953163147, 'beta_dpo/beta': 0.09998422861099243, 'beta_dpo/loss_margin_mean': -0.009219467639923096, 'beta_dpo/beta_margin_mean': -0.0009349790052510798, 'beta_dpo/beta_margin_std': 0.04061206057667732, 'beta_dpo/beta_margin_grad_mean': -0.5002336502075195, 'beta_dpo/beta_margin_grad_std': 0.01014900952577591, 'epoch': 0.01}

  1%|▊                                                                               | 7/681 [00:19<29:57,  2.67s/it]
  1%|▉                                                                               | 8/681 [00:21<29:27,  2.63s/it]
                                                                                                                     
{'loss': 1.3836, 'grad_norm': 77.50525665283203, 'learning_rate': 5.0724637681159424e-08, 'beta_dpo/gap_mean': -0.009944056160748005, 'beta_dpo/gap_std': 0.3154027462005615, 'beta_dpo/beta_used_raw': 0.1022939383983612, 'beta_dpo/beta_used': 0.1022939383983612, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5334175825119019, 'logits/rejected': -0.510188102722168, 'beta_dpo/beta': 0.1022939383983612, 'beta_dpo/loss_margin_mean': -0.061917901039123535, 'beta_dpo/beta_margin_mean': -0.006352751050144434, 'beta_dpo/beta_margin_std': 0.042014747858047485, 'beta_dpo/beta_margin_grad_mean': -0.5015852451324463, 'beta_dpo/beta_margin_grad_std': 0.010492443107068539, 'epoch': 0.01}

  1%|▉                                                                               | 8/681 [00:21<29:27,  2.63s/it]
  1%|█                                                                               | 9/681 [00:24<29:49,  2.66s/it]
                                                                                                                     
{'loss': 1.3895, 'grad_norm': 77.50155639648438, 'learning_rate': 5.797101449275362e-08, 'beta_dpo/gap_mean': -0.005505750421434641, 'beta_dpo/gap_std': 0.34114253520965576, 'beta_dpo/beta_used_raw': 0.09855471551418304, 'beta_dpo/beta_used': 0.09855471551418304, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.523200511932373, 'logits/rejected': -0.478301465511322, 'beta_dpo/beta': 0.09855471551418304, 'beta_dpo/loss_margin_mean': 0.02003002166748047, 'beta_dpo/beta_margin_mean': 0.00194238789845258, 'beta_dpo/beta_margin_std': 0.04742159694433212, 'beta_dpo/beta_margin_grad_mean': -0.49951478838920593, 'beta_dpo/beta_margin_grad_std': 0.011848426423966885, 'epoch': 0.01}

  1%|█                                                                               | 9/681 [00:24<29:49,  2.66s/it]
  1%|█▏                                                                             | 10/681 [00:27<30:14,  2.70s/it]
                                                                                                                     
{'loss': 1.3878, 'grad_norm': 72.39192962646484, 'learning_rate': 6.521739130434782e-08, 'beta_dpo/gap_mean': -0.010290170088410378, 'beta_dpo/gap_std': 0.3536257743835449, 'beta_dpo/beta_used_raw': 0.0998501181602478, 'beta_dpo/beta_used': 0.0998501181602478, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.518991231918335, 'logits/rejected': -0.4768357276916504, 'beta_dpo/beta': 0.0998501181602478, 'beta_dpo/loss_margin_mean': -0.021320700645446777, 'beta_dpo/beta_margin_mean': -0.002129613421857357, 'beta_dpo/beta_margin_std': 0.04054965451359749, 'beta_dpo/beta_margin_grad_mean': -0.5005317330360413, 'beta_dpo/beta_margin_grad_std': 0.010131197981536388, 'epoch': 0.01}

  1%|█▏                                                                             | 10/681 [00:27<30:14,  2.70s/it]
  2%|█▎                                                                             | 11/681 [00:30<30:46,  2.76s/it]
                                                                                                                     
{'loss': 1.3833, 'grad_norm': 66.96553802490234, 'learning_rate': 7.246376811594203e-08, 'beta_dpo/gap_mean': -0.004253363702446222, 'beta_dpo/gap_std': 0.35756930708885193, 'beta_dpo/beta_used_raw': 0.10206712037324905, 'beta_dpo/beta_used': 0.10206712037324905, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4826526641845703, 'logits/rejected': -0.4586416780948639, 'beta_dpo/beta': 0.10206712037324905, 'beta_dpo/loss_margin_mean': 0.03583630919456482, 'beta_dpo/beta_margin_mean': 0.003652524435892701, 'beta_dpo/beta_margin_std': 0.03466520085930824, 'beta_dpo/beta_margin_grad_mean': -0.49908754229545593, 'beta_dpo/beta_margin_grad_std': 0.008663208223879337, 'epoch': 0.02}

  2%|█▎                                                                             | 11/681 [00:30<30:46,  2.76s/it]
  2%|█▍                                                                             | 12/681 [00:32<30:23,  2.73s/it]
                                                                                                                     
{'loss': 1.392, 'grad_norm': 83.22624206542969, 'learning_rate': 7.971014492753623e-08, 'beta_dpo/gap_mean': -0.00683976337313652, 'beta_dpo/gap_std': 0.3720043897628784, 'beta_dpo/beta_used_raw': 0.09693565964698792, 'beta_dpo/beta_used': 0.09693565964698792, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.547247052192688, 'logits/rejected': -0.5113379955291748, 'beta_dpo/beta': 0.09693565964698792, 'beta_dpo/loss_margin_mean': -0.017470553517341614, 'beta_dpo/beta_margin_mean': -0.0017924468265846372, 'beta_dpo/beta_margin_std': 0.042050570249557495, 'beta_dpo/beta_margin_grad_mean': -0.500446617603302, 'beta_dpo/beta_margin_grad_std': 0.01050448976457119, 'epoch': 0.02}

  2%|█▍                                                                             | 12/681 [00:32<30:23,  2.73s/it]
  2%|█▌                                                                             | 13/681 [00:35<30:47,  2.77s/it]
                                                                                                                     
{'loss': 1.3897, 'grad_norm': 82.04718017578125, 'learning_rate': 8.695652173913042e-08, 'beta_dpo/gap_mean': -0.006056391168385744, 'beta_dpo/gap_std': 0.3698127865791321, 'beta_dpo/beta_used_raw': 0.09837324917316437, 'beta_dpo/beta_used': 0.09837324917316437, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4824892282485962, 'logits/rejected': -0.45439815521240234, 'beta_dpo/beta': 0.09837324917316437, 'beta_dpo/loss_margin_mean': 0.002656310796737671, 'beta_dpo/beta_margin_mean': 0.00025006092619150877, 'beta_dpo/beta_margin_std': 0.03974674642086029, 'beta_dpo/beta_margin_grad_mean': -0.4999392330646515, 'beta_dpo/beta_margin_grad_std': 0.00992752518504858, 'epoch': 0.02}

  2%|█▌                                                                             | 13/681 [00:35<30:47,  2.77s/it]
  2%|█▌                                                                             | 14/681 [00:38<30:15,  2.72s/it]
                                                                                                                     
{'loss': 1.3877, 'grad_norm': 89.19822692871094, 'learning_rate': 9.420289855072464e-08, 'beta_dpo/gap_mean': -0.0021513975225389004, 'beta_dpo/gap_std': 0.37402260303497314, 'beta_dpo/beta_used_raw': 0.09926562756299973, 'beta_dpo/beta_used': 0.09926562756299973, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47684037685394287, 'logits/rejected': -0.437483549118042, 'beta_dpo/beta': 0.09926562756299973, 'beta_dpo/loss_margin_mean': -0.01792725920677185, 'beta_dpo/beta_margin_mean': -0.001605634461157024, 'beta_dpo/beta_margin_std': 0.03615177050232887, 'beta_dpo/beta_margin_grad_mean': -0.5004010200500488, 'beta_dpo/beta_margin_grad_std': 0.009033882059156895, 'epoch': 0.02}

  2%|█▌                                                                             | 14/681 [00:38<30:15,  2.72s/it]
  2%|█▋                                                                             | 15/681 [00:40<30:06,  2.71s/it]
                                                                                                                     
{'loss': 1.3806, 'grad_norm': 72.2989501953125, 'learning_rate': 1.0144927536231885e-07, 'beta_dpo/gap_mean': 0.0069586304016411304, 'beta_dpo/gap_std': 0.3670150637626648, 'beta_dpo/beta_used_raw': 0.1028667539358139, 'beta_dpo/beta_used': 0.1028667539358139, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4976166784763336, 'logits/rejected': -0.47907328605651855, 'beta_dpo/beta': 0.1028667539358139, 'beta_dpo/loss_margin_mean': 0.05616268515586853, 'beta_dpo/beta_margin_mean': 0.006086469162255526, 'beta_dpo/beta_margin_std': 0.03645266592502594, 'beta_dpo/beta_margin_grad_mean': -0.49847865104675293, 'beta_dpo/beta_margin_grad_std': 0.009109060280025005, 'epoch': 0.02}

  2%|█▋                                                                             | 15/681 [00:40<30:06,  2.71s/it]
  2%|█▊                                                                             | 16/681 [00:43<29:40,  2.68s/it]
                                                                                                                     
{'loss': 1.3833, 'grad_norm': 85.27164459228516, 'learning_rate': 1.0869565217391303e-07, 'beta_dpo/gap_mean': 0.01056666485965252, 'beta_dpo/gap_std': 0.369087815284729, 'beta_dpo/beta_used_raw': 0.10129574686288834, 'beta_dpo/beta_used': 0.10129574686288834, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5442918539047241, 'logits/rejected': -0.5051777362823486, 'beta_dpo/beta': 0.10129574686288834, 'beta_dpo/loss_margin_mean': 0.04578801989555359, 'beta_dpo/beta_margin_mean': 0.004635946359485388, 'beta_dpo/beta_margin_std': 0.03721487522125244, 'beta_dpo/beta_margin_grad_mean': -0.4988415837287903, 'beta_dpo/beta_margin_grad_std': 0.009300184436142445, 'epoch': 0.02}

  2%|█▊                                                                             | 16/681 [00:43<29:40,  2.68s/it]
  2%|█▉                                                                             | 17/681 [00:46<29:22,  2.65s/it]
                                                                                                                     
{'loss': 1.3755, 'grad_norm': 80.40909576416016, 'learning_rate': 1.1594202898550725e-07, 'beta_dpo/gap_mean': 0.023403100669384003, 'beta_dpo/gap_std': 0.37113308906555176, 'beta_dpo/beta_used_raw': 0.10490189492702484, 'beta_dpo/beta_used': 0.10490189492702484, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4828060269355774, 'logits/rejected': -0.44346535205841064, 'beta_dpo/beta': 0.10490189492702484, 'beta_dpo/loss_margin_mean': 0.10013490915298462, 'beta_dpo/beta_margin_mean': 0.010502819903194904, 'beta_dpo/beta_margin_std': 0.039345428347587585, 'beta_dpo/beta_margin_grad_mean': -0.4973750412464142, 'beta_dpo/beta_margin_grad_std': 0.009830176830291748, 'epoch': 0.02}

  2%|█▉                                                                             | 17/681 [00:46<29:22,  2.65s/it]
  3%|██                                                                             | 18/681 [00:48<28:59,  2.62s/it]
                                                                                                                     
{'loss': 1.3833, 'grad_norm': 82.2762680053711, 'learning_rate': 1.2318840579710146e-07, 'beta_dpo/gap_mean': 0.029124243184924126, 'beta_dpo/gap_std': 0.3635770082473755, 'beta_dpo/beta_used_raw': 0.1001388430595398, 'beta_dpo/beta_used': 0.1001388430595398, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5221867561340332, 'logits/rejected': -0.4699585437774658, 'beta_dpo/beta': 0.1001388430595398, 'beta_dpo/loss_margin_mean': 0.03153112530708313, 'beta_dpo/beta_margin_mean': 0.00319434585981071, 'beta_dpo/beta_margin_std': 0.03238019719719887, 'beta_dpo/beta_margin_grad_mean': -0.4992016553878784, 'beta_dpo/beta_margin_grad_std': 0.008092939853668213, 'epoch': 0.03}

  3%|██                                                                             | 18/681 [00:48<28:59,  2.62s/it]
  3%|██▏                                                                            | 19/681 [00:51<28:54,  2.62s/it]
                                                                                                                     
{'loss': 1.3788, 'grad_norm': 67.32933807373047, 'learning_rate': 1.3043478260869563e-07, 'beta_dpo/gap_mean': 0.03644995018839836, 'beta_dpo/gap_std': 0.36511197686195374, 'beta_dpo/beta_used_raw': 0.10230091959238052, 'beta_dpo/beta_used': 0.10230091959238052, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49089670181274414, 'logits/rejected': -0.4410245716571808, 'beta_dpo/beta': 0.10230091959238052, 'beta_dpo/loss_margin_mean': 0.09297522902488708, 'beta_dpo/beta_margin_mean': 0.009549921378493309, 'beta_dpo/beta_margin_std': 0.03987620025873184, 'beta_dpo/beta_margin_grad_mean': -0.4976135194301605, 'beta_dpo/beta_margin_grad_std': 0.009962659329175949, 'epoch': 0.03}

  3%|██▏                                                                            | 19/681 [00:51<28:54,  2.62s/it]
  3%|██▎                                                                            | 20/681 [00:53<28:51,  2.62s/it]
                                                                                                                     
{'loss': 1.3796, 'grad_norm': 77.79698944091797, 'learning_rate': 1.3768115942028986e-07, 'beta_dpo/gap_mean': 0.04330967366695404, 'beta_dpo/gap_std': 0.36020204424858093, 'beta_dpo/beta_used_raw': 0.10144417732954025, 'beta_dpo/beta_used': 0.10144417732954025, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5257374048233032, 'logits/rejected': -0.4667814075946808, 'beta_dpo/beta': 0.10144417732954025, 'beta_dpo/loss_margin_mean': 0.0418030321598053, 'beta_dpo/beta_margin_mean': 0.0042366455309093, 'beta_dpo/beta_margin_std': 0.031295765191316605, 'beta_dpo/beta_margin_grad_mean': -0.49894100427627563, 'beta_dpo/beta_margin_grad_std': 0.007821588777005672, 'epoch': 0.03}

  3%|██▎                                                                            | 20/681 [00:53<28:51,  2.62s/it]
  3%|██▍                                                                            | 21/681 [00:56<28:36,  2.60s/it]
                                                                                                                     
{'loss': 1.3762, 'grad_norm': 84.59689331054688, 'learning_rate': 1.4492753623188405e-07, 'beta_dpo/gap_mean': 0.052578218281269073, 'beta_dpo/gap_std': 0.3585847020149231, 'beta_dpo/beta_used_raw': 0.10282687842845917, 'beta_dpo/beta_used': 0.10282687842845917, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5015609860420227, 'logits/rejected': -0.4782274663448334, 'beta_dpo/beta': 0.10282687842845917, 'beta_dpo/loss_margin_mean': 0.1178915798664093, 'beta_dpo/beta_margin_mean': 0.012177429161965847, 'beta_dpo/beta_margin_std': 0.04252319782972336, 'beta_dpo/beta_margin_grad_mean': -0.49695706367492676, 'beta_dpo/beta_margin_grad_std': 0.010617760010063648, 'epoch': 0.03}

  3%|██▍                                                                            | 21/681 [00:56<28:36,  2.60s/it]
  3%|██▌                                                                            | 22/681 [00:59<28:59,  2.64s/it]
                                                                                                                     
{'loss': 1.375, 'grad_norm': 82.02935028076172, 'learning_rate': 1.5217391304347825e-07, 'beta_dpo/gap_mean': 0.07795767486095428, 'beta_dpo/gap_std': 0.37775668501853943, 'beta_dpo/beta_used_raw': 0.1021641194820404, 'beta_dpo/beta_used': 0.1021641194820404, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5076688528060913, 'logits/rejected': -0.46508467197418213, 'beta_dpo/beta': 0.1021641194820404, 'beta_dpo/loss_margin_mean': 0.2064528465270996, 'beta_dpo/beta_margin_mean': 0.021053766831755638, 'beta_dpo/beta_margin_std': 0.04432320222258568, 'beta_dpo/beta_margin_grad_mean': -0.494739294052124, 'beta_dpo/beta_margin_grad_std': 0.011074875481426716, 'epoch': 0.03}

  3%|██▌                                                                            | 22/681 [00:59<28:59,  2.64s/it]
  3%|██▋                                                                            | 23/681 [01:02<30:07,  2.75s/it]
                                                                                                                     
{'loss': 1.3708, 'grad_norm': 76.44645690917969, 'learning_rate': 1.5942028985507245e-07, 'beta_dpo/gap_mean': 0.10390491783618927, 'beta_dpo/gap_std': 0.3772027790546417, 'beta_dpo/beta_used_raw': 0.10281073302030563, 'beta_dpo/beta_used': 0.10281073302030563, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5184653997421265, 'logits/rejected': -0.4976601004600525, 'beta_dpo/beta': 0.10281073302030563, 'beta_dpo/loss_margin_mean': 0.2033129334449768, 'beta_dpo/beta_margin_mean': 0.02100636623799801, 'beta_dpo/beta_margin_std': 0.03903375566005707, 'beta_dpo/beta_margin_grad_mean': -0.4947512447834015, 'beta_dpo/beta_margin_grad_std': 0.009751598350703716, 'epoch': 0.03}

  3%|██▋                                                                            | 23/681 [01:02<30:07,  2.75s/it]
  4%|██▊                                                                            | 24/681 [01:04<29:58,  2.74s/it]
                                                                                                                     
{'loss': 1.3656, 'grad_norm': 94.25565338134766, 'learning_rate': 1.6666666666666665e-07, 'beta_dpo/gap_mean': 0.12391284108161926, 'beta_dpo/gap_std': 0.37767690420150757, 'beta_dpo/beta_used_raw': 0.10454396903514862, 'beta_dpo/beta_used': 0.10454396903514862, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5424538254737854, 'logits/rejected': -0.5254075527191162, 'beta_dpo/beta': 0.10454396903514862, 'beta_dpo/loss_margin_mean': 0.2502744197845459, 'beta_dpo/beta_margin_mean': 0.026394186541438103, 'beta_dpo/beta_margin_std': 0.04219713807106018, 'beta_dpo/beta_margin_grad_mean': -0.4934062063694, 'beta_dpo/beta_margin_grad_std': 0.010538320057094097, 'epoch': 0.04}

  4%|██▊                                                                            | 24/681 [01:04<29:58,  2.74s/it]
  4%|██▉                                                                            | 25/681 [01:07<30:00,  2.74s/it]
                                                                                                                     
{'loss': 1.37, 'grad_norm': 75.07634735107422, 'learning_rate': 1.7391304347826085e-07, 'beta_dpo/gap_mean': 0.14912059903144836, 'beta_dpo/gap_std': 0.3832852840423584, 'beta_dpo/beta_used_raw': 0.100839763879776, 'beta_dpo/beta_used': 0.100839763879776, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4918757677078247, 'logits/rejected': -0.46183332800865173, 'beta_dpo/beta': 0.100839763879776, 'beta_dpo/loss_margin_mean': 0.22906917333602905, 'beta_dpo/beta_margin_mean': 0.02309180237352848, 'beta_dpo/beta_margin_std': 0.03954963758587837, 'beta_dpo/beta_margin_grad_mean': -0.4942309856414795, 'beta_dpo/beta_margin_grad_std': 0.009877659380435944, 'epoch': 0.04}

  4%|██▉                                                                            | 25/681 [01:07<30:00,  2.74s/it]
  4%|███                                                                            | 26/681 [01:10<28:35,  2.62s/it]
                                                                                                                     
{'loss': 1.3654, 'grad_norm': 78.68896484375, 'learning_rate': 1.8115942028985507e-07, 'beta_dpo/gap_mean': 0.1847640573978424, 'beta_dpo/gap_std': 0.4011450409889221, 'beta_dpo/beta_used_raw': 0.10145638883113861, 'beta_dpo/beta_used': 0.10145638883113861, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5504664182662964, 'logits/rejected': -0.5192441344261169, 'beta_dpo/beta': 0.10145638883113861, 'beta_dpo/loss_margin_mean': 0.3683029115200043, 'beta_dpo/beta_margin_mean': 0.037368275225162506, 'beta_dpo/beta_margin_std': 0.050109487026929855, 'beta_dpo/beta_margin_grad_mean': -0.4906671941280365, 'beta_dpo/beta_margin_grad_std': 0.012507390230894089, 'epoch': 0.04}

  4%|███                                                                            | 26/681 [01:10<28:35,  2.62s/it]
  4%|███▏                                                                           | 27/681 [01:12<28:12,  2.59s/it]
                                                                                                                     
{'loss': 1.3563, 'grad_norm': 87.7347183227539, 'learning_rate': 1.8840579710144927e-07, 'beta_dpo/gap_mean': 0.23974978923797607, 'beta_dpo/gap_std': 0.42792779207229614, 'beta_dpo/beta_used_raw': 0.10302956402301788, 'beta_dpo/beta_used': 0.10302956402301788, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5187373161315918, 'logits/rejected': -0.4824272394180298, 'beta_dpo/beta': 0.10302956402301788, 'beta_dpo/loss_margin_mean': 0.47268885374069214, 'beta_dpo/beta_margin_mean': 0.049370817840099335, 'beta_dpo/beta_margin_std': 0.057142678648233414, 'beta_dpo/beta_margin_grad_mean': -0.4876747727394104, 'beta_dpo/beta_margin_grad_std': 0.01424187608063221, 'epoch': 0.04}

  4%|███▏                                                                           | 27/681 [01:12<28:12,  2.59s/it]
  4%|███▏                                                                           | 28/681 [01:15<28:22,  2.61s/it]
                                                                                                                     
{'loss': 1.3579, 'grad_norm': 75.64714050292969, 'learning_rate': 1.9565217391304347e-07, 'beta_dpo/gap_mean': 0.2491932511329651, 'beta_dpo/gap_std': 0.4498485326766968, 'beta_dpo/beta_used_raw': 0.102115698158741, 'beta_dpo/beta_used': 0.102115698158741, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5084043741226196, 'logits/rejected': -0.4534956216812134, 'beta_dpo/beta': 0.102115698158741, 'beta_dpo/loss_margin_mean': 0.295854777097702, 'beta_dpo/beta_margin_mean': 0.03022361919283867, 'beta_dpo/beta_margin_std': 0.056595128029584885, 'beta_dpo/beta_margin_grad_mean': -0.49245062470436096, 'beta_dpo/beta_margin_grad_std': 0.014135321602225304, 'epoch': 0.04}

  4%|███▏                                                                           | 28/681 [01:15<28:22,  2.61s/it]
  4%|███▎                                                                           | 29/681 [01:17<27:12,  2.50s/it]
                                                                                                                     
{'loss': 1.346, 'grad_norm': 94.25686645507812, 'learning_rate': 2.028985507246377e-07, 'beta_dpo/gap_mean': 0.29277026653289795, 'beta_dpo/gap_std': 0.47807806730270386, 'beta_dpo/beta_used_raw': 0.10585251450538635, 'beta_dpo/beta_used': 0.10585251450538635, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5720121264457703, 'logits/rejected': -0.5272256731987, 'beta_dpo/beta': 0.10585251450538635, 'beta_dpo/loss_margin_mean': 0.4953559637069702, 'beta_dpo/beta_margin_mean': 0.05249761790037155, 'beta_dpo/beta_margin_std': 0.062127504497766495, 'beta_dpo/beta_margin_grad_mean': -0.4868943691253662, 'beta_dpo/beta_margin_grad_std': 0.015499315224587917, 'epoch': 0.04}

  4%|███▎                                                                           | 29/681 [01:17<27:12,  2.50s/it]
  4%|███▍                                                                           | 30/681 [01:20<28:05,  2.59s/it]
                                                                                                                     
{'loss': 1.3372, 'grad_norm': 91.32884979248047, 'learning_rate': 2.1014492753623187e-07, 'beta_dpo/gap_mean': 0.3511636555194855, 'beta_dpo/gap_std': 0.5038948059082031, 'beta_dpo/beta_used_raw': 0.10716623067855835, 'beta_dpo/beta_used': 0.10716623067855835, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4944499731063843, 'logits/rejected': -0.4637511968612671, 'beta_dpo/beta': 0.10716623067855835, 'beta_dpo/loss_margin_mean': 0.6101883053779602, 'beta_dpo/beta_margin_mean': 0.06553145498037338, 'beta_dpo/beta_margin_std': 0.06532347202301025, 'beta_dpo/beta_margin_grad_mean': -0.48364534974098206, 'beta_dpo/beta_margin_grad_std': 0.016273001208901405, 'epoch': 0.04}

  4%|███▍                                                                           | 30/681 [01:20<28:05,  2.59s/it]
  5%|███▌                                                                           | 31/681 [01:22<28:28,  2.63s/it]
                                                                                                                     
{'loss': 1.3554, 'grad_norm': 68.29032135009766, 'learning_rate': 2.1739130434782607e-07, 'beta_dpo/gap_mean': 0.36561119556427, 'beta_dpo/gap_std': 0.5108226537704468, 'beta_dpo/beta_used_raw': 0.09747521579265594, 'beta_dpo/beta_used': 0.09747521579265594, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5044275522232056, 'logits/rejected': -0.4597151279449463, 'beta_dpo/beta': 0.09747521579265594, 'beta_dpo/loss_margin_mean': 0.4201761782169342, 'beta_dpo/beta_margin_mean': 0.041009921580553055, 'beta_dpo/beta_margin_std': 0.05886054411530495, 'beta_dpo/beta_margin_grad_mean': -0.48976314067840576, 'beta_dpo/beta_margin_grad_std': 0.014673292636871338, 'epoch': 0.05}

  5%|███▌                                                                           | 31/681 [01:22<28:28,  2.63s/it]
  5%|███▋                                                                           | 32/681 [01:25<29:03,  2.69s/it]
                                                                                                                     
{'loss': 1.338, 'grad_norm': 78.29996490478516, 'learning_rate': 2.2463768115942027e-07, 'beta_dpo/gap_mean': 0.4219781458377838, 'beta_dpo/gap_std': 0.56684410572052, 'beta_dpo/beta_used_raw': 0.10314959287643433, 'beta_dpo/beta_used': 0.10314959287643433, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5184359550476074, 'logits/rejected': -0.4776637554168701, 'beta_dpo/beta': 0.10314959287643433, 'beta_dpo/loss_margin_mean': 0.7036821842193604, 'beta_dpo/beta_margin_mean': 0.07229103147983551, 'beta_dpo/beta_margin_std': 0.08329294621944427, 'beta_dpo/beta_margin_grad_mean': -0.4819798171520233, 'beta_dpo/beta_margin_grad_std': 0.020708369091153145, 'epoch': 0.05}

  5%|███▋                                                                           | 32/681 [01:25<29:03,  2.69s/it]
  5%|███▊                                                                           | 33/681 [01:28<28:46,  2.66s/it]
                                                                                                                     
{'loss': 1.3384, 'grad_norm': 75.79508209228516, 'learning_rate': 2.318840579710145e-07, 'beta_dpo/gap_mean': 0.4387624263763428, 'beta_dpo/gap_std': 0.5823417901992798, 'beta_dpo/beta_used_raw': 0.10217119753360748, 'beta_dpo/beta_used': 0.10217119753360748, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47731277346611023, 'logits/rejected': -0.4508548974990845, 'beta_dpo/beta': 0.10217119753360748, 'beta_dpo/loss_margin_mean': 0.5102719664573669, 'beta_dpo/beta_margin_mean': 0.05285169929265976, 'beta_dpo/beta_margin_std': 0.0644962415099144, 'beta_dpo/beta_margin_grad_mean': -0.48680615425109863, 'beta_dpo/beta_margin_grad_std': 0.016086775809526443, 'epoch': 0.05}

  5%|███▊                                                                           | 33/681 [01:28<28:46,  2.66s/it]
  5%|███▉                                                                           | 34/681 [01:31<28:44,  2.67s/it]
                                                                                                                     
{'loss': 1.3401, 'grad_norm': 66.3543930053711, 'learning_rate': 2.391304347826087e-07, 'beta_dpo/gap_mean': 0.48840245604515076, 'beta_dpo/gap_std': 0.6152428388595581, 'beta_dpo/beta_used_raw': 0.09928236901760101, 'beta_dpo/beta_used': 0.09928236901760101, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5100936889648438, 'logits/rejected': -0.4925019145011902, 'beta_dpo/beta': 0.09928236901760101, 'beta_dpo/loss_margin_mean': 0.7295181751251221, 'beta_dpo/beta_margin_mean': 0.07247772812843323, 'beta_dpo/beta_margin_std': 0.07699740678071976, 'beta_dpo/beta_margin_grad_mean': -0.4819219708442688, 'beta_dpo/beta_margin_grad_std': 0.01917845755815506, 'epoch': 0.05}

  5%|███▉                                                                           | 34/681 [01:31<28:44,  2.67s/it]
  5%|████                                                                           | 35/681 [01:33<28:52,  2.68s/it]
                                                                                                                     
{'loss': 1.3114, 'grad_norm': 77.56873321533203, 'learning_rate': 2.463768115942029e-07, 'beta_dpo/gap_mean': 0.5772824883460999, 'beta_dpo/gap_std': 0.6622889637947083, 'beta_dpo/beta_used_raw': 0.10785353183746338, 'beta_dpo/beta_used': 0.10785353183746338, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5331075191497803, 'logits/rejected': -0.49618980288505554, 'beta_dpo/beta': 0.10785353183746338, 'beta_dpo/loss_margin_mean': 0.9983453750610352, 'beta_dpo/beta_margin_mean': 0.10804824531078339, 'beta_dpo/beta_margin_std': 0.10100562125444412, 'beta_dpo/beta_margin_grad_mean': -0.47311800718307495, 'beta_dpo/beta_margin_grad_std': 0.02489115111529827, 'epoch': 0.05}

  5%|████                                                                           | 35/681 [01:33<28:52,  2.68s/it]
  5%|████▏                                                                          | 36/681 [01:36<28:52,  2.69s/it]
                                                                                                                     
{'loss': 1.3121, 'grad_norm': 73.26063537597656, 'learning_rate': 2.536231884057971e-07, 'beta_dpo/gap_mean': 0.6375015377998352, 'beta_dpo/gap_std': 0.7486386299133301, 'beta_dpo/beta_used_raw': 0.10545908659696579, 'beta_dpo/beta_used': 0.10545908659696579, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5830014944076538, 'logits/rejected': -0.5479526519775391, 'beta_dpo/beta': 0.10545908659696579, 'beta_dpo/loss_margin_mean': 0.9657546281814575, 'beta_dpo/beta_margin_mean': 0.10363934934139252, 'beta_dpo/beta_margin_std': 0.12403807044029236, 'beta_dpo/beta_margin_grad_mean': -0.4742385447025299, 'beta_dpo/beta_margin_grad_std': 0.030729172751307487, 'epoch': 0.05}

  5%|████▏                                                                          | 36/681 [01:36<28:52,  2.69s/it]
  5%|████▎                                                                          | 37/681 [01:39<28:40,  2.67s/it]
                                                                                                                     
{'loss': 1.3286, 'grad_norm': 50.44397735595703, 'learning_rate': 2.6086956521739126e-07, 'beta_dpo/gap_mean': 0.7214508056640625, 'beta_dpo/gap_std': 0.8505280017852783, 'beta_dpo/beta_used_raw': 0.0942203551530838, 'beta_dpo/beta_used': 0.0942203551530838, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5012315511703491, 'logits/rejected': -0.45690277218818665, 'beta_dpo/beta': 0.0942203551530838, 'beta_dpo/loss_margin_mean': 0.9462437629699707, 'beta_dpo/beta_margin_mean': 0.09107129275798798, 'beta_dpo/beta_margin_std': 0.1248544380068779, 'beta_dpo/beta_margin_grad_mean': -0.47738873958587646, 'beta_dpo/beta_margin_grad_std': 0.03081784024834633, 'epoch': 0.05}

  5%|████▎                                                                          | 37/681 [01:39<28:40,  2.67s/it]
  6%|████▍                                                                          | 38/681 [01:41<27:27,  2.56s/it]
                                                                                                                     
{'loss': 1.2998, 'grad_norm': 67.5627212524414, 'learning_rate': 2.681159420289855e-07, 'beta_dpo/gap_mean': 0.7879455089569092, 'beta_dpo/gap_std': 0.9812790155410767, 'beta_dpo/beta_used_raw': 0.1041734591126442, 'beta_dpo/beta_used': 0.1041734591126442, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5276659727096558, 'logits/rejected': -0.4949561655521393, 'beta_dpo/beta': 0.1041734591126442, 'beta_dpo/loss_margin_mean': 1.224595069885254, 'beta_dpo/beta_margin_mean': 0.12841160595417023, 'beta_dpo/beta_margin_std': 0.16240736842155457, 'beta_dpo/beta_margin_grad_mean': -0.4682784676551819, 'beta_dpo/beta_margin_grad_std': 0.03961404040455818, 'epoch': 0.06}

  6%|████▍                                                                          | 38/681 [01:41<27:27,  2.56s/it]
  6%|████▌                                                                          | 39/681 [01:43<27:21,  2.56s/it]
                                                                                                                     
{'loss': 1.275, 'grad_norm': 74.21395874023438, 'learning_rate': 2.753623188405797e-07, 'beta_dpo/gap_mean': 0.9118002653121948, 'beta_dpo/gap_std': 1.0534446239471436, 'beta_dpo/beta_used_raw': 0.10857867449522018, 'beta_dpo/beta_used': 0.10857867449522018, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5588313341140747, 'logits/rejected': -0.5193623304367065, 'beta_dpo/beta': 0.10857867449522018, 'beta_dpo/loss_margin_mean': 1.4260352849960327, 'beta_dpo/beta_margin_mean': 0.15660372376441956, 'beta_dpo/beta_margin_std': 0.15102945268154144, 'beta_dpo/beta_margin_grad_mean': -0.46116903424263, 'beta_dpo/beta_margin_grad_std': 0.03715595230460167, 'epoch': 0.06}

  6%|████▌                                                                          | 39/681 [01:43<27:21,  2.56s/it]
  6%|████▋                                                                          | 40/681 [01:46<27:48,  2.60s/it]
                                                                                                                     
{'loss': 1.2931, 'grad_norm': 55.91511154174805, 'learning_rate': 2.8260869565217386e-07, 'beta_dpo/gap_mean': 0.9838204383850098, 'beta_dpo/gap_std': 1.121214509010315, 'beta_dpo/beta_used_raw': 0.0998622328042984, 'beta_dpo/beta_used': 0.0998622328042984, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4998742341995239, 'logits/rejected': -0.46878963708877563, 'beta_dpo/beta': 0.0998622328042984, 'beta_dpo/loss_margin_mean': 1.3697092533111572, 'beta_dpo/beta_margin_mean': 0.13751423358917236, 'beta_dpo/beta_margin_std': 0.16336165368556976, 'beta_dpo/beta_margin_grad_mean': -0.4660206437110901, 'beta_dpo/beta_margin_grad_std': 0.03987602889537811, 'epoch': 0.06}

  6%|████▋                                                                          | 40/681 [01:46<27:48,  2.60s/it]
  6%|████▊                                                                          | 41/681 [01:49<27:38,  2.59s/it]
                                                                                                                     
{'loss': 1.2849, 'grad_norm': 59.53895950317383, 'learning_rate': 2.898550724637681e-07, 'beta_dpo/gap_mean': 1.111755609512329, 'beta_dpo/gap_std': 1.2354657649993896, 'beta_dpo/beta_used_raw': 0.09814733266830444, 'beta_dpo/beta_used': 0.09814733266830444, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5415744781494141, 'logits/rejected': -0.5051206350326538, 'beta_dpo/beta': 0.09814733266830444, 'beta_dpo/loss_margin_mean': 1.6996898651123047, 'beta_dpo/beta_margin_mean': 0.1658371239900589, 'beta_dpo/beta_margin_std': 0.16969500482082367, 'beta_dpo/beta_margin_grad_mean': -0.4590160846710205, 'beta_dpo/beta_margin_grad_std': 0.04150310531258583, 'epoch': 0.06}

  6%|████▊                                                                          | 41/681 [01:49<27:38,  2.59s/it]
  6%|████▊                                                                          | 42/681 [01:51<27:25,  2.58s/it]
                                                                                                                     
{'loss': 1.2274, 'grad_norm': 74.77738189697266, 'learning_rate': 2.971014492753623e-07, 'beta_dpo/gap_mean': 1.3095552921295166, 'beta_dpo/gap_std': 1.4133354425430298, 'beta_dpo/beta_used_raw': 0.11233452707529068, 'beta_dpo/beta_used': 0.11233452707529068, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5276546478271484, 'logits/rejected': -0.4807955324649811, 'beta_dpo/beta': 0.11233452707529068, 'beta_dpo/loss_margin_mean': 2.2716450691223145, 'beta_dpo/beta_margin_mean': 0.25520431995391846, 'beta_dpo/beta_margin_std': 0.23295927047729492, 'beta_dpo/beta_margin_grad_mean': -0.43761613965034485, 'beta_dpo/beta_margin_grad_std': 0.055440664291381836, 'epoch': 0.06}

  6%|████▊                                                                          | 42/681 [01:51<27:25,  2.58s/it]
  6%|████▉                                                                          | 43/681 [01:54<27:27,  2.58s/it]
                                                                                                                     
{'loss': 1.1947, 'grad_norm': 79.2459487915039, 'learning_rate': 3.043478260869565e-07, 'beta_dpo/gap_mean': 1.495275855064392, 'beta_dpo/gap_std': 1.494248390197754, 'beta_dpo/beta_used_raw': 0.11648497730493546, 'beta_dpo/beta_used': 0.11648497730493546, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5580309629440308, 'logits/rejected': -0.5340878963470459, 'beta_dpo/beta': 0.11648497730493546, 'beta_dpo/loss_margin_mean': 2.2226815223693848, 'beta_dpo/beta_margin_mean': 0.2601800560951233, 'beta_dpo/beta_margin_std': 0.2120179980993271, 'beta_dpo/beta_margin_grad_mean': -0.4362444281578064, 'beta_dpo/beta_margin_grad_std': 0.05007302016019821, 'epoch': 0.06}

  6%|████▉                                                                          | 43/681 [01:54<27:27,  2.58s/it]
  6%|█████                                                                          | 44/681 [01:57<27:52,  2.63s/it]
                                                                                                                     
{'loss': 1.1951, 'grad_norm': 80.41355895996094, 'learning_rate': 3.115942028985507e-07, 'beta_dpo/gap_mean': 1.653472900390625, 'beta_dpo/gap_std': 1.5553144216537476, 'beta_dpo/beta_used_raw': 0.11155369877815247, 'beta_dpo/beta_used': 0.11155369877815247, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47205644845962524, 'logits/rejected': -0.45171642303466797, 'beta_dpo/beta': 0.11155369877815247, 'beta_dpo/loss_margin_mean': 2.398895740509033, 'beta_dpo/beta_margin_mean': 0.2672099471092224, 'beta_dpo/beta_margin_std': 0.20892754197120667, 'beta_dpo/beta_margin_grad_mean': -0.4344336986541748, 'beta_dpo/beta_margin_grad_std': 0.05017215758562088, 'epoch': 0.06}

  6%|█████                                                                          | 44/681 [01:57<27:52,  2.63s/it]
  7%|█████▏                                                                         | 45/681 [01:59<27:51,  2.63s/it]
                                                                                                                     
{'loss': 1.2831, 'grad_norm': 47.4119987487793, 'learning_rate': 3.188405797101449e-07, 'beta_dpo/gap_mean': 1.7186641693115234, 'beta_dpo/gap_std': 1.6547086238861084, 'beta_dpo/beta_used_raw': 0.07954459637403488, 'beta_dpo/beta_used': 0.07954459637403488, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45731085538864136, 'logits/rejected': -0.4441610276699066, 'beta_dpo/beta': 0.07954459637403488, 'beta_dpo/loss_margin_mean': 1.9536571502685547, 'beta_dpo/beta_margin_mean': 0.15512201189994812, 'beta_dpo/beta_margin_std': 0.17768782377243042, 'beta_dpo/beta_margin_grad_mean': -0.4617185890674591, 'beta_dpo/beta_margin_grad_std': 0.043333351612091064, 'epoch': 0.07}

  7%|█████▏                                                                         | 45/681 [01:59<27:51,  2.63s/it]
  7%|█████▎                                                                         | 46/681 [02:02<28:16,  2.67s/it]
                                                                                                                     
{'loss': 1.244, 'grad_norm': 66.04317474365234, 'learning_rate': 3.260869565217391e-07, 'beta_dpo/gap_mean': 1.8407939672470093, 'beta_dpo/gap_std': 1.877316951751709, 'beta_dpo/beta_used_raw': 0.08992807567119598, 'beta_dpo/beta_used': 0.08992807567119598, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.517339289188385, 'logits/rejected': -0.46569010615348816, 'beta_dpo/beta': 0.08992807567119598, 'beta_dpo/loss_margin_mean': 2.509418249130249, 'beta_dpo/beta_margin_mean': 0.22959379851818085, 'beta_dpo/beta_margin_std': 0.2589755356311798, 'beta_dpo/beta_margin_grad_mean': -0.44419437646865845, 'beta_dpo/beta_margin_grad_std': 0.060576457530260086, 'epoch': 0.07}

  7%|█████▎                                                                         | 46/681 [02:02<28:16,  2.67s/it]
  7%|█████▍                                                                         | 47/681 [02:05<28:13,  2.67s/it]
                                                                                                                     
{'loss': 1.1832, 'grad_norm': 67.16490173339844, 'learning_rate': 3.333333333333333e-07, 'beta_dpo/gap_mean': 1.97328519821167, 'beta_dpo/gap_std': 1.9843567609786987, 'beta_dpo/beta_used_raw': 0.10393651574850082, 'beta_dpo/beta_used': 0.10393651574850082, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5952492952346802, 'logits/rejected': -0.5439423322677612, 'beta_dpo/beta': 0.10393651574850082, 'beta_dpo/loss_margin_mean': 2.603851795196533, 'beta_dpo/beta_margin_mean': 0.28237393498420715, 'beta_dpo/beta_margin_std': 0.2598910629749298, 'beta_dpo/beta_margin_grad_mean': -0.43122005462646484, 'beta_dpo/beta_margin_grad_std': 0.062102172523736954, 'epoch': 0.07}

  7%|█████▍                                                                         | 47/681 [02:05<28:13,  2.67s/it]
  7%|█████▌                                                                         | 48/681 [02:08<28:49,  2.73s/it]
                                                                                                                     
{'loss': 1.1987, 'grad_norm': 78.59500122070312, 'learning_rate': 3.4057971014492755e-07, 'beta_dpo/gap_mean': 2.1250531673431396, 'beta_dpo/gap_std': 2.0948853492736816, 'beta_dpo/beta_used_raw': 0.09790638089179993, 'beta_dpo/beta_used': 0.09790638089179993, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5685693025588989, 'logits/rejected': -0.5092687606811523, 'beta_dpo/beta': 0.09790638089179993, 'beta_dpo/loss_margin_mean': 2.544447422027588, 'beta_dpo/beta_margin_mean': 0.2532716393470764, 'beta_dpo/beta_margin_std': 0.272605299949646, 'beta_dpo/beta_margin_grad_mean': -0.43831878900527954, 'beta_dpo/beta_margin_grad_std': 0.06469718366861343, 'epoch': 0.07}

  7%|█████▌                                                                         | 48/681 [02:08<28:49,  2.73s/it]
  7%|█████▋                                                                         | 49/681 [02:10<28:10,  2.67s/it]
                                                                                                                     
{'loss': 1.1095, 'grad_norm': 240.3484344482422, 'learning_rate': 3.478260869565217e-07, 'beta_dpo/gap_mean': 2.2471675872802734, 'beta_dpo/gap_std': 2.2004098892211914, 'beta_dpo/beta_used_raw': 0.11987863481044769, 'beta_dpo/beta_used': 0.11987863481044769, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5591256618499756, 'logits/rejected': -0.5024401545524597, 'beta_dpo/beta': 0.11987863481044769, 'beta_dpo/loss_margin_mean': 3.125662088394165, 'beta_dpo/beta_margin_mean': 0.3685282766819, 'beta_dpo/beta_margin_std': 0.3620261251926422, 'beta_dpo/beta_margin_grad_mean': -0.41220971941947937, 'beta_dpo/beta_margin_grad_std': 0.08246695250272751, 'epoch': 0.07}

  7%|█████▋                                                                         | 49/681 [02:10<28:10,  2.67s/it]
  7%|█████▊                                                                         | 50/681 [02:13<28:05,  2.67s/it]
                                                                                                                     
{'loss': 1.1672, 'grad_norm': 64.82975769042969, 'learning_rate': 3.5507246376811595e-07, 'beta_dpo/gap_mean': 2.4781899452209473, 'beta_dpo/gap_std': 2.4213905334472656, 'beta_dpo/beta_used_raw': 0.10016916692256927, 'beta_dpo/beta_used': 0.10016916692256927, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5334613919258118, 'logits/rejected': -0.497406542301178, 'beta_dpo/beta': 0.10016916692256927, 'beta_dpo/loss_margin_mean': 3.3676936626434326, 'beta_dpo/beta_margin_mean': 0.3364598751068115, 'beta_dpo/beta_margin_std': 0.32345935702323914, 'beta_dpo/beta_margin_grad_mean': -0.4190990924835205, 'beta_dpo/beta_margin_grad_std': 0.07547645270824432, 'epoch': 0.07}

  7%|█████▊                                                                         | 50/681 [02:13<28:05,  2.67s/it]
  7%|█████▉                                                                         | 51/681 [02:15<28:06,  2.68s/it]
                                                                                                                     
{'loss': 1.2592, 'grad_norm': 36.31479263305664, 'learning_rate': 3.6231884057971015e-07, 'beta_dpo/gap_mean': 2.662703275680542, 'beta_dpo/gap_std': 2.715353012084961, 'beta_dpo/beta_used_raw': 0.0657687559723854, 'beta_dpo/beta_used': 0.0657687559723854, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5016952753067017, 'logits/rejected': -0.4681543707847595, 'beta_dpo/beta': 0.0657687559723854, 'beta_dpo/loss_margin_mean': 3.3309483528137207, 'beta_dpo/beta_margin_mean': 0.22254019975662231, 'beta_dpo/beta_margin_std': 0.2765715718269348, 'beta_dpo/beta_margin_grad_mean': -0.44602659344673157, 'beta_dpo/beta_margin_grad_std': 0.06567390263080597, 'epoch': 0.07}

  7%|█████▉                                                                         | 51/681 [02:15<28:06,  2.68s/it]
  8%|██████                                                                         | 52/681 [02:18<27:25,  2.62s/it]
                                                                                                                     
{'loss': 0.9776, 'grad_norm': 85.15430450439453, 'learning_rate': 3.695652173913043e-07, 'beta_dpo/gap_mean': 3.020768404006958, 'beta_dpo/gap_std': 2.9662249088287354, 'beta_dpo/beta_used_raw': 0.13919858634471893, 'beta_dpo/beta_used': 0.13919858634471893, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5425816774368286, 'logits/rejected': -0.4867020845413208, 'beta_dpo/beta': 0.13919858634471893, 'beta_dpo/loss_margin_mean': 5.1557536125183105, 'beta_dpo/beta_margin_mean': 0.7171680927276611, 'beta_dpo/beta_margin_std': 0.5753344297409058, 'beta_dpo/beta_margin_grad_mean': -0.34051814675331116, 'beta_dpo/beta_margin_grad_std': 0.11514287441968918, 'epoch': 0.08}

  8%|██████                                                                         | 52/681 [02:18<27:25,  2.62s/it]
  8%|██████▏                                                                        | 53/681 [02:20<27:17,  2.61s/it]
                                                                                                                     
{'loss': 1.0761, 'grad_norm': 66.78472137451172, 'learning_rate': 3.7681159420289855e-07, 'beta_dpo/gap_mean': 3.373033046722412, 'beta_dpo/gap_std': 3.254366874694824, 'beta_dpo/beta_used_raw': 0.10637001693248749, 'beta_dpo/beta_used': 0.10637001693248749, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5930138826370239, 'logits/rejected': -0.5710781812667847, 'beta_dpo/beta': 0.10637001693248749, 'beta_dpo/loss_margin_mean': 5.15134334564209, 'beta_dpo/beta_margin_mean': 0.5370194315910339, 'beta_dpo/beta_margin_std': 0.5486578345298767, 'beta_dpo/beta_margin_grad_mean': -0.3794803321361542, 'beta_dpo/beta_margin_grad_std': 0.10878144204616547, 'epoch': 0.08}

  8%|██████▏                                                                        | 53/681 [02:21<27:17,  2.61s/it]
  8%|██████▎                                                                        | 54/681 [02:23<26:29,  2.53s/it]
                                                                                                                     
{'loss': 1.0957, 'grad_norm': 54.912174224853516, 'learning_rate': 3.8405797101449274e-07, 'beta_dpo/gap_mean': 3.6533608436584473, 'beta_dpo/gap_std': 3.5544323921203613, 'beta_dpo/beta_used_raw': 0.09235785901546478, 'beta_dpo/beta_used': 0.09235785901546478, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5769028663635254, 'logits/rejected': -0.5225714445114136, 'beta_dpo/beta': 0.09235785901546478, 'beta_dpo/loss_margin_mean': 4.466633319854736, 'beta_dpo/beta_margin_mean': 0.42590391635894775, 'beta_dpo/beta_margin_std': 0.46513980627059937, 'beta_dpo/beta_margin_grad_mean': -0.4021127223968506, 'beta_dpo/beta_margin_grad_std': 0.09637561440467834, 'epoch': 0.08}

  8%|██████▎                                                                        | 54/681 [02:23<26:29,  2.53s/it]
  8%|██████▍                                                                        | 55/681 [02:25<25:35,  2.45s/it]
                                                                                                                     
{'loss': 0.9505, 'grad_norm': 70.0872573852539, 'learning_rate': 3.9130434782608694e-07, 'beta_dpo/gap_mean': 3.942603826522827, 'beta_dpo/gap_std': 3.9598231315612793, 'beta_dpo/beta_used_raw': 0.12684877216815948, 'beta_dpo/beta_used': 0.12684877216815948, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6278643608093262, 'logits/rejected': -0.5644968748092651, 'beta_dpo/beta': 0.12684877216815948, 'beta_dpo/loss_margin_mean': 5.50035285949707, 'beta_dpo/beta_margin_mean': 0.690856397151947, 'beta_dpo/beta_margin_std': 0.7624755501747131, 'beta_dpo/beta_margin_grad_mean': -0.3536130487918854, 'beta_dpo/beta_margin_grad_std': 0.14455373585224152, 'epoch': 0.08}

  8%|██████▍                                                                        | 55/681 [02:25<25:35,  2.45s/it]
  8%|██████▍                                                                        | 56/681 [02:28<26:29,  2.54s/it]
                                                                                                                     
{'loss': 1.0989, 'grad_norm': 50.04378128051758, 'learning_rate': 3.9855072463768114e-07, 'beta_dpo/gap_mean': 4.207155227661133, 'beta_dpo/gap_std': 4.369948387145996, 'beta_dpo/beta_used_raw': 0.08802211284637451, 'beta_dpo/beta_used': 0.08802211284637451, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6108717918395996, 'logits/rejected': -0.5681912899017334, 'beta_dpo/beta': 0.08802211284637451, 'beta_dpo/loss_margin_mean': 5.1305742263793945, 'beta_dpo/beta_margin_mean': 0.45057377219200134, 'beta_dpo/beta_margin_std': 0.5337446928024292, 'beta_dpo/beta_margin_grad_mean': -0.39712223410606384, 'beta_dpo/beta_margin_grad_std': 0.1159137487411499, 'epoch': 0.08}

  8%|██████▍                                                                        | 56/681 [02:28<26:29,  2.54s/it]
  8%|██████▌                                                                        | 57/681 [02:30<26:17,  2.53s/it]
                                                                                                                     
{'loss': 0.8215, 'grad_norm': 76.4854736328125, 'learning_rate': 4.057971014492754e-07, 'beta_dpo/gap_mean': 4.442320823669434, 'beta_dpo/gap_std': 4.536768436431885, 'beta_dpo/beta_used_raw': 0.151127427816391, 'beta_dpo/beta_used': 0.151127427816391, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5923542976379395, 'logits/rejected': -0.5654958486557007, 'beta_dpo/beta': 0.151127427816391, 'beta_dpo/loss_margin_mean': 5.748650074005127, 'beta_dpo/beta_margin_mean': 0.8648303747177124, 'beta_dpo/beta_margin_std': 0.7930364012718201, 'beta_dpo/beta_margin_grad_mean': -0.31904980540275574, 'beta_dpo/beta_margin_grad_std': 0.14913946390151978, 'epoch': 0.08}

  8%|██████▌                                                                        | 57/681 [02:30<26:17,  2.53s/it]
  9%|██████▋                                                                        | 58/681 [02:33<26:35,  2.56s/it]
                                                                                                                     
{'loss': 1.0303, 'grad_norm': 63.09685134887695, 'learning_rate': 4.1304347826086954e-07, 'beta_dpo/gap_mean': 4.803388595581055, 'beta_dpo/gap_std': 4.8988494873046875, 'beta_dpo/beta_used_raw': 0.09416334331035614, 'beta_dpo/beta_used': 0.09416334331035614, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.595874547958374, 'logits/rejected': -0.5206152200698853, 'beta_dpo/beta': 0.09416334331035614, 'beta_dpo/loss_margin_mean': 6.5755534172058105, 'beta_dpo/beta_margin_mean': 0.6299749612808228, 'beta_dpo/beta_margin_std': 0.6659680008888245, 'beta_dpo/beta_margin_grad_mean': -0.3633388876914978, 'beta_dpo/beta_margin_grad_std': 0.13083474338054657, 'epoch': 0.09}

  9%|██████▋                                                                        | 58/681 [02:33<26:35,  2.56s/it]
  9%|██████▊                                                                        | 59/681 [02:36<26:36,  2.57s/it]
                                                                                                                     
{'loss': 0.9537, 'grad_norm': 60.62688064575195, 'learning_rate': 4.2028985507246374e-07, 'beta_dpo/gap_mean': 5.30738639831543, 'beta_dpo/gap_std': 5.2926130294799805, 'beta_dpo/beta_used_raw': 0.10466543585062027, 'beta_dpo/beta_used': 0.10466543585062027, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5974893569946289, 'logits/rejected': -0.5545705556869507, 'beta_dpo/beta': 0.10466543585062027, 'beta_dpo/loss_margin_mean': 6.950667381286621, 'beta_dpo/beta_margin_mean': 0.829659640789032, 'beta_dpo/beta_margin_std': 1.0400630235671997, 'beta_dpo/beta_margin_grad_mean': -0.34448105096817017, 'beta_dpo/beta_margin_grad_std': 0.15328913927078247, 'epoch': 0.09}

  9%|██████▊                                                                        | 59/681 [02:36<26:36,  2.57s/it]
  9%|██████▉                                                                        | 60/681 [02:38<26:27,  2.56s/it]
                                                                                                                     
{'loss': 0.8759, 'grad_norm': 69.3149185180664, 'learning_rate': 4.2753623188405794e-07, 'beta_dpo/gap_mean': 5.407642364501953, 'beta_dpo/gap_std': 5.513436317443848, 'beta_dpo/beta_used_raw': 0.11850239336490631, 'beta_dpo/beta_used': 0.11850239336490631, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5805940628051758, 'logits/rejected': -0.5189210772514343, 'beta_dpo/beta': 0.11850239336490631, 'beta_dpo/loss_margin_mean': 5.766895294189453, 'beta_dpo/beta_margin_mean': 0.7030664086341858, 'beta_dpo/beta_margin_std': 0.7772324085235596, 'beta_dpo/beta_margin_grad_mean': -0.3506718575954437, 'beta_dpo/beta_margin_grad_std': 0.15503977239131927, 'epoch': 0.09}

  9%|██████▉                                                                        | 60/681 [02:38<26:27,  2.56s/it]
  9%|███████                                                                        | 61/681 [02:41<26:42,  2.58s/it]
                                                                                                                     
{'loss': 1.0428, 'grad_norm': 49.676326751708984, 'learning_rate': 4.3478260869565214e-07, 'beta_dpo/gap_mean': 5.656585693359375, 'beta_dpo/gap_std': 6.2068586349487305, 'beta_dpo/beta_used_raw': 0.08738794177770615, 'beta_dpo/beta_used': 0.08738794177770615, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5972954034805298, 'logits/rejected': -0.5621410608291626, 'beta_dpo/beta': 0.08738794177770615, 'beta_dpo/loss_margin_mean': 6.976743221282959, 'beta_dpo/beta_margin_mean': 0.6398810744285583, 'beta_dpo/beta_margin_std': 1.0747108459472656, 'beta_dpo/beta_margin_grad_mean': -0.37938931584358215, 'beta_dpo/beta_margin_grad_std': 0.15377961099147797, 'epoch': 0.09}

  9%|███████                                                                        | 61/681 [02:41<26:42,  2.58s/it]
  9%|███████▏                                                                       | 62/681 [02:44<27:10,  2.63s/it]
                                                                                                                     
{'loss': 1.0477, 'grad_norm': 49.01858901977539, 'learning_rate': 4.420289855072464e-07, 'beta_dpo/gap_mean': 5.591924667358398, 'beta_dpo/gap_std': 6.288469314575195, 'beta_dpo/beta_used_raw': 0.07970167696475983, 'beta_dpo/beta_used': 0.07970167696475983, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5811234712600708, 'logits/rejected': -0.5460039973258972, 'beta_dpo/beta': 0.07970167696475983, 'beta_dpo/loss_margin_mean': 5.3183794021606445, 'beta_dpo/beta_margin_mean': 0.45351850986480713, 'beta_dpo/beta_margin_std': 0.6815299987792969, 'beta_dpo/beta_margin_grad_mean': -0.4036404490470886, 'beta_dpo/beta_margin_grad_std': 0.1279177963733673, 'epoch': 0.09}

  9%|███████▏                                                                       | 62/681 [02:44<27:10,  2.63s/it]
  9%|███████▎                                                                       | 63/681 [02:46<26:57,  2.62s/it]
                                                                                                                     
{'loss': 0.934, 'grad_norm': 54.96387481689453, 'learning_rate': 4.4927536231884053e-07, 'beta_dpo/gap_mean': 5.912351608276367, 'beta_dpo/gap_std': 6.507175445556641, 'beta_dpo/beta_used_raw': 0.10061165690422058, 'beta_dpo/beta_used': 0.10061165690422058, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5760135650634766, 'logits/rejected': -0.5288089513778687, 'beta_dpo/beta': 0.10061165690422058, 'beta_dpo/loss_margin_mean': 7.235960006713867, 'beta_dpo/beta_margin_mean': 0.8012576103210449, 'beta_dpo/beta_margin_std': 0.977336049079895, 'beta_dpo/beta_margin_grad_mean': -0.3452926576137543, 'beta_dpo/beta_margin_grad_std': 0.16270661354064941, 'epoch': 0.09}

  9%|███████▎                                                                       | 63/681 [02:46<26:57,  2.62s/it]
  9%|███████▍                                                                       | 64/681 [02:49<26:29,  2.58s/it]
                                                                                                                     
{'loss': 0.892, 'grad_norm': 54.98874282836914, 'learning_rate': 4.5652173913043473e-07, 'beta_dpo/gap_mean': 6.382755279541016, 'beta_dpo/gap_std': 7.030701637268066, 'beta_dpo/beta_used_raw': 0.11127346754074097, 'beta_dpo/beta_used': 0.11127346754074097, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5682976245880127, 'logits/rejected': -0.5359951257705688, 'beta_dpo/beta': 0.11127346754074097, 'beta_dpo/loss_margin_mean': 8.447539329528809, 'beta_dpo/beta_margin_mean': 1.0696979761123657, 'beta_dpo/beta_margin_std': 1.435511589050293, 'beta_dpo/beta_margin_grad_mean': -0.32286009192466736, 'beta_dpo/beta_margin_grad_std': 0.17790742218494415, 'epoch': 0.09}

  9%|███████▍                                                                       | 64/681 [02:49<26:29,  2.58s/it]
 10%|███████▌                                                                       | 65/681 [02:51<26:33,  2.59s/it]
                                                                                                                     
{'loss': 0.7454, 'grad_norm': 84.47888946533203, 'learning_rate': 4.63768115942029e-07, 'beta_dpo/gap_mean': 6.738654136657715, 'beta_dpo/gap_std': 7.486597061157227, 'beta_dpo/beta_used_raw': 0.15355268120765686, 'beta_dpo/beta_used': 0.15355268120765686, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6392999887466431, 'logits/rejected': -0.6247435808181763, 'beta_dpo/beta': 0.15355268120765686, 'beta_dpo/loss_margin_mean': 8.504437446594238, 'beta_dpo/beta_margin_mean': 1.3807626962661743, 'beta_dpo/beta_margin_std': 1.8169898986816406, 'beta_dpo/beta_margin_grad_mean': -0.28559890389442444, 'beta_dpo/beta_margin_grad_std': 0.21047906577587128, 'epoch': 0.1}

 10%|███████▌                                                                       | 65/681 [02:51<26:33,  2.59s/it]
 10%|███████▋                                                                       | 66/681 [02:54<26:38,  2.60s/it]
                                                                                                                     
{'loss': 1.1833, 'grad_norm': 30.142791748046875, 'learning_rate': 4.7101449275362313e-07, 'beta_dpo/gap_mean': 7.011206150054932, 'beta_dpo/gap_std': 7.803816795349121, 'beta_dpo/beta_used_raw': 0.038759633898735046, 'beta_dpo/beta_used': 0.038759633898735046, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6175287365913391, 'logits/rejected': -0.5830913186073303, 'beta_dpo/beta': 0.038759633898735046, 'beta_dpo/loss_margin_mean': 7.870203971862793, 'beta_dpo/beta_margin_mean': 0.3621111810207367, 'beta_dpo/beta_margin_std': 0.5689931511878967, 'beta_dpo/beta_margin_grad_mean': -0.42082634568214417, 'beta_dpo/beta_margin_grad_std': 0.11057644337415695, 'epoch': 0.1}

 10%|███████▋                                                                       | 66/681 [02:54<26:38,  2.60s/it]
 10%|███████▊                                                                       | 67/681 [02:56<25:34,  2.50s/it]
                                                                                                                     
{'loss': 1.0324, 'grad_norm': 44.186004638671875, 'learning_rate': 4.782608695652174e-07, 'beta_dpo/gap_mean': 7.094534873962402, 'beta_dpo/gap_std': 8.07803726196289, 'beta_dpo/beta_used_raw': 0.06989531219005585, 'beta_dpo/beta_used': 0.06989531219005585, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6101835370063782, 'logits/rejected': -0.5699295997619629, 'beta_dpo/beta': 0.06989531219005585, 'beta_dpo/loss_margin_mean': 8.12269401550293, 'beta_dpo/beta_margin_mean': 0.59562087059021, 'beta_dpo/beta_margin_std': 0.8447734117507935, 'beta_dpo/beta_margin_grad_mean': -0.38001659512519836, 'beta_dpo/beta_margin_grad_std': 0.14094047248363495, 'epoch': 0.1}

 10%|███████▊                                                                       | 67/681 [02:56<25:34,  2.50s/it]
 10%|███████▉                                                                       | 68/681 [02:59<25:44,  2.52s/it]
                                                                                                                     
{'loss': 0.953, 'grad_norm': 40.886878967285156, 'learning_rate': 4.855072463768116e-07, 'beta_dpo/gap_mean': 7.258274078369141, 'beta_dpo/gap_std': 8.184741973876953, 'beta_dpo/beta_used_raw': 0.06118408590555191, 'beta_dpo/beta_used': 0.09041684120893478, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6218951940536499, 'logits/rejected': -0.5630506873130798, 'beta_dpo/beta': 0.09041684120893478, 'beta_dpo/loss_margin_mean': 7.898317813873291, 'beta_dpo/beta_margin_mean': 0.7865732908248901, 'beta_dpo/beta_margin_std': 1.181038498878479, 'beta_dpo/beta_margin_grad_mean': -0.3650799095630646, 'beta_dpo/beta_margin_grad_std': 0.1839817315340042, 'epoch': 0.1}

 10%|███████▉                                                                       | 68/681 [02:59<25:44,  2.52s/it]
 10%|████████                                                                       | 69/681 [03:01<26:26,  2.59s/it]
                                                                                                                     
{'loss': 0.7568, 'grad_norm': 72.10195922851562, 'learning_rate': 4.927536231884058e-07, 'beta_dpo/gap_mean': 7.689189434051514, 'beta_dpo/gap_std': 8.327251434326172, 'beta_dpo/beta_used_raw': 0.12943625450134277, 'beta_dpo/beta_used': 0.12943625450134277, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5902745723724365, 'logits/rejected': -0.5661255717277527, 'beta_dpo/beta': 0.12943625450134277, 'beta_dpo/loss_margin_mean': 9.463652610778809, 'beta_dpo/beta_margin_mean': 1.2787585258483887, 'beta_dpo/beta_margin_std': 1.491976022720337, 'beta_dpo/beta_margin_grad_mean': -0.28914546966552734, 'beta_dpo/beta_margin_grad_std': 0.1749580055475235, 'epoch': 0.1}

 10%|████████                                                                       | 69/681 [03:01<26:26,  2.59s/it]
 10%|████████                                                                       | 70/681 [03:04<26:00,  2.55s/it]
                                                                                                                     
{'loss': 1.0241, 'grad_norm': 58.23539352416992, 'learning_rate': 5e-07, 'beta_dpo/gap_mean': 8.018512725830078, 'beta_dpo/gap_std': 8.71467399597168, 'beta_dpo/beta_used_raw': 0.06600124388933182, 'beta_dpo/beta_used': 0.0740790069103241, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6226065158843994, 'logits/rejected': -0.5874596834182739, 'beta_dpo/beta': 0.0740790069103241, 'beta_dpo/loss_margin_mean': 10.070143699645996, 'beta_dpo/beta_margin_mean': 0.8269989490509033, 'beta_dpo/beta_margin_std': 1.3370610475540161, 'beta_dpo/beta_margin_grad_mean': -0.369037926197052, 'beta_dpo/beta_margin_grad_std': 0.1858556717634201, 'epoch': 0.1}

 10%|████████                                                                       | 70/681 [03:04<26:00,  2.55s/it]
 10%|████████▏                                                                      | 71/681 [03:06<26:00,  2.56s/it]
                                                                                                                     
{'loss': 0.8167, 'grad_norm': 47.67396545410156, 'learning_rate': 4.999967061337492e-07, 'beta_dpo/gap_mean': 8.682525634765625, 'beta_dpo/gap_std': 9.29095458984375, 'beta_dpo/beta_used_raw': 0.10465647280216217, 'beta_dpo/beta_used': 0.10465647280216217, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6586190462112427, 'logits/rejected': -0.6172687411308289, 'beta_dpo/beta': 0.10465647280216217, 'beta_dpo/loss_margin_mean': 11.49172306060791, 'beta_dpo/beta_margin_mean': 1.1773220300674438, 'beta_dpo/beta_margin_std': 1.2341235876083374, 'beta_dpo/beta_margin_grad_mean': -0.29003310203552246, 'beta_dpo/beta_margin_grad_std': 0.17214025557041168, 'epoch': 0.1}

 10%|████████▏                                                                      | 71/681 [03:06<26:00,  2.56s/it]
 11%|████████▎                                                                      | 72/681 [03:09<26:24,  2.60s/it]
                                                                                                                     
{'loss': 0.5912, 'grad_norm': 75.66039276123047, 'learning_rate': 4.999868246217933e-07, 'beta_dpo/gap_mean': 9.315265655517578, 'beta_dpo/gap_std': 9.664226531982422, 'beta_dpo/beta_used_raw': 0.1546517014503479, 'beta_dpo/beta_used': 0.1546517014503479, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6442696452140808, 'logits/rejected': -0.6082816123962402, 'beta_dpo/beta': 0.1546517014503479, 'beta_dpo/loss_margin_mean': 12.12594985961914, 'beta_dpo/beta_margin_mean': 1.905733585357666, 'beta_dpo/beta_margin_std': 2.095893383026123, 'beta_dpo/beta_margin_grad_mean': -0.24096769094467163, 'beta_dpo/beta_margin_grad_std': 0.22502072155475616, 'epoch': 0.11}

 11%|████████▎                                                                      | 72/681 [03:09<26:24,  2.60s/it]
 11%|████████▍                                                                      | 73/681 [03:12<26:53,  2.65s/it]
                                                                                                                     
{'loss': 0.877, 'grad_norm': 63.61186981201172, 'learning_rate': 4.999703557245192e-07, 'beta_dpo/gap_mean': 9.892107009887695, 'beta_dpo/gap_std': 10.947005271911621, 'beta_dpo/beta_used_raw': 0.09382159262895584, 'beta_dpo/beta_used': 0.09382159262895584, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6697020530700684, 'logits/rejected': -0.6270005702972412, 'beta_dpo/beta': 0.09382159262895584, 'beta_dpo/loss_margin_mean': 12.176095008850098, 'beta_dpo/beta_margin_mean': 1.1267133951187134, 'beta_dpo/beta_margin_std': 1.6691551208496094, 'beta_dpo/beta_margin_grad_mean': -0.3226276934146881, 'beta_dpo/beta_margin_grad_std': 0.23689226806163788, 'epoch': 0.11}

 11%|████████▍                                                                      | 73/681 [03:12<26:53,  2.65s/it]
 11%|████████▌                                                                      | 74/681 [03:14<26:28,  2.62s/it]
                                                                                                                     
{'loss': 1.0827, 'grad_norm': 36.97188949584961, 'learning_rate': 4.999472998758977e-07, 'beta_dpo/gap_mean': 10.440993309020996, 'beta_dpo/gap_std': 12.396344184875488, 'beta_dpo/beta_used_raw': 0.04306982085108757, 'beta_dpo/beta_used': 0.0458955280482769, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.605143129825592, 'logits/rejected': -0.5923604965209961, 'beta_dpo/beta': 0.0458955280482769, 'beta_dpo/loss_margin_mean': 13.167186737060547, 'beta_dpo/beta_margin_mean': 0.6362202763557434, 'beta_dpo/beta_margin_std': 1.2357457876205444, 'beta_dpo/beta_margin_grad_mean': -0.38849544525146484, 'beta_dpo/beta_margin_grad_std': 0.181712806224823, 'epoch': 0.11}

 11%|████████▌                                                                      | 74/681 [03:14<26:28,  2.62s/it]
 11%|████████▋                                                                      | 75/681 [03:17<26:41,  2.64s/it]
                                                                                                                     
{'loss': 0.6467, 'grad_norm': 92.53497314453125, 'learning_rate': 4.999176576834721e-07, 'beta_dpo/gap_mean': 11.546646118164062, 'beta_dpo/gap_std': 13.614230155944824, 'beta_dpo/beta_used_raw': 0.1566300094127655, 'beta_dpo/beta_used': 0.1566300094127655, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6607112288475037, 'logits/rejected': -0.6499860286712646, 'beta_dpo/beta': 0.1566300094127655, 'beta_dpo/loss_margin_mean': 18.43977165222168, 'beta_dpo/beta_margin_mean': 3.023698568344116, 'beta_dpo/beta_margin_std': 3.2827866077423096, 'beta_dpo/beta_margin_grad_mean': -0.19501835107803345, 'beta_dpo/beta_margin_grad_std': 0.2327680140733719, 'epoch': 0.11}

 11%|████████▋                                                                      | 75/681 [03:17<26:41,  2.64s/it]
 11%|████████▊                                                                      | 76/681 [03:20<26:23,  2.62s/it]
                                                                                                                     
{'loss': 1.0088, 'grad_norm': 44.36159133911133, 'learning_rate': 4.998814299283415e-07, 'beta_dpo/gap_mean': 12.032630920410156, 'beta_dpo/gap_std': 13.884933471679688, 'beta_dpo/beta_used_raw': 0.004215408116579056, 'beta_dpo/beta_used': 0.05693836510181427, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6945298910140991, 'logits/rejected': -0.6507744789123535, 'beta_dpo/beta': 0.05693836510181427, 'beta_dpo/loss_margin_mean': 11.839239120483398, 'beta_dpo/beta_margin_mean': 0.6884029507637024, 'beta_dpo/beta_margin_std': 1.4083665609359741, 'beta_dpo/beta_margin_grad_mean': -0.3819631040096283, 'beta_dpo/beta_margin_grad_std': 0.20355312526226044, 'epoch': 0.11}

 11%|████████▊                                                                      | 76/681 [03:20<26:23,  2.62s/it]
 11%|████████▉                                                                      | 77/681 [03:22<25:14,  2.51s/it]
                                                                                                                     
{'loss': 0.3922, 'grad_norm': 122.56193542480469, 'learning_rate': 4.998386175651409e-07, 'beta_dpo/gap_mean': 13.085380554199219, 'beta_dpo/gap_std': 14.796323776245117, 'beta_dpo/beta_used_raw': 0.3072592616081238, 'beta_dpo/beta_used': 0.3072592616081238, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6592667102813721, 'logits/rejected': -0.6153388023376465, 'beta_dpo/beta': 0.3072592616081238, 'beta_dpo/loss_margin_mean': 18.652969360351562, 'beta_dpo/beta_margin_mean': 6.070537090301514, 'beta_dpo/beta_margin_std': 7.8197712898254395, 'beta_dpo/beta_margin_grad_mean': -0.16621431708335876, 'beta_dpo/beta_margin_grad_std': 0.2623097002506256, 'epoch': 0.11}

 11%|████████▉                                                                      | 77/681 [03:22<25:14,  2.51s/it]
 11%|█████████                                                                      | 78/681 [03:25<25:37,  2.55s/it]
                                                                                                                     
{'loss': 0.7759, 'grad_norm': 55.331443786621094, 'learning_rate': 4.997892217220159e-07, 'beta_dpo/gap_mean': 13.365839958190918, 'beta_dpo/gap_std': 15.315971374511719, 'beta_dpo/beta_used_raw': 0.12561628222465515, 'beta_dpo/beta_used': 0.14949087798595428, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6192628145217896, 'logits/rejected': -0.5899114608764648, 'beta_dpo/beta': 0.14949087798595428, 'beta_dpo/loss_margin_mean': 14.452160835266113, 'beta_dpo/beta_margin_mean': 2.418715238571167, 'beta_dpo/beta_margin_std': 3.7272212505340576, 'beta_dpo/beta_margin_grad_mean': -0.3154319226741791, 'beta_dpo/beta_margin_grad_std': 0.24938298761844635, 'epoch': 0.11}

 11%|█████████                                                                      | 78/681 [03:25<25:37,  2.55s/it]
 12%|█████████▏                                                                     | 79/681 [03:27<25:50,  2.58s/it]
                                                                                                                     
{'loss': 0.8819, 'grad_norm': 69.28112030029297, 'learning_rate': 4.997332437005931e-07, 'beta_dpo/gap_mean': 13.848381042480469, 'beta_dpo/gap_std': 16.022428512573242, 'beta_dpo/beta_used_raw': -0.001482747495174408, 'beta_dpo/beta_used': 0.11019716411828995, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6417551636695862, 'logits/rejected': -0.608524739742279, 'beta_dpo/beta': 0.11019716411828995, 'beta_dpo/loss_margin_mean': 15.7933349609375, 'beta_dpo/beta_margin_mean': 1.7321070432662964, 'beta_dpo/beta_margin_std': 3.166022777557373, 'beta_dpo/beta_margin_grad_mean': -0.3492397964000702, 'beta_dpo/beta_margin_grad_std': 0.24441301822662354, 'epoch': 0.12}

 12%|█████████▏                                                                     | 79/681 [03:27<25:50,  2.58s/it]
 12%|█████████▎                                                                     | 80/681 [03:30<25:48,  2.58s/it]
                                                                                                                     
{'loss': 1.3671, 'grad_norm': 2.357767343521118, 'learning_rate': 4.996706849759452e-07, 'beta_dpo/gap_mean': 14.141023635864258, 'beta_dpo/gap_std': 16.736181259155273, 'beta_dpo/beta_used_raw': -0.12951478362083435, 'beta_dpo/beta_used': 0.001718068728223443, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7271322011947632, 'logits/rejected': -0.6814069747924805, 'beta_dpo/beta': 0.001718068728223443, 'beta_dpo/loss_margin_mean': 14.089604377746582, 'beta_dpo/beta_margin_mean': 0.02697627618908882, 'beta_dpo/beta_margin_std': 0.04508247226476669, 'beta_dpo/beta_margin_grad_mean': -0.49326348304748535, 'beta_dpo/beta_margin_grad_std': 0.011248563416302204, 'epoch': 0.12}

 12%|█████████▎                                                                     | 80/681 [03:30<25:48,  2.58s/it]
 12%|█████████▍                                                                     | 81/681 [03:33<26:38,  2.66s/it]
                                                                                                                     
{'loss': 1.0778, 'grad_norm': 137.00436401367188, 'learning_rate': 4.996015471965529e-07, 'beta_dpo/gap_mean': 14.902729034423828, 'beta_dpo/gap_std': 17.593263626098633, 'beta_dpo/beta_used_raw': 0.08890701830387115, 'beta_dpo/beta_used': 0.1173420324921608, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7320711016654968, 'logits/rejected': -0.699401319026947, 'beta_dpo/beta': 0.1173420324921608, 'beta_dpo/loss_margin_mean': 19.815006256103516, 'beta_dpo/beta_margin_mean': 2.6220462322235107, 'beta_dpo/beta_margin_std': 4.677156925201416, 'beta_dpo/beta_margin_grad_mean': -0.3296668529510498, 'beta_dpo/beta_margin_grad_std': 0.2772652506828308, 'epoch': 0.12}

 12%|█████████▍                                                                     | 81/681 [03:33<26:38,  2.66s/it]
 12%|█████████▌                                                                     | 82/681 [03:35<25:55,  2.60s/it]
                                                                                                                     
{'loss': 1.0506, 'grad_norm': 50.82543182373047, 'learning_rate': 4.995258321842611e-07, 'beta_dpo/gap_mean': 14.832651138305664, 'beta_dpo/gap_std': 18.701509475708008, 'beta_dpo/beta_used_raw': 0.04351024702191353, 'beta_dpo/beta_used': 0.04351024702191353, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.649533748626709, 'logits/rejected': -0.6332418918609619, 'beta_dpo/beta': 0.04351024702191353, 'beta_dpo/loss_margin_mean': 15.354249954223633, 'beta_dpo/beta_margin_mean': 0.48920586705207825, 'beta_dpo/beta_margin_std': 1.2577557563781738, 'beta_dpo/beta_margin_grad_mean': -0.40177345275878906, 'beta_dpo/beta_margin_grad_std': 0.19916068017482758, 'epoch': 0.12}

 12%|█████████▌                                                                     | 82/681 [03:35<25:55,  2.60s/it]
 12%|█████████▋                                                                     | 83/681 [03:38<25:23,  2.55s/it]
                                                                                                                     
{'loss': 1.3736, 'grad_norm': 1.6841143369674683, 'learning_rate': 4.994435419342304e-07, 'beta_dpo/gap_mean': 15.605181694030762, 'beta_dpo/gap_std': 19.392963409423828, 'beta_dpo/beta_used_raw': -0.06825613230466843, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6862367391586304, 'logits/rejected': -0.643555760383606, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 17.986804962158203, 'beta_dpo/beta_margin_mean': 0.017986806109547615, 'beta_dpo/beta_margin_std': 0.021009791642427444, 'beta_dpo/beta_margin_grad_mean': -0.4955040216445923, 'beta_dpo/beta_margin_grad_std': 0.0052512530237436295, 'epoch': 0.12}

 12%|█████████▋                                                                     | 83/681 [03:38<25:23,  2.55s/it]
 12%|█████████▋                                                                     | 84/681 [03:40<25:59,  2.61s/it]
                                                                                                                     
{'loss': 0.7014, 'grad_norm': 86.9267349243164, 'learning_rate': 4.993546786148857e-07, 'beta_dpo/gap_mean': 15.893194198608398, 'beta_dpo/gap_std': 18.990737915039062, 'beta_dpo/beta_used_raw': 0.14811725914478302, 'beta_dpo/beta_used': 0.14811725914478302, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6301603317260742, 'logits/rejected': -0.5886775851249695, 'beta_dpo/beta': 0.14811725914478302, 'beta_dpo/loss_margin_mean': 15.966986656188965, 'beta_dpo/beta_margin_mean': 2.8868696689605713, 'beta_dpo/beta_margin_std': 4.1358442306518555, 'beta_dpo/beta_margin_grad_mean': -0.2708915174007416, 'beta_dpo/beta_margin_grad_std': 0.20906409621238708, 'epoch': 0.12}

 12%|█████████▋                                                                     | 84/681 [03:40<25:59,  2.61s/it]
 12%|█████████▊                                                                     | 85/681 [03:43<26:01,  2.62s/it]
                                                                                                                     
{'loss': 1.0304, 'grad_norm': 61.42685317993164, 'learning_rate': 4.992592445678582e-07, 'beta_dpo/gap_mean': 15.512821197509766, 'beta_dpo/gap_std': 18.84861183166504, 'beta_dpo/beta_used_raw': -0.06038748845458031, 'beta_dpo/beta_used': 0.05548453703522682, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6268604397773743, 'logits/rejected': -0.5931763648986816, 'beta_dpo/beta': 0.05548453703522682, 'beta_dpo/loss_margin_mean': 15.94063663482666, 'beta_dpo/beta_margin_mean': 1.1414363384246826, 'beta_dpo/beta_margin_std': 1.9398654699325562, 'beta_dpo/beta_margin_grad_mean': -0.3620225489139557, 'beta_dpo/beta_margin_grad_std': 0.21889419853687286, 'epoch': 0.12}

 12%|█████████▊                                                                     | 85/681 [03:43<26:01,  2.62s/it]
 13%|█████████▉                                                                     | 86/681 [03:46<26:50,  2.71s/it]
                                                                                                                     
{'loss': 1.17, 'grad_norm': 116.6102523803711, 'learning_rate': 4.991572423079235e-07, 'beta_dpo/gap_mean': 15.852239608764648, 'beta_dpo/gap_std': 20.208812713623047, 'beta_dpo/beta_used_raw': -0.07008485496044159, 'beta_dpo/beta_used': 0.08018074184656143, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6792384386062622, 'logits/rejected': -0.6633239984512329, 'beta_dpo/beta': 0.08018074184656143, 'beta_dpo/loss_margin_mean': 16.962554931640625, 'beta_dpo/beta_margin_mean': 1.180087924003601, 'beta_dpo/beta_margin_std': 3.0287249088287354, 'beta_dpo/beta_margin_grad_mean': -0.3861086666584015, 'beta_dpo/beta_margin_grad_std': 0.2810457944869995, 'epoch': 0.13}

 13%|█████████▉                                                                     | 86/681 [03:46<26:50,  2.71s/it]
 13%|██████████                                                                     | 87/681 [03:48<26:21,  2.66s/it]
                                                                                                                     
{'loss': 0.7054, 'grad_norm': 81.023681640625, 'learning_rate': 4.990486745229364e-07, 'beta_dpo/gap_mean': 16.574663162231445, 'beta_dpo/gap_std': 21.20650863647461, 'beta_dpo/beta_used_raw': 0.12275532633066177, 'beta_dpo/beta_used': 0.12275532633066177, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7079585790634155, 'logits/rejected': -0.675015389919281, 'beta_dpo/beta': 0.12275532633066177, 'beta_dpo/loss_margin_mean': 18.905868530273438, 'beta_dpo/beta_margin_mean': 2.5129313468933105, 'beta_dpo/beta_margin_std': 3.3721165657043457, 'beta_dpo/beta_margin_grad_mean': -0.2609297037124634, 'beta_dpo/beta_margin_grad_std': 0.26698076725006104, 'epoch': 0.13}

 13%|██████████                                                                     | 87/681 [03:48<26:21,  2.66s/it]
 13%|██████████▏                                                                    | 88/681 [03:51<26:11,  2.65s/it]
                                                                                                                     
{'loss': 1.0505, 'grad_norm': 91.79285430908203, 'learning_rate': 4.989335440737586e-07, 'beta_dpo/gap_mean': 16.420879364013672, 'beta_dpo/gap_std': 22.033344268798828, 'beta_dpo/beta_used_raw': 0.07114126533269882, 'beta_dpo/beta_used': 0.10302203893661499, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.661591649055481, 'logits/rejected': -0.6481854915618896, 'beta_dpo/beta': 0.10302203893661499, 'beta_dpo/loss_margin_mean': 14.693923950195312, 'beta_dpo/beta_margin_mean': 1.8344087600708008, 'beta_dpo/beta_margin_std': 4.733022689819336, 'beta_dpo/beta_margin_grad_mean': -0.38228002190589905, 'beta_dpo/beta_margin_grad_std': 0.26822036504745483, 'epoch': 0.13}

 13%|██████████▏                                                                    | 88/681 [03:51<26:11,  2.65s/it]
 13%|██████████▎                                                                    | 89/681 [03:54<25:40,  2.60s/it]
                                                                                                                     
{'loss': 0.8893, 'grad_norm': 84.89918518066406, 'learning_rate': 4.988118539941847e-07, 'beta_dpo/gap_mean': 15.963903427124023, 'beta_dpo/gap_std': 21.23855209350586, 'beta_dpo/beta_used_raw': -0.0026644468307495117, 'beta_dpo/beta_used': 0.12089363485574722, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7054777145385742, 'logits/rejected': -0.666853129863739, 'beta_dpo/beta': 0.12089363485574722, 'beta_dpo/loss_margin_mean': 15.816018104553223, 'beta_dpo/beta_margin_mean': 2.3120830059051514, 'beta_dpo/beta_margin_std': 3.9636423587799072, 'beta_dpo/beta_margin_grad_mean': -0.32127439975738525, 'beta_dpo/beta_margin_grad_std': 0.2475607842206955, 'epoch': 0.13}

 13%|██████████▎                                                                    | 89/681 [03:54<25:40,  2.60s/it]
 13%|██████████▍                                                                    | 90/681 [03:56<25:07,  2.55s/it]
                                                                                                                     
{'loss': 1.3734, 'grad_norm': 1.6320456266403198, 'learning_rate': 4.986836074908615e-07, 'beta_dpo/gap_mean': 16.511451721191406, 'beta_dpo/gap_std': 22.19609832763672, 'beta_dpo/beta_used_raw': -0.10932803153991699, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6601126194000244, 'logits/rejected': -0.6607536673545837, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 20.473350524902344, 'beta_dpo/beta_margin_mean': 0.020473351702094078, 'beta_dpo/beta_margin_std': 0.029139788821339607, 'beta_dpo/beta_margin_grad_mean': -0.4948834478855133, 'beta_dpo/beta_margin_grad_std': 0.007280984427779913, 'epoch': 0.13}

 13%|██████████▍                                                                    | 90/681 [03:56<25:07,  2.55s/it]
 13%|██████████▌                                                                    | 91/681 [03:59<25:16,  2.57s/it]
                                                                                                                     
{'loss': 1.135, 'grad_norm': 163.5145721435547, 'learning_rate': 4.985488079432037e-07, 'beta_dpo/gap_mean': 16.999650955200195, 'beta_dpo/gap_std': 22.816213607788086, 'beta_dpo/beta_used_raw': 0.060106635093688965, 'beta_dpo/beta_used': 0.0956064909696579, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.683163583278656, 'logits/rejected': -0.6435012817382812, 'beta_dpo/beta': 0.0956064909696579, 'beta_dpo/loss_margin_mean': 17.7425594329834, 'beta_dpo/beta_margin_mean': 1.9452344179153442, 'beta_dpo/beta_margin_std': 3.7261810302734375, 'beta_dpo/beta_margin_grad_mean': -0.36107704043388367, 'beta_dpo/beta_margin_grad_std': 0.26534104347229004, 'epoch': 0.13}

 13%|██████████▌                                                                    | 91/681 [03:59<25:16,  2.57s/it]
 14%|██████████▋                                                                    | 92/681 [04:01<24:58,  2.54s/it]
                                                                                                                     
{'loss': 1.3231, 'grad_norm': 7.026480197906494, 'learning_rate': 4.984074589033043e-07, 'beta_dpo/gap_mean': 17.035350799560547, 'beta_dpo/gap_std': 22.991302490234375, 'beta_dpo/beta_used_raw': -0.09906575083732605, 'beta_dpo/beta_used': 0.004416329320520163, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.714478611946106, 'logits/rejected': -0.685989499092102, 'beta_dpo/beta': 0.004416329320520163, 'beta_dpo/loss_margin_mean': 17.186429977416992, 'beta_dpo/beta_margin_mean': 0.08677387237548828, 'beta_dpo/beta_margin_std': 0.1371731013059616, 'beta_dpo/beta_margin_grad_mean': -0.47850051522254944, 'beta_dpo/beta_margin_grad_std': 0.033828821033239365, 'epoch': 0.14}

 14%|██████████▋                                                                    | 92/681 [04:01<24:58,  2.54s/it]
 14%|██████████▊                                                                    | 93/681 [04:03<23:41,  2.42s/it]
                                                                                                                     
{'loss': 1.216, 'grad_norm': 17.654693603515625, 'learning_rate': 4.982595640958425e-07, 'beta_dpo/gap_mean': 17.194652557373047, 'beta_dpo/gap_std': 22.38436508178711, 'beta_dpo/beta_used_raw': 0.003189191222190857, 'beta_dpo/beta_used': 0.012795208021998405, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7458562850952148, 'logits/rejected': -0.6881492137908936, 'beta_dpo/beta': 0.012795208021998405, 'beta_dpo/loss_margin_mean': 17.124244689941406, 'beta_dpo/beta_margin_mean': 0.21816346049308777, 'beta_dpo/beta_margin_std': 0.3640429377555847, 'beta_dpo/beta_margin_grad_mean': -0.4487362504005432, 'beta_dpo/beta_margin_grad_std': 0.08327450603246689, 'epoch': 0.14}

 14%|██████████▊                                                                    | 93/681 [04:03<23:41,  2.42s/it]
 14%|██████████▉                                                                    | 94/681 [04:06<24:53,  2.54s/it]
                                                                                                                     
{'loss': 0.9494, 'grad_norm': 86.43866729736328, 'learning_rate': 4.98105127417984e-07, 'beta_dpo/gap_mean': 17.62067222595215, 'beta_dpo/gap_std': 22.231197357177734, 'beta_dpo/beta_used_raw': 0.05387556180357933, 'beta_dpo/beta_used': 0.08266030997037888, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6766291260719299, 'logits/rejected': -0.6523104310035706, 'beta_dpo/beta': 0.08266030997037888, 'beta_dpo/loss_margin_mean': 19.16136932373047, 'beta_dpo/beta_margin_mean': 1.8386805057525635, 'beta_dpo/beta_margin_std': 3.1514334678649902, 'beta_dpo/beta_margin_grad_mean': -0.34286096692085266, 'beta_dpo/beta_margin_grad_std': 0.254118949174881, 'epoch': 0.14}

 14%|██████████▉                                                                    | 94/681 [04:06<24:53,  2.54s/it]
 14%|███████████                                                                    | 95/681 [04:09<24:37,  2.52s/it]
                                                                                                                     
{'loss': 1.3739, 'grad_norm': 1.29397714138031, 'learning_rate': 4.979441529392784e-07, 'beta_dpo/gap_mean': 17.355606079101562, 'beta_dpo/gap_std': 21.673551559448242, 'beta_dpo/beta_used_raw': -0.1939472258090973, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.737293004989624, 'logits/rejected': -0.7039185166358948, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 15.809903144836426, 'beta_dpo/beta_margin_mean': 0.015809904783964157, 'beta_dpo/beta_margin_std': 0.018763281404972076, 'beta_dpo/beta_margin_grad_mean': -0.4960479736328125, 'beta_dpo/beta_margin_grad_std': 0.00468993978574872, 'epoch': 0.14}

 14%|███████████                                                                    | 95/681 [04:09<24:37,  2.52s/it]
 14%|███████████▏                                                                   | 96/681 [04:11<24:43,  2.54s/it]
                                                                                                                     
{'loss': 0.7946, 'grad_norm': 48.836517333984375, 'learning_rate': 4.977766449015534e-07, 'beta_dpo/gap_mean': 17.98691177368164, 'beta_dpo/gap_std': 21.86615753173828, 'beta_dpo/beta_used_raw': -0.02500748634338379, 'beta_dpo/beta_used': 0.1486305147409439, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7020214796066284, 'logits/rejected': -0.6632054448127747, 'beta_dpo/beta': 0.1486305147409439, 'beta_dpo/loss_margin_mean': 21.639110565185547, 'beta_dpo/beta_margin_mean': 3.7028400897979736, 'beta_dpo/beta_margin_std': 6.17563533782959, 'beta_dpo/beta_margin_grad_mean': -0.30508890748023987, 'beta_dpo/beta_margin_grad_std': 0.2417270988225937, 'epoch': 0.14}

 14%|███████████▏                                                                   | 96/681 [04:11<24:43,  2.54s/it]
 14%|███████████▎                                                                   | 97/681 [04:14<25:24,  2.61s/it]
                                                                                                                     
{'loss': 0.9477, 'grad_norm': 62.58485794067383, 'learning_rate': 4.976026077188012e-07, 'beta_dpo/gap_mean': 17.544296264648438, 'beta_dpo/gap_std': 21.351360321044922, 'beta_dpo/beta_used_raw': 0.023374740034341812, 'beta_dpo/beta_used': 0.06436537951231003, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6425115466117859, 'logits/rejected': -0.5889946818351746, 'beta_dpo/beta': 0.06436537951231003, 'beta_dpo/loss_margin_mean': 16.46492576599121, 'beta_dpo/beta_margin_mean': 1.3948326110839844, 'beta_dpo/beta_margin_std': 2.1092705726623535, 'beta_dpo/beta_margin_grad_mean': -0.3319231867790222, 'beta_dpo/beta_margin_grad_std': 0.21798565983772278, 'epoch': 0.14}

 14%|███████████▎                                                                   | 97/681 [04:14<25:24,  2.61s/it]
 14%|███████████▎                                                                   | 98/681 [04:16<24:43,  2.55s/it]
                                                                                                                     
{'loss': 1.0858, 'grad_norm': 155.92921447753906, 'learning_rate': 4.974220459770639e-07, 'beta_dpo/gap_mean': 17.85407257080078, 'beta_dpo/gap_std': 21.613468170166016, 'beta_dpo/beta_used_raw': 0.16680875420570374, 'beta_dpo/beta_used': 0.1993415206670761, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6993780136108398, 'logits/rejected': -0.6774000525474548, 'beta_dpo/beta': 0.1993415206670761, 'beta_dpo/loss_margin_mean': 18.21445655822754, 'beta_dpo/beta_margin_mean': 3.733274221420288, 'beta_dpo/beta_margin_std': 8.150524139404297, 'beta_dpo/beta_margin_grad_mean': -0.3418026566505432, 'beta_dpo/beta_margin_grad_std': 0.29540500044822693, 'epoch': 0.14}

 14%|███████████▎                                                                   | 98/681 [04:16<24:43,  2.55s/it]
 15%|███████████▍                                                                   | 99/681 [04:18<23:46,  2.45s/it]
                                                                                                                     
{'loss': 0.7627, 'grad_norm': 45.9489860534668, 'learning_rate': 4.972349644343108e-07, 'beta_dpo/gap_mean': 18.435466766357422, 'beta_dpo/gap_std': 22.153942108154297, 'beta_dpo/beta_used_raw': 0.05922618508338928, 'beta_dpo/beta_used': 0.05922618508338928, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6738119125366211, 'logits/rejected': -0.6671220660209656, 'beta_dpo/beta': 0.05922618508338928, 'beta_dpo/loss_margin_mean': 21.74091911315918, 'beta_dpo/beta_margin_mean': 1.2846572399139404, 'beta_dpo/beta_margin_std': 1.4927436113357544, 'beta_dpo/beta_margin_grad_mean': -0.29211270809173584, 'beta_dpo/beta_margin_grad_std': 0.1934242695569992, 'epoch': 0.15}

 15%|███████████▍                                                                   | 99/681 [04:19<23:46,  2.45s/it]
 15%|███████████▍                                                                  | 100/681 [04:21<24:11,  2.50s/it]
                                                                                                                     
{'loss': 0.9552, 'grad_norm': 40.60963821411133, 'learning_rate': 4.970413680203148e-07, 'beta_dpo/gap_mean': 17.79035186767578, 'beta_dpo/gap_std': 22.48064422607422, 'beta_dpo/beta_used_raw': 0.027484482154250145, 'beta_dpo/beta_used': 0.049059588462114334, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6705986261367798, 'logits/rejected': -0.62305748462677, 'beta_dpo/beta': 0.049059588462114334, 'beta_dpo/loss_margin_mean': 13.807634353637695, 'beta_dpo/beta_margin_mean': 0.7820718884468079, 'beta_dpo/beta_margin_std': 1.3751544952392578, 'beta_dpo/beta_margin_grad_mean': -0.376477986574173, 'beta_dpo/beta_margin_grad_std': 0.19105187058448792, 'epoch': 0.15}

 15%|███████████▍                                                                  | 100/681 [04:21<24:11,  2.50s/it][INFO|trainer.py:4307] 2026-04-17 23:27:53,623 >>
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-17 23:27:53,624 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-17 23:27:53,624 >>   Batch size = 8


  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A

  3%|██▏                                                                              | 2/73 [00:00<00:20,  3.55it/s][A

  4%|███▎                                                                             | 3/73 [00:01<00:27,  2.56it/s][A

  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.25it/s][A

  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.11it/s][A

  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.00it/s][A

 10%|███████▊                                                                         | 7/73 [00:03<00:32,  2.06it/s][A

 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.92it/s][A

 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.87it/s][A

 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.84it/s][A

 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A

 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.81it/s][A

 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.85it/s][A

 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.82it/s][A

 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.82it/s][A

 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.75it/s][A

 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.74it/s][A

 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.73it/s][A

 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.70it/s][A

 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.69it/s][A

 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.69it/s][A

 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.68it/s][A

 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:29,  1.72it/s][A

 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.73it/s][A

 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:28,  1.71it/s][A

 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.73it/s][A

 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s][A

 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.89it/s][A

 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:23,  1.91it/s][A

 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.93it/s][A

 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.84it/s][A

 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.88it/s][A

 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:21,  1.90it/s][A

 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:21,  1.86it/s][A

 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.79it/s][A

 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.81it/s][A

 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s][A

 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.87it/s][A

 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:19,  1.79it/s][A

 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.81it/s][A

 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.88it/s][A

 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:16,  1.83it/s][A

 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s][A

 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.84it/s][A

 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s][A

 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.85it/s][A

 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.81it/s][A

 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:26<00:13,  1.79it/s][A

 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.78it/s][A

 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.80it/s][A

 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.78it/s][A

 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.73it/s][A

 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s][A

 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.81it/s][A

 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.80it/s][A

 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.84it/s][A

 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.77it/s][A

 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s][A

 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.84it/s][A

 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s][A

 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A

 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.75it/s][A

 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.87it/s][A

 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.94it/s][A

 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.91it/s][A

 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.84it/s][A

 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.88it/s][A

 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:37<00:02,  1.83it/s][A

 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.80it/s][A

 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A

 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.80it/s][A

 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.80it/s][A

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A

                                                                                                                     
[A{'eval_loss': 0.6785586476325989, 'eval_runtime': 40.2677, 'eval_samples_per_second': 58.086, 'eval_steps_per_second': 1.838, 'eval_beta_dpo/beta': 0.004559545312076807, 'eval_beta_dpo/loss_margin_mean': 9.809774398803711, 'eval_beta_dpo/beta_margin_mean': 0.07250447571277618, 'eval_beta_dpo/beta_margin_std': 0.1095583513379097, 'eval_beta_dpo/beta_margin_grad_mean': -0.489467054605484, 'eval_beta_dpo/beta_margin_grad_std': 0.016749924048781395, 'eval_beta_dpo/gap_mean': 17.69536590576172, 'eval_beta_dpo/gap_std': 22.184284210205078, 'eval_beta_dpo/beta_used_raw': -0.37313562631607056, 'eval_beta_dpo/beta_used': 0.004559545312076807, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.6697728037834167, 'eval_logits/rejected': -0.641778290271759, 'epoch': 0.15}

 15%|███████████▍                                                                  | 100/681 [05:01<24:11,  2.50s/it]

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A

                                                                                                                     [A
 15%|███████████▎                                                                | 101/681 [05:04<2:20:40, 14.55s/it]
                                                                                                                     
{'loss': 1.0062, 'grad_norm': 78.9544448852539, 'learning_rate': 4.968412618365215e-07, 'beta_dpo/gap_mean': 17.66168975830078, 'beta_dpo/gap_std': 22.67660903930664, 'beta_dpo/beta_used_raw': -0.08677682280540466, 'beta_dpo/beta_used': 0.07321029156446457, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6895424127578735, 'logits/rejected': -0.650581955909729, 'beta_dpo/beta': 0.07321029156446457, 'beta_dpo/loss_margin_mean': 16.247787475585938, 'beta_dpo/beta_margin_mean': 1.4722819328308105, 'beta_dpo/beta_margin_std': 3.1001694202423096, 'beta_dpo/beta_margin_grad_mean': -0.3686811923980713, 'beta_dpo/beta_margin_grad_std': 0.25677189230918884, 'epoch': 0.15}

 15%|███████████▎                                                                | 101/681 [05:04<2:20:40, 14.55s/it]
 15%|███████████▍                                                                | 102/681 [05:06<1:45:20, 10.92s/it]
                                                                                                                     
{'loss': 1.3751, 'grad_norm': 1.3097914457321167, 'learning_rate': 4.966346511559149e-07, 'beta_dpo/gap_mean': 16.36496925354004, 'beta_dpo/gap_std': 22.436237335205078, 'beta_dpo/beta_used_raw': -0.20228251814842224, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7123202681541443, 'logits/rejected': -0.6617774963378906, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 11.683052062988281, 'beta_dpo/beta_margin_mean': 0.011683052405714989, 'beta_dpo/beta_margin_std': 0.022071124985814095, 'beta_dpo/beta_margin_grad_mean': -0.4970797300338745, 'beta_dpo/beta_margin_grad_std': 0.005516585893929005, 'epoch': 0.15}

 15%|███████████▍                                                                | 102/681 [05:06<1:45:20, 10.92s/it]
 15%|███████████▍                                                                | 103/681 [05:09<1:20:23,  8.35s/it]
                                                                                                                     
{'loss': 1.0281, 'grad_norm': 182.22842407226562, 'learning_rate': 4.964215414228785e-07, 'beta_dpo/gap_mean': 17.27025032043457, 'beta_dpo/gap_std': 22.856536865234375, 'beta_dpo/beta_used_raw': 0.11348496377468109, 'beta_dpo/beta_used': 0.12889112532138824, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6717199087142944, 'logits/rejected': -0.6303577423095703, 'beta_dpo/beta': 0.12889112532138824, 'beta_dpo/loss_margin_mean': 22.42643928527832, 'beta_dpo/beta_margin_mean': 2.756754159927368, 'beta_dpo/beta_margin_std': 4.887447357177734, 'beta_dpo/beta_margin_grad_mean': -0.33258166909217834, 'beta_dpo/beta_margin_grad_std': 0.2698776423931122, 'epoch': 0.15}

 15%|███████████▍                                                                | 103/681 [05:09<1:20:23,  8.35s/it]
 15%|███████████▌                                                                | 104/681 [05:11<1:02:35,  6.51s/it]
                                                                                                                     
{'loss': 1.0529, 'grad_norm': 88.83678436279297, 'learning_rate': 4.96201938253052e-07, 'beta_dpo/gap_mean': 17.94310760498047, 'beta_dpo/gap_std': 23.2835693359375, 'beta_dpo/beta_used_raw': 0.046856410801410675, 'beta_dpo/beta_used': 0.06325404345989227, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7104257345199585, 'logits/rejected': -0.6671864986419678, 'beta_dpo/beta': 0.06325404345989227, 'beta_dpo/loss_margin_mean': 21.150423049926758, 'beta_dpo/beta_margin_mean': 1.4412060976028442, 'beta_dpo/beta_margin_std': 3.0654594898223877, 'beta_dpo/beta_margin_grad_mean': -0.36961308121681213, 'beta_dpo/beta_margin_grad_std': 0.2353500872850418, 'epoch': 0.15}

 15%|███████████▌                                                                | 104/681 [05:11<1:02:35,  6.51s/it]
 15%|████████████                                                                  | 105/681 [05:13<51:16,  5.34s/it]
                                                                                                                     
{'loss': 0.522, 'grad_norm': 242.09918212890625, 'learning_rate': 4.959758474331832e-07, 'beta_dpo/gap_mean': 19.79109764099121, 'beta_dpo/gap_std': 23.633255004882812, 'beta_dpo/beta_used_raw': 0.36780738830566406, 'beta_dpo/beta_used': 0.36780738830566406, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.732721209526062, 'logits/rejected': -0.7001240849494934, 'beta_dpo/beta': 0.36780738830566406, 'beta_dpo/loss_margin_mean': 29.683706283569336, 'beta_dpo/beta_margin_mean': 10.949403762817383, 'beta_dpo/beta_margin_std': 9.001367568969727, 'beta_dpo/beta_margin_grad_mean': -0.08803264796733856, 'beta_dpo/beta_margin_grad_std': 0.23639245331287384, 'epoch': 0.15}

 15%|████████████                                                                  | 105/681 [05:13<51:16,  5.34s/it]
 16%|████████████▏                                                                 | 106/681 [05:16<42:53,  4.48s/it]
                                                                                                                     
{'loss': 1.3696, 'grad_norm': 1.546743392944336, 'learning_rate': 4.957432749209755e-07, 'beta_dpo/gap_mean': 20.10454750061035, 'beta_dpo/gap_std': 23.268360137939453, 'beta_dpo/beta_used_raw': -0.09649403393268585, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6345574855804443, 'logits/rejected': -0.5829192399978638, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 18.190433502197266, 'beta_dpo/beta_margin_mean': 0.01819043606519699, 'beta_dpo/beta_margin_std': 0.020566506311297417, 'beta_dpo/beta_margin_grad_mean': -0.4954530894756317, 'beta_dpo/beta_margin_grad_std': 0.005140354391187429, 'epoch': 0.16}

 16%|████████████▏                                                                 | 106/681 [05:16<42:53,  4.48s/it]
 16%|████████████▎                                                                 | 107/681 [05:19<37:58,  3.97s/it]
                                                                                                                     
{'loss': 0.559, 'grad_norm': 113.67718505859375, 'learning_rate': 4.955042268449307e-07, 'beta_dpo/gap_mean': 20.150800704956055, 'beta_dpo/gap_std': 23.207382202148438, 'beta_dpo/beta_used_raw': 0.15242286026477814, 'beta_dpo/beta_used': 0.15242286026477814, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7242048978805542, 'logits/rejected': -0.6693615317344666, 'beta_dpo/beta': 0.15242286026477814, 'beta_dpo/loss_margin_mean': 20.48804473876953, 'beta_dpo/beta_margin_mean': 3.2626266479492188, 'beta_dpo/beta_margin_std': 3.9688947200775146, 'beta_dpo/beta_margin_grad_mean': -0.2269459068775177, 'beta_dpo/beta_margin_grad_std': 0.27589160203933716, 'epoch': 0.16}

 16%|████████████▎                                                                 | 107/681 [05:19<37:58,  3.97s/it]
 16%|████████████▎                                                                 | 108/681 [05:21<33:52,  3.55s/it]
                                                                                                                     
{'loss': 1.0071, 'grad_norm': 30.485048294067383, 'learning_rate': 4.952587095041881e-07, 'beta_dpo/gap_mean': 20.339149475097656, 'beta_dpo/gap_std': 24.504940032958984, 'beta_dpo/beta_used_raw': 0.017950953915715218, 'beta_dpo/beta_used': 0.035163089632987976, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7240760326385498, 'logits/rejected': -0.6844010949134827, 'beta_dpo/beta': 0.035163089632987976, 'beta_dpo/loss_margin_mean': 22.11771011352539, 'beta_dpo/beta_margin_mean': 0.7840278148651123, 'beta_dpo/beta_margin_std': 1.483026146888733, 'beta_dpo/beta_margin_grad_mean': -0.3810098469257355, 'beta_dpo/beta_margin_grad_std': 0.18505938351154327, 'epoch': 0.16}

 16%|████████████▎                                                                 | 108/681 [05:21<33:52,  3.55s/it]
 16%|████████████▍                                                                 | 109/681 [05:24<31:20,  3.29s/it]
                                                                                                                     
{'loss': 0.7082, 'grad_norm': 72.3277359008789, 'learning_rate': 4.95006729368358e-07, 'beta_dpo/gap_mean': 21.11379051208496, 'beta_dpo/gap_std': 24.862241744995117, 'beta_dpo/beta_used_raw': 0.08255766332149506, 'beta_dpo/beta_used': 0.08255766332149506, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6247401833534241, 'logits/rejected': -0.5946367979049683, 'beta_dpo/beta': 0.08255766332149506, 'beta_dpo/loss_margin_mean': 24.515644073486328, 'beta_dpo/beta_margin_mean': 2.0719735622406006, 'beta_dpo/beta_margin_std': 2.4666452407836914, 'beta_dpo/beta_margin_grad_mean': -0.24582688510417938, 'beta_dpo/beta_margin_grad_std': 0.24141037464141846, 'epoch': 0.16}

 16%|████████████▍                                                                 | 109/681 [05:24<31:20,  3.29s/it]
 16%|████████████▌                                                                 | 110/681 [05:27<29:28,  3.10s/it]
                                                                                                                     
{'loss': 1.2462, 'grad_norm': 12.362462043762207, 'learning_rate': 4.947482930773511e-07, 'beta_dpo/gap_mean': 21.73975372314453, 'beta_dpo/gap_std': 25.069347381591797, 'beta_dpo/beta_used_raw': -0.11108442395925522, 'beta_dpo/beta_used': 0.007696578744798899, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6756146550178528, 'logits/rejected': -0.6260861158370972, 'beta_dpo/beta': 0.007696578744798899, 'beta_dpo/loss_margin_mean': 22.480884552001953, 'beta_dpo/beta_margin_mean': 0.2259088009595871, 'beta_dpo/beta_margin_std': 0.35111066699028015, 'beta_dpo/beta_margin_grad_mean': -0.446740984916687, 'beta_dpo/beta_margin_grad_std': 0.07942461222410202, 'epoch': 0.16}

 16%|████████████▌                                                                 | 110/681 [05:27<29:28,  3.10s/it]
 16%|████████████▋                                                                 | 111/681 [05:29<27:48,  2.93s/it]
                                                                                                                     
{'loss': 1.3676, 'grad_norm': 1.6921226978302002, 'learning_rate': 4.944834074412042e-07, 'beta_dpo/gap_mean': 21.86594009399414, 'beta_dpo/gap_std': 25.79961395263672, 'beta_dpo/beta_used_raw': -0.0781029760837555, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6994168758392334, 'logits/rejected': -0.6692637801170349, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 23.822509765625, 'beta_dpo/beta_margin_mean': 0.023822510614991188, 'beta_dpo/beta_margin_std': 0.028938332572579384, 'beta_dpo/beta_margin_grad_mean': -0.49404606223106384, 'beta_dpo/beta_margin_grad_std': 0.007231460884213448, 'epoch': 0.16}

 16%|████████████▋                                                                 | 111/681 [05:29<27:48,  2.93s/it]
 16%|████████████▊                                                                 | 112/681 [05:31<25:51,  2.73s/it]
                                                                                                                     
{'loss': 0.7237, 'grad_norm': 29.376951217651367, 'learning_rate': 4.942120794399002e-07, 'beta_dpo/gap_mean': 21.06276512145996, 'beta_dpo/gap_std': 25.198822021484375, 'beta_dpo/beta_used_raw': -0.08103512227535248, 'beta_dpo/beta_used': 0.15165650844573975, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6914588212966919, 'logits/rejected': -0.6384344100952148, 'beta_dpo/beta': 0.15165650844573975, 'beta_dpo/loss_margin_mean': 15.551918029785156, 'beta_dpo/beta_margin_mean': 2.929415702819824, 'beta_dpo/beta_margin_std': 5.559157848358154, 'beta_dpo/beta_margin_grad_mean': -0.34309816360473633, 'beta_dpo/beta_margin_grad_std': 0.28766128420829773, 'epoch': 0.16}

 16%|████████████▊                                                                 | 112/681 [05:31<25:51,  2.73s/it]
 17%|████████████▉                                                                 | 113/681 [05:34<25:36,  2.71s/it]
                                                                                                                     
{'loss': 1.0275, 'grad_norm': 73.8025894165039, 'learning_rate': 4.939343162231841e-07, 'beta_dpo/gap_mean': 20.280515670776367, 'beta_dpo/gap_std': 24.34324836730957, 'beta_dpo/beta_used_raw': 0.0037154704332351685, 'beta_dpo/beta_used': 0.06923054903745651, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6436402797698975, 'logits/rejected': -0.5879355669021606, 'beta_dpo/beta': 0.06923054903745651, 'beta_dpo/loss_margin_mean': 18.54205894470215, 'beta_dpo/beta_margin_mean': 1.2863365411758423, 'beta_dpo/beta_margin_std': 2.375030994415283, 'beta_dpo/beta_margin_grad_mean': -0.37122005224227905, 'beta_dpo/beta_margin_grad_std': 0.23908159136772156, 'epoch': 0.17}

 17%|████████████▉                                                                 | 113/681 [05:34<25:36,  2.71s/it]
 17%|█████████████                                                                 | 114/681 [05:36<24:51,  2.63s/it]
                                                                                                                     
{'loss': 1.1018, 'grad_norm': 182.32144165039062, 'learning_rate': 4.936501251103751e-07, 'beta_dpo/gap_mean': 21.269786834716797, 'beta_dpo/gap_std': 25.5091552734375, 'beta_dpo/beta_used_raw': 0.0014918148517608643, 'beta_dpo/beta_used': 0.10792845487594604, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6645747423171997, 'logits/rejected': -0.6166965365409851, 'beta_dpo/beta': 0.10792845487594604, 'beta_dpo/loss_margin_mean': 26.308393478393555, 'beta_dpo/beta_margin_mean': 3.3032939434051514, 'beta_dpo/beta_margin_std': 6.392845630645752, 'beta_dpo/beta_margin_grad_mean': -0.3395880460739136, 'beta_dpo/beta_margin_grad_std': 0.2739325165748596, 'epoch': 0.17}

 17%|█████████████                                                                 | 114/681 [05:36<24:51,  2.63s/it]
 17%|█████████████▏                                                                | 115/681 [05:39<24:58,  2.65s/it]
                                                                                                                     
{'loss': 1.3694, 'grad_norm': 1.579263687133789, 'learning_rate': 4.933595135901732e-07, 'beta_dpo/gap_mean': 20.974491119384766, 'beta_dpo/gap_std': 26.741947174072266, 'beta_dpo/beta_used_raw': -0.13187555968761444, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7198022603988647, 'logits/rejected': -0.6816444396972656, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 19.854700088500977, 'beta_dpo/beta_margin_mean': 0.019854702055454254, 'beta_dpo/beta_margin_std': 0.03287569805979729, 'beta_dpo/beta_margin_grad_mean': -0.4950384795665741, 'beta_dpo/beta_margin_grad_std': 0.008213133551180363, 'epoch': 0.17}

 17%|█████████████▏                                                                | 115/681 [05:39<24:58,  2.65s/it]
 17%|█████████████▎                                                                | 116/681 [05:41<24:09,  2.57s/it]
                                                                                                                     
{'loss': 0.9244, 'grad_norm': 229.8918914794922, 'learning_rate': 4.930624893204624e-07, 'beta_dpo/gap_mean': 20.802410125732422, 'beta_dpo/gap_std': 26.271785736083984, 'beta_dpo/beta_used_raw': 7.016956806182861e-05, 'beta_dpo/beta_used': 0.14748090505599976, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.703331708908081, 'logits/rejected': -0.6744290590286255, 'beta_dpo/beta': 0.14748090505599976, 'beta_dpo/loss_margin_mean': 20.255638122558594, 'beta_dpo/beta_margin_mean': 3.44006085395813, 'beta_dpo/beta_margin_std': 5.296873569488525, 'beta_dpo/beta_margin_grad_mean': -0.3244438171386719, 'beta_dpo/beta_margin_grad_std': 0.25262880325317383, 'epoch': 0.17}

 17%|█████████████▎                                                                | 116/681 [05:42<24:09,  2.57s/it]
 17%|█████████████▍                                                                | 117/681 [05:44<23:44,  2.53s/it]
                                                                                                                     
{'loss': 1.3696, 'grad_norm': 1.411366581916809, 'learning_rate': 4.927590601281083e-07, 'beta_dpo/gap_mean': 20.31169891357422, 'beta_dpo/gap_std': 25.738601684570312, 'beta_dpo/beta_used_raw': -0.11201402544975281, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6768569946289062, 'logits/rejected': -0.6319583654403687, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 16.92489242553711, 'beta_dpo/beta_margin_mean': 0.016924891620874405, 'beta_dpo/beta_margin_std': 0.023586571216583252, 'beta_dpo/beta_margin_grad_mean': -0.49576959013938904, 'beta_dpo/beta_margin_grad_std': 0.0058947219513356686, 'epoch': 0.17}

 17%|█████████████▍                                                                | 117/681 [05:44<23:44,  2.53s/it]
 17%|█████████████▌                                                                | 118/681 [05:46<23:42,  2.53s/it]
                                                                                                                     
{'loss': 0.9355, 'grad_norm': 34.99771499633789, 'learning_rate': 4.924492340087524e-07, 'beta_dpo/gap_mean': 19.919933319091797, 'beta_dpo/gap_std': 25.017112731933594, 'beta_dpo/beta_used_raw': -0.008384305983781815, 'beta_dpo/beta_used': 0.05472584441304207, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7068147659301758, 'logits/rejected': -0.6715903282165527, 'beta_dpo/beta': 0.05472584441304207, 'beta_dpo/loss_margin_mean': 18.486082077026367, 'beta_dpo/beta_margin_mean': 1.0326712131500244, 'beta_dpo/beta_margin_std': 1.876607060432434, 'beta_dpo/beta_margin_grad_mean': -0.3660266399383545, 'beta_dpo/beta_margin_grad_std': 0.20633184909820557, 'epoch': 0.17}

 17%|█████████████▌                                                                | 118/681 [05:46<23:42,  2.53s/it]
 17%|█████████████▋                                                                | 119/681 [05:49<24:09,  2.58s/it]
                                                                                                                     
{'loss': 1.0162, 'grad_norm': 146.54409790039062, 'learning_rate': 4.92133019126601e-07, 'beta_dpo/gap_mean': 19.92425537109375, 'beta_dpo/gap_std': 24.904251098632812, 'beta_dpo/beta_used_raw': -0.03881131112575531, 'beta_dpo/beta_used': 0.10491637140512466, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7222672700881958, 'logits/rejected': -0.6985388994216919, 'beta_dpo/beta': 0.10491637140512466, 'beta_dpo/loss_margin_mean': 19.200084686279297, 'beta_dpo/beta_margin_mean': 2.3737905025482178, 'beta_dpo/beta_margin_std': 4.37314510345459, 'beta_dpo/beta_margin_grad_mean': -0.33534765243530273, 'beta_dpo/beta_margin_grad_std': 0.2645687460899353, 'epoch': 0.17}

 17%|█████████████▋                                                                | 119/681 [05:49<24:09,  2.58s/it]
 18%|█████████████▋                                                                | 120/681 [05:52<24:54,  2.66s/it]
                                                                                                                     
{'loss': 0.6997, 'grad_norm': 204.10935974121094, 'learning_rate': 4.918104238142103e-07, 'beta_dpo/gap_mean': 20.34283447265625, 'beta_dpo/gap_std': 25.407583236694336, 'beta_dpo/beta_used_raw': 0.21818916499614716, 'beta_dpo/beta_used': 0.21818916499614716, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7220108509063721, 'logits/rejected': -0.6780139207839966, 'beta_dpo/beta': 0.21818916499614716, 'beta_dpo/loss_margin_mean': 24.195154190063477, 'beta_dpo/beta_margin_mean': 5.290563106536865, 'beta_dpo/beta_margin_std': 6.116404056549072, 'beta_dpo/beta_margin_grad_mean': -0.1877627968788147, 'beta_dpo/beta_margin_grad_std': 0.3119850158691406, 'epoch': 0.18}

 18%|█████████████▋                                                                | 120/681 [05:52<24:54,  2.66s/it]
 18%|█████████████▊                                                                | 121/681 [05:55<24:47,  2.66s/it]
                                                                                                                     
{'loss': 1.1437, 'grad_norm': 23.686054229736328, 'learning_rate': 4.91481456572267e-07, 'beta_dpo/gap_mean': 21.67633819580078, 'beta_dpo/gap_std': 26.208454132080078, 'beta_dpo/beta_used_raw': 0.012065595015883446, 'beta_dpo/beta_used': 0.01847536489367485, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6834492087364197, 'logits/rejected': -0.6698263883590698, 'beta_dpo/beta': 0.01847536489367485, 'beta_dpo/loss_margin_mean': 27.461488723754883, 'beta_dpo/beta_margin_mean': 0.5521989464759827, 'beta_dpo/beta_margin_std': 0.942378044128418, 'beta_dpo/beta_margin_grad_mean': -0.3978184163570404, 'beta_dpo/beta_margin_grad_std': 0.16114307940006256, 'epoch': 0.18}

 18%|█████████████▊                                                                | 121/681 [05:55<24:47,  2.66s/it]
 18%|█████████████▉                                                                | 122/681 [05:57<23:48,  2.56s/it]
                                                                                                                     
{'loss': 0.3756, 'grad_norm': 238.48973083496094, 'learning_rate': 4.911461260693638e-07, 'beta_dpo/gap_mean': 23.661128997802734, 'beta_dpo/gap_std': 26.714675903320312, 'beta_dpo/beta_used_raw': 0.45700308680534363, 'beta_dpo/beta_used': 0.45700308680534363, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6555478572845459, 'logits/rejected': -0.6584290266036987, 'beta_dpo/beta': 0.45700308680534363, 'beta_dpo/loss_margin_mean': 34.74848175048828, 'beta_dpo/beta_margin_mean': 15.591158866882324, 'beta_dpo/beta_margin_std': 16.326433181762695, 'beta_dpo/beta_margin_grad_mean': -0.08143386244773865, 'beta_dpo/beta_margin_grad_std': 0.2316262423992157, 'epoch': 0.18}

 18%|█████████████▉                                                                | 122/681 [05:57<23:48,  2.56s/it]
 18%|██████████████                                                                | 123/681 [06:00<24:14,  2.61s/it]
                                                                                                                     
{'loss': 1.3672, 'grad_norm': 1.7068573236465454, 'learning_rate': 4.908044411417711e-07, 'beta_dpo/gap_mean': 24.12826919555664, 'beta_dpo/gap_std': 27.712556838989258, 'beta_dpo/beta_used_raw': -0.1897989809513092, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6849197149276733, 'logits/rejected': -0.6539350152015686, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 22.43146324157715, 'beta_dpo/beta_margin_mean': 0.02243146486580372, 'beta_dpo/beta_margin_std': 0.033270444720983505, 'beta_dpo/beta_margin_grad_mean': -0.4943942129611969, 'beta_dpo/beta_margin_grad_std': 0.008313042111694813, 'epoch': 0.18}

 18%|██████████████                                                                | 123/681 [06:00<24:14,  2.61s/it]
 18%|██████████████▏                                                               | 124/681 [06:02<24:06,  2.60s/it]
                                                                                                                     
{'loss': 1.0074, 'grad_norm': 38.06232833862305, 'learning_rate': 4.904564107932048e-07, 'beta_dpo/gap_mean': 24.793880462646484, 'beta_dpo/gap_std': 30.202411651611328, 'beta_dpo/beta_used_raw': -0.07082332670688629, 'beta_dpo/beta_used': 0.03426466882228851, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6627172231674194, 'logits/rejected': -0.6565097570419312, 'beta_dpo/beta': 0.03426466882228851, 'beta_dpo/loss_margin_mean': 29.717092514038086, 'beta_dpo/beta_margin_mean': 1.0015679597854614, 'beta_dpo/beta_margin_std': 1.8775554895401, 'beta_dpo/beta_margin_grad_mean': -0.3685888350009918, 'beta_dpo/beta_margin_grad_std': 0.2092631459236145, 'epoch': 0.18}

 18%|██████████████▏                                                               | 124/681 [06:02<24:06,  2.60s/it]
 18%|██████████████▎                                                               | 125/681 [06:05<23:40,  2.55s/it]
                                                                                                                     
{'loss': 1.3587, 'grad_norm': 2.35784649848938, 'learning_rate': 4.90102044194588e-07, 'beta_dpo/gap_mean': 25.316532135009766, 'beta_dpo/gap_std': 30.038803100585938, 'beta_dpo/beta_used_raw': -0.12858377397060394, 'beta_dpo/beta_used': 0.0012786721345037222, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6600132584571838, 'logits/rejected': -0.6433917284011841, 'beta_dpo/beta': 0.0012786721345037222, 'beta_dpo/loss_margin_mean': 27.47158432006836, 'beta_dpo/beta_margin_mean': 0.03472711890935898, 'beta_dpo/beta_margin_std': 0.03609345108270645, 'beta_dpo/beta_margin_grad_mean': -0.4913226366043091, 'beta_dpo/beta_margin_grad_std': 0.009015963412821293, 'epoch': 0.18}

 18%|██████████████▎                                                               | 125/681 [06:05<23:40,  2.55s/it]
 19%|██████████████▍                                                               | 126/681 [06:07<24:01,  2.60s/it]
                                                                                                                     
{'loss': 0.9888, 'grad_norm': 47.1953125, 'learning_rate': 4.897413506838102e-07, 'beta_dpo/gap_mean': 25.63544464111328, 'beta_dpo/gap_std': 29.89664649963379, 'beta_dpo/beta_used_raw': -0.0951186865568161, 'beta_dpo/beta_used': 0.0375693216919899, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6728538274765015, 'logits/rejected': -0.6457461714744568, 'beta_dpo/beta': 0.0375693216919899, 'beta_dpo/loss_margin_mean': 26.32620620727539, 'beta_dpo/beta_margin_mean': 0.9979441165924072, 'beta_dpo/beta_margin_std': 1.667494297027588, 'beta_dpo/beta_margin_grad_mean': -0.3544065058231354, 'beta_dpo/beta_margin_grad_std': 0.2188321352005005, 'epoch': 0.19}

 19%|██████████████▍                                                               | 126/681 [06:07<24:01,  2.60s/it]
 19%|██████████████▌                                                               | 127/681 [06:10<24:04,  2.61s/it]
                                                                                                                     
{'loss': 1.3671, 'grad_norm': 1.646366834640503, 'learning_rate': 4.89374339765481e-07, 'beta_dpo/gap_mean': 24.85071563720703, 'beta_dpo/gap_std': 29.267414093017578, 'beta_dpo/beta_used_raw': -0.22815854847431183, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6736807227134705, 'logits/rejected': -0.6437186002731323, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 20.585670471191406, 'beta_dpo/beta_margin_mean': 0.020585671067237854, 'beta_dpo/beta_margin_std': 0.02418256551027298, 'beta_dpo/beta_margin_grad_mean': -0.49485456943511963, 'beta_dpo/beta_margin_grad_std': 0.006044152192771435, 'epoch': 0.19}

 19%|██████████████▌                                                               | 127/681 [06:10<24:04,  2.61s/it]
 19%|██████████████▋                                                               | 128/681 [06:13<24:12,  2.63s/it]
                                                                                                                     
{'loss': 1.3663, 'grad_norm': 1.6088193655014038, 'learning_rate': 4.890010211106795e-07, 'beta_dpo/gap_mean': 24.056352615356445, 'beta_dpo/gap_std': 29.08978271484375, 'beta_dpo/beta_used_raw': -0.13018402457237244, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6654571294784546, 'logits/rejected': -0.62144935131073, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 21.48061752319336, 'beta_dpo/beta_margin_mean': 0.021480618044734, 'beta_dpo/beta_margin_std': 0.029524413868784904, 'beta_dpo/beta_margin_grad_mean': -0.4946313500404358, 'beta_dpo/beta_margin_grad_std': 0.007378284819424152, 'epoch': 0.19}

 19%|██████████████▋                                                               | 128/681 [06:13<24:12,  2.63s/it]
 19%|██████████████▊                                                               | 129/681 [06:15<23:57,  2.60s/it]
                                                                                                                     
{'loss': 1.3665, 'grad_norm': 1.709029197692871, 'learning_rate': 4.88621404556699e-07, 'beta_dpo/gap_mean': 23.854827880859375, 'beta_dpo/gap_std': 30.1458740234375, 'beta_dpo/beta_used_raw': -0.12518861889839172, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6773253679275513, 'logits/rejected': -0.6511229276657104, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 22.521244049072266, 'beta_dpo/beta_margin_mean': 0.02252124436199665, 'beta_dpo/beta_margin_std': 0.037395406514406204, 'beta_dpo/beta_margin_grad_mean': -0.4943726360797882, 'beta_dpo/beta_margin_grad_std': 0.009340907447040081, 'epoch': 0.19}

 19%|██████████████▊                                                               | 129/681 [06:15<23:57,  2.60s/it]
 19%|██████████████▉                                                               | 130/681 [06:18<23:22,  2.55s/it]
                                                                                                                     
{'loss': 1.8792, 'grad_norm': 376.320556640625, 'learning_rate': 4.882355001067891e-07, 'beta_dpo/gap_mean': 24.651588439941406, 'beta_dpo/gap_std': 31.216594696044922, 'beta_dpo/beta_used_raw': 0.2993201017379761, 'beta_dpo/beta_used': 0.31604424118995667, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6749308705329895, 'logits/rejected': -0.6657023429870605, 'beta_dpo/beta': 0.31604424118995667, 'beta_dpo/loss_margin_mean': 32.33549880981445, 'beta_dpo/beta_margin_mean': 13.17651653289795, 'beta_dpo/beta_margin_std': 20.62891387939453, 'beta_dpo/beta_margin_grad_mean': -0.3025071620941162, 'beta_dpo/beta_margin_grad_std': 0.28252968192100525, 'epoch': 0.19}

 19%|██████████████▉                                                               | 130/681 [06:18<23:22,  2.55s/it]
 19%|███████████████                                                               | 131/681 [06:20<23:32,  2.57s/it]
                                                                                                                     
{'loss': 0.2626, 'grad_norm': 32.02171325683594, 'learning_rate': 4.878433179298909e-07, 'beta_dpo/gap_mean': 26.40115737915039, 'beta_dpo/gap_std': 31.766616821289062, 'beta_dpo/beta_used_raw': 0.31704258918762207, 'beta_dpo/beta_used': 0.31704258918762207, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6722965240478516, 'logits/rejected': -0.6686934232711792, 'beta_dpo/beta': 0.31704258918762207, 'beta_dpo/loss_margin_mean': 31.684356689453125, 'beta_dpo/beta_margin_mean': 10.250054359436035, 'beta_dpo/beta_margin_std': 14.311327934265137, 'beta_dpo/beta_margin_grad_mean': -0.13735538721084595, 'beta_dpo/beta_margin_grad_std': 0.2471843659877777, 'epoch': 0.19}

 19%|███████████████                                                               | 131/681 [06:20<23:32,  2.57s/it]
 19%|███████████████                                                               | 132/681 [06:23<23:34,  2.58s/it]
                                                                                                                     
{'loss': 1.0233, 'grad_norm': 109.02853393554688, 'learning_rate': 4.874448683603694e-07, 'beta_dpo/gap_mean': 27.047744750976562, 'beta_dpo/gap_std': 32.3395881652832, 'beta_dpo/beta_used_raw': -0.14731627702713013, 'beta_dpo/beta_used': 0.07168679684400558, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7075382471084595, 'logits/rejected': -0.6883822679519653, 'beta_dpo/beta': 0.07168679684400558, 'beta_dpo/loss_margin_mean': 28.040454864501953, 'beta_dpo/beta_margin_mean': 2.218749761581421, 'beta_dpo/beta_margin_std': 3.9757206439971924, 'beta_dpo/beta_margin_grad_mean': -0.3351624310016632, 'beta_dpo/beta_margin_grad_std': 0.2476821094751358, 'epoch': 0.19}

 19%|███████████████                                                               | 132/681 [06:23<23:34,  2.58s/it]
 20%|███████████████▏                                                              | 133/681 [06:26<24:06,  2.64s/it]
                                                                                                                     
{'loss': 1.365, 'grad_norm': 1.9039520025253296, 'learning_rate': 4.870401618977415e-07, 'beta_dpo/gap_mean': 26.851011276245117, 'beta_dpo/gap_std': 33.47434997558594, 'beta_dpo/beta_used_raw': -0.21696753799915314, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6817045211791992, 'logits/rejected': -0.6619011163711548, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 25.90283966064453, 'beta_dpo/beta_margin_mean': 0.025902841240167618, 'beta_dpo/beta_margin_std': 0.037025336176157, 'beta_dpo/beta_margin_grad_mean': -0.4935277998447418, 'beta_dpo/beta_margin_grad_std': 0.009248698130249977, 'epoch': 0.2}

 20%|███████████████▏                                                              | 133/681 [06:26<24:06,  2.64s/it]
 20%|███████████████▎                                                              | 134/681 [06:28<23:14,  2.55s/it]
                                                                                                                     
{'loss': 0.8588, 'grad_norm': 41.841182708740234, 'learning_rate': 4.866292092063986e-07, 'beta_dpo/gap_mean': 26.90046501159668, 'beta_dpo/gap_std': 33.11681365966797, 'beta_dpo/beta_used_raw': -0.11817823350429535, 'beta_dpo/beta_used': 0.06148982420563698, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.682968020439148, 'logits/rejected': -0.6522467136383057, 'beta_dpo/beta': 0.06148982420563698, 'beta_dpo/loss_margin_mean': 28.993818283081055, 'beta_dpo/beta_margin_mean': 1.999468207359314, 'beta_dpo/beta_margin_std': 3.1728920936584473, 'beta_dpo/beta_margin_grad_mean': -0.30357643961906433, 'beta_dpo/beta_margin_grad_std': 0.22313292324543, 'epoch': 0.2}

 20%|███████████████▎                                                              | 134/681 [06:28<23:14,  2.55s/it]
 20%|███████████████▍                                                              | 135/681 [06:31<22:59,  2.53s/it]
                                                                                                                     
{'loss': 0.8377, 'grad_norm': 202.7677459716797, 'learning_rate': 4.862120211153265e-07, 'beta_dpo/gap_mean': 28.413272857666016, 'beta_dpo/gap_std': 33.834190368652344, 'beta_dpo/beta_used_raw': 0.14902925491333008, 'beta_dpo/beta_used': 0.2148977667093277, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6785898208618164, 'logits/rejected': -0.6952340602874756, 'beta_dpo/beta': 0.2148977667093277, 'beta_dpo/loss_margin_mean': 35.534969329833984, 'beta_dpo/beta_margin_mean': 7.662230968475342, 'beta_dpo/beta_margin_std': 12.879323959350586, 'beta_dpo/beta_margin_grad_mean': -0.30633312463760376, 'beta_dpo/beta_margin_grad_std': 0.27675861120224, 'epoch': 0.2}

 20%|███████████████▍                                                              | 135/681 [06:31<22:59,  2.53s/it]
 20%|███████████████▌                                                              | 136/681 [06:33<23:31,  2.59s/it]
                                                                                                                     
{'loss': 1.2094, 'grad_norm': 16.698957443237305, 'learning_rate': 4.857886086178193e-07, 'beta_dpo/gap_mean': 28.481983184814453, 'beta_dpo/gap_std': 35.90342330932617, 'beta_dpo/beta_used_raw': -0.34298622608184814, 'beta_dpo/beta_used': 0.008590362034738064, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6989582777023315, 'logits/rejected': -0.6765180826187134, 'beta_dpo/beta': 0.008590362034738064, 'beta_dpo/loss_margin_mean': 24.999900817871094, 'beta_dpo/beta_margin_mean': 0.2566927969455719, 'beta_dpo/beta_margin_std': 0.5989749431610107, 'beta_dpo/beta_margin_grad_mean': -0.4468691945075989, 'beta_dpo/beta_margin_grad_std': 0.11143101006746292, 'epoch': 0.2}

 20%|███████████████▌                                                              | 136/681 [06:33<23:31,  2.59s/it]
 20%|███████████████▋                                                              | 137/681 [06:36<23:22,  2.58s/it]
                                                                                                                     
{'loss': 0.8399, 'grad_norm': 72.38736724853516, 'learning_rate': 4.853589828711902e-07, 'beta_dpo/gap_mean': 29.415794372558594, 'beta_dpo/gap_std': 37.33689498901367, 'beta_dpo/beta_used_raw': -0.3468559980392456, 'beta_dpo/beta_used': 0.1424337774515152, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6640630960464478, 'logits/rejected': -0.6742027401924133, 'beta_dpo/beta': 0.1424337774515152, 'beta_dpo/loss_margin_mean': 37.266632080078125, 'beta_dpo/beta_margin_mean': 5.513402938842773, 'beta_dpo/beta_margin_std': 9.72019100189209, 'beta_dpo/beta_margin_grad_mean': -0.29480937123298645, 'beta_dpo/beta_margin_grad_std': 0.2575525939464569, 'epoch': 0.2}

 20%|███████████████▋                                                              | 137/681 [06:36<23:22,  2.58s/it]
 20%|███████████████▊                                                              | 138/681 [06:38<22:37,  2.50s/it]
                                                                                                                     
{'loss': 0.7798, 'grad_norm': 56.19173812866211, 'learning_rate': 4.849231551964771e-07, 'beta_dpo/gap_mean': 29.399906158447266, 'beta_dpo/gap_std': 37.75701141357422, 'beta_dpo/beta_used_raw': 0.07956646382808685, 'beta_dpo/beta_used': 0.11884160339832306, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6535968780517578, 'logits/rejected': -0.6304416656494141, 'beta_dpo/beta': 0.11884160339832306, 'beta_dpo/loss_margin_mean': 28.36585235595703, 'beta_dpo/beta_margin_mean': 3.768012046813965, 'beta_dpo/beta_margin_std': 7.199725151062012, 'beta_dpo/beta_margin_grad_mean': -0.3148714303970337, 'beta_dpo/beta_margin_grad_std': 0.2580578923225403, 'epoch': 0.2}

 20%|███████████████▊                                                              | 138/681 [06:38<22:37,  2.50s/it]
 20%|███████████████▉                                                              | 139/681 [06:40<22:14,  2.46s/it]
                                                                                                                     
{'loss': 1.5227, 'grad_norm': 566.4978637695312, 'learning_rate': 4.844811370781446e-07, 'beta_dpo/gap_mean': 30.00773811340332, 'beta_dpo/gap_std': 37.6620979309082, 'beta_dpo/beta_used_raw': 0.39647993445396423, 'beta_dpo/beta_used': 0.39647993445396423, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.672115683555603, 'logits/rejected': -0.6479353904724121, 'beta_dpo/beta': 0.39647993445396423, 'beta_dpo/loss_margin_mean': 33.331172943115234, 'beta_dpo/beta_margin_mean': 13.393891334533691, 'beta_dpo/beta_margin_std': 16.2137393951416, 'beta_dpo/beta_margin_grad_mean': -0.17857220768928528, 'beta_dpo/beta_margin_grad_std': 0.34773120284080505, 'epoch': 0.2}

 20%|███████████████▉                                                              | 139/681 [06:41<22:14,  2.46s/it]
 21%|████████████████                                                              | 140/681 [06:43<21:52,  2.43s/it]
                                                                                                                     
{'loss': 1.3593, 'grad_norm': 2.395193576812744, 'learning_rate': 4.840329401637809e-07, 'beta_dpo/gap_mean': 30.288619995117188, 'beta_dpo/gap_std': 38.075069427490234, 'beta_dpo/beta_used_raw': -0.07030771672725677, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6980350017547607, 'logits/rejected': -0.6766492128372192, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 30.282001495361328, 'beta_dpo/beta_margin_mean': 0.030282003805041313, 'beta_dpo/beta_margin_std': 0.03948511183261871, 'beta_dpo/beta_margin_grad_mean': -0.4924333691596985, 'beta_dpo/beta_margin_grad_std': 0.009864427149295807, 'epoch': 0.21}

 21%|████████████████                                                              | 140/681 [06:43<21:52,  2.43s/it]
 21%|████████████████▏                                                             | 141/681 [06:45<22:19,  2.48s/it]
                                                                                                                     
{'loss': 0.6739, 'grad_norm': 249.5445098876953, 'learning_rate': 4.83578576263792e-07, 'beta_dpo/gap_mean': 30.184303283691406, 'beta_dpo/gap_std': 38.3173828125, 'beta_dpo/beta_used_raw': 0.20956987142562866, 'beta_dpo/beta_used': 0.20956987142562866, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6725201606750488, 'logits/rejected': -0.6453160047531128, 'beta_dpo/beta': 0.20956987142562866, 'beta_dpo/loss_margin_mean': 29.690879821777344, 'beta_dpo/beta_margin_mean': 6.225460052490234, 'beta_dpo/beta_margin_std': 8.140890121459961, 'beta_dpo/beta_margin_grad_mean': -0.19632378220558167, 'beta_dpo/beta_margin_grad_std': 0.3448325991630554, 'epoch': 0.21}

 21%|████████████████▏                                                             | 141/681 [06:45<22:19,  2.48s/it]
 21%|████████████████▎                                                             | 142/681 [06:48<23:27,  2.61s/it]
                                                                                                                     
{'loss': 0.9589, 'grad_norm': 155.07594299316406, 'learning_rate': 4.83118057351089e-07, 'beta_dpo/gap_mean': 30.36768341064453, 'beta_dpo/gap_std': 39.55695343017578, 'beta_dpo/beta_used_raw': 0.20784735679626465, 'beta_dpo/beta_used': 0.31159713864326477, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6555507183074951, 'logits/rejected': -0.6462887525558472, 'beta_dpo/beta': 0.31159713864326477, 'beta_dpo/loss_margin_mean': 33.904624938964844, 'beta_dpo/beta_margin_mean': 12.820926666259766, 'beta_dpo/beta_margin_std': 21.074304580688477, 'beta_dpo/beta_margin_grad_mean': -0.3195469379425049, 'beta_dpo/beta_margin_grad_std': 0.2950160801410675, 'epoch': 0.21}

 21%|████████████████▎                                                             | 142/681 [06:48<23:27,  2.61s/it]
 21%|████████████████▍                                                             | 143/681 [06:51<23:49,  2.66s/it]
                                                                                                                     
{'loss': 1.3623, 'grad_norm': 2.0018367767333984, 'learning_rate': 4.826513955607734e-07, 'beta_dpo/gap_mean': 29.773212432861328, 'beta_dpo/gap_std': 39.13104248046875, 'beta_dpo/beta_used_raw': -0.2274360954761505, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6578415632247925, 'logits/rejected': -0.6270245313644409, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 21.574241638183594, 'beta_dpo/beta_margin_mean': 0.021574243903160095, 'beta_dpo/beta_margin_std': 0.035751067101955414, 'beta_dpo/beta_margin_grad_mean': -0.49460893869400024, 'beta_dpo/beta_margin_grad_std': 0.008932164870202541, 'epoch': 0.21}

 21%|████████████████▍                                                             | 143/681 [06:51<23:49,  2.66s/it]
 21%|████████████████▍                                                             | 144/681 [06:54<24:17,  2.71s/it]
                                                                                                                     
{'loss': 1.0443, 'grad_norm': 75.73566436767578, 'learning_rate': 4.821786031898176e-07, 'beta_dpo/gap_mean': 28.968791961669922, 'beta_dpo/gap_std': 37.89672088623047, 'beta_dpo/beta_used_raw': -0.1444738358259201, 'beta_dpo/beta_used': 0.0523165799677372, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6322454214096069, 'logits/rejected': -0.5843130350112915, 'beta_dpo/beta': 0.0523165799677372, 'beta_dpo/loss_margin_mean': 28.176090240478516, 'beta_dpo/beta_margin_mean': 1.4633898735046387, 'beta_dpo/beta_margin_std': 2.898139238357544, 'beta_dpo/beta_margin_grad_mean': -0.3649788200855255, 'beta_dpo/beta_margin_grad_std': 0.2543392479419708, 'epoch': 0.21}

 21%|████████████████▍                                                             | 144/681 [06:54<24:17,  2.71s/it]
 21%|████████████████▌                                                             | 145/681 [06:56<23:25,  2.62s/it]
                                                                                                                     
{'loss': 1.3604, 'grad_norm': 2.1011862754821777, 'learning_rate': 4.816996926967401e-07, 'beta_dpo/gap_mean': 28.99945640563965, 'beta_dpo/gap_std': 36.7828254699707, 'beta_dpo/beta_used_raw': -0.06517390161752701, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6506826877593994, 'logits/rejected': -0.6125441789627075, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 28.61880874633789, 'beta_dpo/beta_margin_mean': 0.028618808835744858, 'beta_dpo/beta_margin_std': 0.03283938020467758, 'beta_dpo/beta_margin_grad_mean': -0.4928479492664337, 'beta_dpo/beta_margin_grad_std': 0.008205600082874298, 'epoch': 0.21}

 21%|████████████████▌                                                             | 145/681 [06:56<23:25,  2.62s/it]
 21%|████████████████▋                                                             | 146/681 [06:59<23:14,  2.61s/it]
                                                                                                                     
{'loss': 1.3663, 'grad_norm': 1.9944401979446411, 'learning_rate': 4.812146767012779e-07, 'beta_dpo/gap_mean': 27.972278594970703, 'beta_dpo/gap_std': 36.326202392578125, 'beta_dpo/beta_used_raw': -0.353656530380249, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6603084802627563, 'logits/rejected': -0.608822226524353, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 22.353261947631836, 'beta_dpo/beta_margin_mean': 0.022353263571858406, 'beta_dpo/beta_margin_std': 0.035862602293491364, 'beta_dpo/beta_margin_grad_mean': -0.4944137632846832, 'beta_dpo/beta_margin_grad_std': 0.008961321786046028, 'epoch': 0.21}

 21%|████████████████▋                                                             | 146/681 [06:59<23:14,  2.61s/it]
 22%|████████████████▊                                                             | 147/681 [07:02<23:16,  2.61s/it]
                                                                                                                     
{'loss': 1.1016, 'grad_norm': 132.78941345214844, 'learning_rate': 4.807235679840536e-07, 'beta_dpo/gap_mean': 28.153667449951172, 'beta_dpo/gap_std': 37.32135009765625, 'beta_dpo/beta_used_raw': -0.02383120357990265, 'beta_dpo/beta_used': 0.06166262924671173, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6173018217086792, 'logits/rejected': -0.5760653018951416, 'beta_dpo/beta': 0.06166262924671173, 'beta_dpo/loss_margin_mean': 30.588022232055664, 'beta_dpo/beta_margin_mean': 2.0429532527923584, 'beta_dpo/beta_margin_std': 4.145395278930664, 'beta_dpo/beta_margin_grad_mean': -0.35987135767936707, 'beta_dpo/beta_margin_grad_std': 0.25737276673316956, 'epoch': 0.22}

 22%|████████████████▊                                                             | 147/681 [07:02<23:16,  2.61s/it]
 22%|████████████████▉                                                             | 148/681 [07:04<23:04,  2.60s/it]
                                                                                                                     
{'loss': 1.3644, 'grad_norm': 2.2173750400543213, 'learning_rate': 4.802263794862384e-07, 'beta_dpo/gap_mean': 27.30005645751953, 'beta_dpo/gap_std': 36.48552703857422, 'beta_dpo/beta_used_raw': -0.20661629736423492, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6911383271217346, 'logits/rejected': -0.6686098575592041, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 25.432477951049805, 'beta_dpo/beta_margin_mean': 0.02543247863650322, 'beta_dpo/beta_margin_std': 0.03496631607413292, 'beta_dpo/beta_margin_grad_mean': -0.49364525079727173, 'beta_dpo/beta_margin_grad_std': 0.008732988499104977, 'epoch': 0.22}

 22%|████████████████▉                                                             | 148/681 [07:04<23:04,  2.60s/it]
 22%|█████████████████                                                             | 149/681 [07:07<23:13,  2.62s/it]
                                                                                                                     
{'loss': 0.9517, 'grad_norm': 433.311279296875, 'learning_rate': 4.797231243092118e-07, 'beta_dpo/gap_mean': 29.230058670043945, 'beta_dpo/gap_std': 37.05466079711914, 'beta_dpo/beta_used_raw': 0.21206964552402496, 'beta_dpo/beta_used': 0.2956673502922058, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6822164058685303, 'logits/rejected': -0.6580536365509033, 'beta_dpo/beta': 0.2956673502922058, 'beta_dpo/loss_margin_mean': 35.43006896972656, 'beta_dpo/beta_margin_mean': 12.983054161071777, 'beta_dpo/beta_margin_std': 21.63262176513672, 'beta_dpo/beta_margin_grad_mean': -0.30034562945365906, 'beta_dpo/beta_margin_grad_std': 0.2807537615299225, 'epoch': 0.22}

 22%|█████████████████                                                             | 149/681 [07:07<23:13,  2.62s/it]
 22%|█████████████████▏                                                            | 150/681 [07:09<23:05,  2.61s/it]
                                                                                                                     
{'loss': 0.8393, 'grad_norm': 67.81720733642578, 'learning_rate': 4.792138157142157e-07, 'beta_dpo/gap_mean': 30.138582229614258, 'beta_dpo/gap_std': 38.105072021484375, 'beta_dpo/beta_used_raw': -0.12643922865390778, 'beta_dpo/beta_used': 0.06045344099402428, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6348152160644531, 'logits/rejected': -0.6246376037597656, 'beta_dpo/beta': 0.06045344099402428, 'beta_dpo/loss_margin_mean': 33.075477600097656, 'beta_dpo/beta_margin_mean': 2.6005029678344727, 'beta_dpo/beta_margin_std': 4.630469799041748, 'beta_dpo/beta_margin_grad_mean': -0.3100597858428955, 'beta_dpo/beta_margin_grad_std': 0.23861265182495117, 'epoch': 0.22}

 22%|█████████████████▏                                                            | 150/681 [07:09<23:05,  2.61s/it]
 22%|█████████████████▎                                                            | 151/681 [07:12<22:30,  2.55s/it]
                                                                                                                     
{'loss': 0.7063, 'grad_norm': 232.2014923095703, 'learning_rate': 4.786984671220053e-07, 'beta_dpo/gap_mean': 30.40851593017578, 'beta_dpo/gap_std': 38.59818649291992, 'beta_dpo/beta_used_raw': 0.23719097673892975, 'beta_dpo/beta_used': 0.23719097673892975, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.7024506330490112, 'logits/rejected': -0.6618235111236572, 'beta_dpo/beta': 0.23719097673892975, 'beta_dpo/loss_margin_mean': 34.17258071899414, 'beta_dpo/beta_margin_mean': 8.125089645385742, 'beta_dpo/beta_margin_std': 11.137140274047852, 'beta_dpo/beta_margin_grad_mean': -0.16241075098514557, 'beta_dpo/beta_margin_grad_std': 0.31397631764411926, 'epoch': 0.22}

 22%|█████████████████▎                                                            | 151/681 [07:12<22:30,  2.55s/it]
 22%|█████████████████▍                                                            | 152/681 [07:15<22:52,  2.60s/it]
                                                                                                                     
{'loss': 1.2106, 'grad_norm': 16.272369384765625, 'learning_rate': 4.78177092112495e-07, 'beta_dpo/gap_mean': 31.590972900390625, 'beta_dpo/gap_std': 38.75636291503906, 'beta_dpo/beta_used_raw': -0.09531690180301666, 'beta_dpo/beta_used': 0.007499909959733486, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6470739245414734, 'logits/rejected': -0.6299198865890503, 'beta_dpo/beta': 0.007499909959733486, 'beta_dpo/loss_margin_mean': 39.02500534057617, 'beta_dpo/beta_margin_mean': 0.3257027268409729, 'beta_dpo/beta_margin_std': 0.6100393533706665, 'beta_dpo/beta_margin_grad_mean': -0.43083834648132324, 'beta_dpo/beta_margin_grad_std': 0.12350592017173767, 'epoch': 0.22}

 22%|█████████████████▍                                                            | 152/681 [07:15<22:52,  2.60s/it]
 22%|█████████████████▌                                                            | 153/681 [07:17<22:42,  2.58s/it]
                                                                                                                     
{'loss': 1.3607, 'grad_norm': 2.2857508659362793, 'learning_rate': 4.776497044244016e-07, 'beta_dpo/gap_mean': 32.21462631225586, 'beta_dpo/gap_std': 40.65864944458008, 'beta_dpo/beta_used_raw': -0.2720775008201599, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6825876235961914, 'logits/rejected': -0.6697901487350464, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 32.40637969970703, 'beta_dpo/beta_margin_mean': 0.03240638226270676, 'beta_dpo/beta_margin_std': 0.04508744925260544, 'beta_dpo/beta_margin_grad_mean': -0.4919048547744751, 'beta_dpo/beta_margin_grad_std': 0.011256770230829716, 'epoch': 0.22}

 22%|█████████████████▌                                                            | 153/681 [07:17<22:42,  2.58s/it]
 23%|█████████████████▋                                                            | 154/681 [07:20<23:26,  2.67s/it]
                                                                                                                     
{'loss': 1.5172, 'grad_norm': 210.48843383789062, 'learning_rate': 4.771163179548808e-07, 'beta_dpo/gap_mean': 31.79343605041504, 'beta_dpo/gap_std': 42.261234283447266, 'beta_dpo/beta_used_raw': -0.1990230530500412, 'beta_dpo/beta_used': 0.05751248076558113, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6370819807052612, 'logits/rejected': -0.6220649480819702, 'beta_dpo/beta': 0.05751248076558113, 'beta_dpo/loss_margin_mean': 30.59186553955078, 'beta_dpo/beta_margin_mean': 2.0761663913726807, 'beta_dpo/beta_margin_std': 4.313288688659668, 'beta_dpo/beta_margin_grad_mean': -0.37671908736228943, 'beta_dpo/beta_margin_grad_std': 0.2820754051208496, 'epoch': 0.23}

 23%|█████████████████▋                                                            | 154/681 [07:20<23:26,  2.67s/it]
 23%|█████████████████▊                                                            | 155/681 [07:23<23:43,  2.71s/it]
                                                                                                                     
{'loss': 1.0261, 'grad_norm': 98.22732543945312, 'learning_rate': 4.7657694675916247e-07, 'beta_dpo/gap_mean': 31.931396484375, 'beta_dpo/gap_std': 42.397926330566406, 'beta_dpo/beta_used_raw': -0.056411731988191605, 'beta_dpo/beta_used': 0.05650586262345314, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.659138560295105, 'logits/rejected': -0.6297906041145325, 'beta_dpo/beta': 0.05650586262345314, 'beta_dpo/loss_margin_mean': 32.39974594116211, 'beta_dpo/beta_margin_mean': 2.0134613513946533, 'beta_dpo/beta_margin_std': 3.595337152481079, 'beta_dpo/beta_margin_grad_mean': -0.34304705262184143, 'beta_dpo/beta_margin_grad_std': 0.25319162011146545, 'epoch': 0.23}

 23%|█████████████████▊                                                            | 155/681 [07:23<23:43,  2.71s/it]
 23%|█████████████████▊                                                            | 156/681 [07:25<23:30,  2.69s/it]
                                                                                                                     
{'loss': 1.3623, 'grad_norm': 2.090728759765625, 'learning_rate': 4.7603160505017893e-07, 'beta_dpo/gap_mean': 30.717424392700195, 'beta_dpo/gap_std': 43.143798828125, 'beta_dpo/beta_used_raw': -0.28176349401474, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6189935803413391, 'logits/rejected': -0.5884729623794556, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 21.64499855041504, 'beta_dpo/beta_margin_mean': 0.02164500020444393, 'beta_dpo/beta_margin_std': 0.04698922485113144, 'beta_dpo/beta_margin_grad_mean': -0.49459147453308105, 'beta_dpo/beta_margin_grad_std': 0.011738932691514492, 'epoch': 0.23}

 23%|█████████████████▊                                                            | 156/681 [07:25<23:30,  2.69s/it]
 23%|█████████████████▉                                                            | 157/681 [07:28<22:27,  2.57s/it]
                                                                                                                     
{'loss': 1.3783, 'grad_norm': 566.1207885742188, 'learning_rate': 4.7548030719819154e-07, 'beta_dpo/gap_mean': 31.968534469604492, 'beta_dpo/gap_std': 43.23138427734375, 'beta_dpo/beta_used_raw': 0.5229025483131409, 'beta_dpo/beta_used': 0.5229025483131409, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6501755714416504, 'logits/rejected': -0.6394015550613403, 'beta_dpo/beta': 0.5229025483131409, 'beta_dpo/loss_margin_mean': 41.19452667236328, 'beta_dpo/beta_margin_mean': 23.52101707458496, 'beta_dpo/beta_margin_std': 28.525287628173828, 'beta_dpo/beta_margin_grad_mean': -0.17714013159275055, 'beta_dpo/beta_margin_grad_std': 0.34146979451179504, 'epoch': 0.23}

 23%|█████████████████▉                                                            | 157/681 [07:28<22:27,  2.57s/it]
 23%|██████████████████                                                            | 158/681 [07:30<22:30,  2.58s/it]
                                                                                                                     
{'loss': 1.3594, 'grad_norm': 2.377941131591797, 'learning_rate': 4.7492306773041136e-07, 'beta_dpo/gap_mean': 33.84852600097656, 'beta_dpo/gap_std': 46.209800720214844, 'beta_dpo/beta_used_raw': -0.2828848361968994, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6457036733627319, 'logits/rejected': -0.6453630328178406, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 43.2443962097168, 'beta_dpo/beta_margin_mean': 0.04324439913034439, 'beta_dpo/beta_margin_std': 0.057812485843896866, 'beta_dpo/beta_margin_grad_mean': -0.48920392990112305, 'beta_dpo/beta_margin_grad_std': 0.014421283267438412, 'epoch': 0.23}

 23%|██████████████████                                                            | 158/681 [07:30<22:30,  2.58s/it]
 23%|██████████████████▏                                                           | 159/681 [07:33<22:45,  2.62s/it]
                                                                                                                     
{'loss': 1.3647, 'grad_norm': 2.286787748336792, 'learning_rate': 4.743599013306165e-07, 'beta_dpo/gap_mean': 33.542808532714844, 'beta_dpo/gap_std': 47.51161193847656, 'beta_dpo/beta_used_raw': -0.592555582523346, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6784383058547974, 'logits/rejected': -0.6375674605369568, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 31.38365936279297, 'beta_dpo/beta_margin_mean': 0.031383663415908813, 'beta_dpo/beta_margin_std': 0.04992513731122017, 'beta_dpo/beta_margin_grad_mean': -0.49216148257255554, 'beta_dpo/beta_margin_grad_std': 0.01246555708348751, 'epoch': 0.23}

 23%|██████████████████▏                                                           | 159/681 [07:33<22:45,  2.62s/it]
 23%|██████████████████▎                                                           | 160/681 [07:35<22:26,  2.58s/it]
                                                                                                                     
{'loss': 1.2241, 'grad_norm': 179.4539794921875, 'learning_rate': 4.737908228387656e-07, 'beta_dpo/gap_mean': 34.68842697143555, 'beta_dpo/gap_std': 48.956329345703125, 'beta_dpo/beta_used_raw': -0.04903079569339752, 'beta_dpo/beta_used': 0.16555535793304443, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6441961526870728, 'logits/rejected': -0.6223233342170715, 'beta_dpo/beta': 0.16555535793304443, 'beta_dpo/loss_margin_mean': 37.921714782714844, 'beta_dpo/beta_margin_mean': 5.125879287719727, 'beta_dpo/beta_margin_std': 12.860206604003906, 'beta_dpo/beta_margin_grad_mean': -0.3650355041027069, 'beta_dpo/beta_margin_grad_std': 0.28689926862716675, 'epoch': 0.23}

 23%|██████████████████▎                                                           | 160/681 [07:36<22:26,  2.58s/it]
 24%|██████████████████▍                                                           | 161/681 [07:38<21:29,  2.48s/it]
                                                                                                                     
{'loss': 1.365, 'grad_norm': 2.1890041828155518, 'learning_rate': 4.7321584725060594e-07, 'beta_dpo/gap_mean': 34.30507278442383, 'beta_dpo/gap_std': 48.81843948364258, 'beta_dpo/beta_used_raw': -0.6533927917480469, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6661697626113892, 'logits/rejected': -0.646446704864502, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 33.1942024230957, 'beta_dpo/beta_margin_mean': 0.03319420665502548, 'beta_dpo/beta_margin_std': 0.04527975618839264, 'beta_dpo/beta_margin_grad_mean': -0.49170783162117004, 'beta_dpo/beta_margin_grad_std': 0.011308044195175171, 'epoch': 0.24}

 24%|██████████████████▍                                                           | 161/681 [07:38<21:29,  2.48s/it]
 24%|██████████████████▌                                                           | 162/681 [07:41<22:16,  2.58s/it]
                                                                                                                     
{'loss': 0.9902, 'grad_norm': 66.83883666992188, 'learning_rate': 4.7263498971727905e-07, 'beta_dpo/gap_mean': 34.92676544189453, 'beta_dpo/gap_std': 49.209938049316406, 'beta_dpo/beta_used_raw': 0.001413147896528244, 'beta_dpo/beta_used': 0.0633186399936676, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6479376554489136, 'logits/rejected': -0.6184839010238647, 'beta_dpo/beta': 0.0633186399936676, 'beta_dpo/loss_margin_mean': 34.6696891784668, 'beta_dpo/beta_margin_mean': 3.0562398433685303, 'beta_dpo/beta_margin_std': 6.056267261505127, 'beta_dpo/beta_margin_grad_mean': -0.33688822388648987, 'beta_dpo/beta_margin_grad_std': 0.2615722715854645, 'epoch': 0.24}

 24%|██████████████████▌                                                           | 162/681 [07:41<22:16,  2.58s/it]
 24%|██████████████████▋                                                           | 163/681 [07:43<22:10,  2.57s/it]
                                                                                                                     
{'loss': 1.3589, 'grad_norm': 2.279186487197876, 'learning_rate': 4.720482655449212e-07, 'beta_dpo/gap_mean': 34.13161849975586, 'beta_dpo/gap_std': 47.94363021850586, 'beta_dpo/beta_used_raw': -0.27464038133621216, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6360805630683899, 'logits/rejected': -0.6068499684333801, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 33.819725036621094, 'beta_dpo/beta_margin_mean': 0.03381972759962082, 'beta_dpo/beta_margin_std': 0.04253895580768585, 'beta_dpo/beta_margin_grad_mean': -0.4915504455566406, 'beta_dpo/beta_margin_grad_std': 0.010625366121530533, 'epoch': 0.24}

 24%|██████████████████▋                                                           | 163/681 [07:43<22:10,  2.57s/it]
 24%|██████████████████▊                                                           | 164/681 [07:46<21:58,  2.55s/it]
                                                                                                                     
{'loss': 2.7102, 'grad_norm': 561.4354858398438, 'learning_rate': 4.714556901942599e-07, 'beta_dpo/gap_mean': 35.37065124511719, 'beta_dpo/gap_std': 47.215484619140625, 'beta_dpo/beta_used_raw': 0.19692449271678925, 'beta_dpo/beta_used': 0.33781903982162476, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.653258740901947, 'logits/rejected': -0.6248881816864014, 'beta_dpo/beta': 0.33781903982162476, 'beta_dpo/loss_margin_mean': 39.373016357421875, 'beta_dpo/beta_margin_mean': 16.98153305053711, 'beta_dpo/beta_margin_std': 27.556440353393555, 'beta_dpo/beta_margin_grad_mean': -0.3097226321697235, 'beta_dpo/beta_margin_grad_std': 0.29108506441116333, 'epoch': 0.24}

 24%|██████████████████▊                                                           | 164/681 [07:46<21:58,  2.55s/it]
 24%|██████████████████▉                                                           | 165/681 [07:48<21:47,  2.53s/it]
                                                                                                                     
{'loss': 1.3624, 'grad_norm': 2.3229660987854004, 'learning_rate': 4.708572792802069e-07, 'beta_dpo/gap_mean': 33.61799621582031, 'beta_dpo/gap_std': 46.200439453125, 'beta_dpo/beta_used_raw': -0.4569028615951538, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6612030267715454, 'logits/rejected': -0.6200650930404663, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 24.500225067138672, 'beta_dpo/beta_margin_mean': 0.024500226601958275, 'beta_dpo/beta_margin_std': 0.04279119148850441, 'beta_dpo/beta_margin_grad_mean': -0.493878573179245, 'beta_dpo/beta_margin_grad_std': 0.01068994589149952, 'epoch': 0.24}

 24%|██████████████████▉                                                           | 165/681 [07:48<21:47,  2.53s/it]
 24%|███████████████████                                                           | 166/681 [07:51<21:49,  2.54s/it]
                                                                                                                     
{'loss': 1.356, 'grad_norm': 2.4269919395446777, 'learning_rate': 4.702530485714461e-07, 'beta_dpo/gap_mean': 35.345130920410156, 'beta_dpo/gap_std': 49.15497589111328, 'beta_dpo/beta_used_raw': -0.17358143627643585, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6051408648490906, 'logits/rejected': -0.609076738357544, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 48.09439468383789, 'beta_dpo/beta_margin_mean': 0.04809439927339554, 'beta_dpo/beta_margin_std': 0.06407385319471359, 'beta_dpo/beta_margin_grad_mean': -0.48799970746040344, 'beta_dpo/beta_margin_grad_std': 0.015960004180669785, 'epoch': 0.24}

 24%|███████████████████                                                           | 166/681 [07:51<21:49,  2.54s/it]
 25%|███████████████████▏                                                          | 167/681 [07:53<22:02,  2.57s/it]
                                                                                                                     
{'loss': 1.1373, 'grad_norm': 453.6042175292969, 'learning_rate': 4.6964301399001877e-07, 'beta_dpo/gap_mean': 37.78612518310547, 'beta_dpo/gap_std': 49.52611541748047, 'beta_dpo/beta_used_raw': 0.4378092288970947, 'beta_dpo/beta_used': 0.4378092288970947, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5798200368881226, 'logits/rejected': -0.5775001049041748, 'beta_dpo/beta': 0.4378092288970947, 'beta_dpo/loss_margin_mean': 48.357120513916016, 'beta_dpo/beta_margin_mean': 22.484102249145508, 'beta_dpo/beta_margin_std': 31.359235763549805, 'beta_dpo/beta_margin_grad_mean': -0.16084226965904236, 'beta_dpo/beta_margin_grad_std': 0.285220742225647, 'epoch': 0.25}

 25%|███████████████████▏                                                          | 167/681 [07:53<22:02,  2.57s/it]
 25%|███████████████████▏                                                          | 168/681 [07:56<22:01,  2.58s/it]
                                                                                                                     
{'loss': 1.3542, 'grad_norm': 2.242811679840088, 'learning_rate': 4.690271916109034e-07, 'beta_dpo/gap_mean': 38.02488327026367, 'beta_dpo/gap_std': 49.34698486328125, 'beta_dpo/beta_used_raw': -0.22355516254901886, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.632524847984314, 'logits/rejected': -0.611569344997406, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 36.625492095947266, 'beta_dpo/beta_margin_mean': 0.036625493317842484, 'beta_dpo/beta_margin_std': 0.04478682205080986, 'beta_dpo/beta_margin_grad_mean': -0.4908505380153656, 'beta_dpo/beta_margin_grad_std': 0.011183447204530239, 'epoch': 0.25}

 25%|███████████████████▏                                                          | 168/681 [07:56<22:01,  2.58s/it]
 25%|███████████████████▎                                                          | 169/681 [07:59<22:29,  2.63s/it]
                                                                                                                     
{'loss': 1.2102, 'grad_norm': 235.57923889160156, 'learning_rate': 4.6840559766159235e-07, 'beta_dpo/gap_mean': 37.77613830566406, 'beta_dpo/gap_std': 50.35961151123047, 'beta_dpo/beta_used_raw': -0.21766288578510284, 'beta_dpo/beta_used': 0.2027139812707901, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6554511189460754, 'logits/rejected': -0.632649838924408, 'beta_dpo/beta': 0.2027139812707901, 'beta_dpo/loss_margin_mean': 33.702911376953125, 'beta_dpo/beta_margin_mean': 9.191436767578125, 'beta_dpo/beta_margin_std': 18.672359466552734, 'beta_dpo/beta_margin_grad_mean': -0.3231821358203888, 'beta_dpo/beta_margin_grad_std': 0.286211758852005, 'epoch': 0.25}

 25%|███████████████████▎                                                          | 169/681 [07:59<22:29,  2.63s/it]
 25%|███████████████████▍                                                          | 170/681 [08:01<22:31,  2.64s/it]
                                                                                                                     
{'loss': 0.8339, 'grad_norm': 200.22003173828125, 'learning_rate': 4.6777824852166437e-07, 'beta_dpo/gap_mean': 38.005332946777344, 'beta_dpo/gap_std': 50.405731201171875, 'beta_dpo/beta_used_raw': 0.07621648907661438, 'beta_dpo/beta_used': 0.28471559286117554, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6105868816375732, 'logits/rejected': -0.5924707651138306, 'beta_dpo/beta': 0.28471559286117554, 'beta_dpo/loss_margin_mean': 41.08964538574219, 'beta_dpo/beta_margin_mean': 14.588911056518555, 'beta_dpo/beta_margin_std': 24.41724967956543, 'beta_dpo/beta_margin_grad_mean': -0.29542797803878784, 'beta_dpo/beta_margin_grad_std': 0.2833177447319031, 'epoch': 0.25}

 25%|███████████████████▍                                                          | 170/681 [08:01<22:31,  2.64s/it]
 25%|███████████████████▌                                                          | 171/681 [08:04<21:40,  2.55s/it]
                                                                                                                     
{'loss': 1.3592, 'grad_norm': 2.3106272220611572, 'learning_rate': 4.6714516072235273e-07, 'beta_dpo/gap_mean': 36.77374267578125, 'beta_dpo/gap_std': 51.403194427490234, 'beta_dpo/beta_used_raw': -0.4475504755973816, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6592748761177063, 'logits/rejected': -0.6177250146865845, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 32.103904724121094, 'beta_dpo/beta_margin_mean': 0.03210390359163284, 'beta_dpo/beta_margin_std': 0.059691086411476135, 'beta_dpo/beta_margin_grad_mean': -0.49198728799819946, 'beta_dpo/beta_margin_grad_std': 0.01487717404961586, 'epoch': 0.25}

 25%|███████████████████▌                                                          | 171/681 [08:04<21:40,  2.55s/it]
 25%|███████████████████▋                                                          | 172/681 [08:06<21:28,  2.53s/it]
                                                                                                                     
{'loss': 1.3565, 'grad_norm': 2.4713857173919678, 'learning_rate': 4.6650635094610966e-07, 'beta_dpo/gap_mean': 36.16783905029297, 'beta_dpo/gap_std': 52.5489501953125, 'beta_dpo/beta_used_raw': -0.24236111342906952, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6973352432250977, 'logits/rejected': -0.6602545976638794, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 32.76325988769531, 'beta_dpo/beta_margin_mean': 0.03276326134800911, 'beta_dpo/beta_margin_std': 0.05145728588104248, 'beta_dpo/beta_margin_grad_mean': -0.49181634187698364, 'beta_dpo/beta_margin_grad_std': 0.012845886871218681, 'epoch': 0.25}

 25%|███████████████████▋                                                          | 172/681 [08:06<21:28,  2.53s/it]
 25%|███████████████████▊                                                          | 173/681 [08:09<21:14,  2.51s/it]
                                                                                                                     
{'loss': 1.3608, 'grad_norm': 2.825610637664795, 'learning_rate': 4.6586183602616687e-07, 'beta_dpo/gap_mean': 35.43373107910156, 'beta_dpo/gap_std': 51.29859161376953, 'beta_dpo/beta_used_raw': -0.4711419939994812, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.658379316329956, 'logits/rejected': -0.6150857210159302, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 34.594966888427734, 'beta_dpo/beta_margin_mean': 0.03459496796131134, 'beta_dpo/beta_margin_std': 0.04563411697745323, 'beta_dpo/beta_margin_grad_mean': -0.4913583993911743, 'beta_dpo/beta_margin_grad_std': 0.011392601765692234, 'epoch': 0.25}

 25%|███████████████████▊                                                          | 173/681 [08:09<21:14,  2.51s/it]
 26%|███████████████████▉                                                          | 174/681 [08:11<21:14,  2.51s/it]
                                                                                                                     
{'loss': 0.906, 'grad_norm': 239.2338409423828, 'learning_rate': 4.652116329460919e-07, 'beta_dpo/gap_mean': 35.927711486816406, 'beta_dpo/gap_std': 51.60816192626953, 'beta_dpo/beta_used_raw': 0.15830256044864655, 'beta_dpo/beta_used': 0.21091538667678833, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5859450101852417, 'logits/rejected': -0.6018394231796265, 'beta_dpo/beta': 0.21091538667678833, 'beta_dpo/loss_margin_mean': 40.59208679199219, 'beta_dpo/beta_margin_mean': 10.612117767333984, 'beta_dpo/beta_margin_std': 22.01104736328125, 'beta_dpo/beta_margin_grad_mean': -0.3304974436759949, 'beta_dpo/beta_margin_grad_std': 0.27658578753471375, 'epoch': 0.26}

 26%|███████████████████▉                                                          | 174/681 [08:11<21:14,  2.51s/it]
 26%|████████████████████                                                          | 175/681 [08:14<21:26,  2.54s/it]
                                                                                                                     
{'loss': 1.7614, 'grad_norm': 1072.8525390625, 'learning_rate': 4.645557588393406e-07, 'beta_dpo/gap_mean': 39.685943603515625, 'beta_dpo/gap_std': 53.021728515625, 'beta_dpo/beta_used_raw': 0.4976291060447693, 'beta_dpo/beta_used': 0.4976291060447693, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5577561855316162, 'logits/rejected': -0.5457127690315247, 'beta_dpo/beta': 0.4976291060447693, 'beta_dpo/loss_margin_mean': 56.412723541259766, 'beta_dpo/beta_margin_mean': 28.725933074951172, 'beta_dpo/beta_margin_std': 33.13698196411133, 'beta_dpo/beta_margin_grad_mean': -0.14816464483737946, 'beta_dpo/beta_margin_grad_std': 0.34046775102615356, 'epoch': 0.26}

 26%|████████████████████                                                          | 175/681 [08:14<21:26,  2.54s/it]
 26%|████████████████████▏                                                         | 176/681 [08:16<20:48,  2.47s/it]
                                                                                                                     
{'loss': 1.1292, 'grad_norm': 136.2383270263672, 'learning_rate': 4.638942309888058e-07, 'beta_dpo/gap_mean': 41.4671630859375, 'beta_dpo/gap_std': 53.848289489746094, 'beta_dpo/beta_used_raw': -0.031695641577243805, 'beta_dpo/beta_used': 0.05489476025104523, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5958969593048096, 'logits/rejected': -0.6080245971679688, 'beta_dpo/beta': 0.05489476025104523, 'beta_dpo/loss_margin_mean': 49.21371078491211, 'beta_dpo/beta_margin_mean': 2.9585845470428467, 'beta_dpo/beta_margin_std': 6.016172885894775, 'beta_dpo/beta_margin_grad_mean': -0.35436689853668213, 'beta_dpo/beta_margin_grad_std': 0.25154080986976624, 'epoch': 0.26}

 26%|████████████████████▏                                                         | 176/681 [08:16<20:48,  2.47s/it]
 26%|████████████████████▎                                                         | 177/681 [08:19<21:03,  2.51s/it]
                                                                                                                     
{'loss': 1.3498, 'grad_norm': 3.158673048019409, 'learning_rate': 4.6322706682636137e-07, 'beta_dpo/gap_mean': 42.564491271972656, 'beta_dpo/gap_std': 55.388065338134766, 'beta_dpo/beta_used_raw': -0.20864097774028778, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.612617015838623, 'logits/rejected': -0.5953266024589539, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 45.510658264160156, 'beta_dpo/beta_margin_mean': 0.045510660856962204, 'beta_dpo/beta_margin_std': 0.06027425080537796, 'beta_dpo/beta_margin_grad_mean': -0.48863834142684937, 'beta_dpo/beta_margin_grad_std': 0.015036150813102722, 'epoch': 0.26}

 26%|████████████████████▎                                                         | 177/681 [08:19<21:03,  2.51s/it]
 26%|████████████████████▍                                                         | 178/681 [08:21<21:15,  2.54s/it]
                                                                                                                     
{'loss': 1.3433, 'grad_norm': 433.4047546386719, 'learning_rate': 4.6255428393240354e-07, 'beta_dpo/gap_mean': 45.61469650268555, 'beta_dpo/gap_std': 58.27642059326172, 'beta_dpo/beta_used_raw': 0.18339481949806213, 'beta_dpo/beta_used': 0.18339481949806213, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5409312844276428, 'logits/rejected': -0.5512675642967224, 'beta_dpo/beta': 0.18339481949806213, 'beta_dpo/loss_margin_mean': 61.0152587890625, 'beta_dpo/beta_margin_mean': 11.09678840637207, 'beta_dpo/beta_margin_std': 12.919548988342285, 'beta_dpo/beta_margin_grad_mean': -0.1955973207950592, 'beta_dpo/beta_margin_grad_std': 0.3506017029285431, 'epoch': 0.26}

 26%|████████████████████▍                                                         | 178/681 [08:21<21:15,  2.54s/it]
 26%|████████████████████▌                                                         | 179/681 [08:24<22:35,  2.70s/it]
                                                                                                                     
{'loss': 0.977, 'grad_norm': 119.420166015625, 'learning_rate': 4.6187590003538724e-07, 'beta_dpo/gap_mean': 46.626121520996094, 'beta_dpo/gap_std': 60.98898696899414, 'beta_dpo/beta_used_raw': 0.04584415256977081, 'beta_dpo/beta_used': 0.04584415256977081, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.555252730846405, 'logits/rejected': -0.5443023443222046, 'beta_dpo/beta': 0.04584415256977081, 'beta_dpo/loss_margin_mean': 46.46109390258789, 'beta_dpo/beta_margin_mean': 1.8824143409729004, 'beta_dpo/beta_margin_std': 4.4029927253723145, 'beta_dpo/beta_margin_grad_mean': -0.33513152599334717, 'beta_dpo/beta_margin_grad_std': 0.3240673542022705, 'epoch': 0.26}

 26%|████████████████████▌                                                         | 179/681 [08:24<22:35,  2.70s/it]
 26%|████████████████████▌                                                         | 180/681 [08:27<21:45,  2.61s/it]
                                                                                                                     
{'loss': 2.241, 'grad_norm': 654.2474365234375, 'learning_rate': 4.611919330113591e-07, 'beta_dpo/gap_mean': 47.3960075378418, 'beta_dpo/gap_std': 61.42702102661133, 'beta_dpo/beta_used_raw': 0.2832660675048828, 'beta_dpo/beta_used': 0.34115684032440186, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5455374717712402, 'logits/rejected': -0.5354658961296082, 'beta_dpo/beta': 0.34115684032440186, 'beta_dpo/loss_margin_mean': 54.383392333984375, 'beta_dpo/beta_margin_mean': 18.263864517211914, 'beta_dpo/beta_margin_std': 32.01734924316406, 'beta_dpo/beta_margin_grad_mean': -0.3222728371620178, 'beta_dpo/beta_margin_grad_std': 0.29305145144462585, 'epoch': 0.26}

 26%|████████████████████▌                                                         | 180/681 [08:27<21:45,  2.61s/it]
 27%|████████████████████▋                                                         | 181/681 [08:29<21:44,  2.61s/it]
                                                                                                                     
{'loss': 1.3547, 'grad_norm': 2.6833486557006836, 'learning_rate': 4.605024008834863e-07, 'beta_dpo/gap_mean': 45.22578430175781, 'beta_dpo/gap_std': 59.60420608520508, 'beta_dpo/beta_used_raw': -0.6792909502983093, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6246634721755981, 'logits/rejected': -0.5926576852798462, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 31.555599212646484, 'beta_dpo/beta_margin_mean': 0.031555600464344025, 'beta_dpo/beta_margin_std': 0.051769278943538666, 'beta_dpo/beta_margin_grad_mean': -0.49211806058883667, 'beta_dpo/beta_margin_grad_std': 0.01292695663869381, 'epoch': 0.27}

 27%|████████████████████▋                                                         | 181/681 [08:29<21:44,  2.61s/it]
 27%|████████████████████▊                                                         | 182/681 [08:32<21:23,  2.57s/it]
                                                                                                                     
{'loss': 1.3445, 'grad_norm': 3.020500659942627, 'learning_rate': 4.598073218215817e-07, 'beta_dpo/gap_mean': 46.82099533081055, 'beta_dpo/gap_std': 60.325225830078125, 'beta_dpo/beta_used_raw': -0.13890297710895538, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.568708062171936, 'logits/rejected': -0.5688773989677429, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 58.42866134643555, 'beta_dpo/beta_margin_mean': 0.05842866376042366, 'beta_dpo/beta_margin_std': 0.06418631225824356, 'beta_dpo/beta_margin_grad_mean': -0.48541346192359924, 'beta_dpo/beta_margin_grad_std': 0.016013246029615402, 'epoch': 0.27}

 27%|████████████████████▊                                                         | 182/681 [08:32<21:23,  2.57s/it]
 27%|████████████████████▉                                                         | 183/681 [08:34<20:44,  2.50s/it]
                                                                                                                     
{'loss': 1.1118, 'grad_norm': 198.4879608154297, 'learning_rate': 4.5910671414162484e-07, 'beta_dpo/gap_mean': 46.11639404296875, 'beta_dpo/gap_std': 58.62394714355469, 'beta_dpo/beta_used_raw': -0.7067348957061768, 'beta_dpo/beta_used': 0.21429939568042755, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5793416500091553, 'logits/rejected': -0.5485885739326477, 'beta_dpo/beta': 0.21429939568042755, 'beta_dpo/loss_margin_mean': 33.00257873535156, 'beta_dpo/beta_margin_mean': 11.448225975036621, 'beta_dpo/beta_margin_std': 18.331274032592773, 'beta_dpo/beta_margin_grad_mean': -0.31174200773239136, 'beta_dpo/beta_margin_grad_std': 0.29498615860939026, 'epoch': 0.27}

 27%|████████████████████▉                                                         | 183/681 [08:34<20:44,  2.50s/it]
 27%|█████████████████████                                                         | 184/681 [08:37<21:11,  2.56s/it]
                                                                                                                     
{'loss': 1.3576, 'grad_norm': 2.891065835952759, 'learning_rate': 4.5840059630527985e-07, 'beta_dpo/gap_mean': 42.51811981201172, 'beta_dpo/gap_std': 57.046356201171875, 'beta_dpo/beta_used_raw': -0.6931981444358826, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6110912561416626, 'logits/rejected': -0.5948389768600464, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 34.653656005859375, 'beta_dpo/beta_margin_mean': 0.03465365990996361, 'beta_dpo/beta_margin_std': 0.05163479968905449, 'beta_dpo/beta_margin_grad_mean': -0.4913460612297058, 'beta_dpo/beta_margin_grad_std': 0.012888733297586441, 'epoch': 0.27}

 27%|█████████████████████                                                         | 184/681 [08:37<21:11,  2.56s/it]
 27%|█████████████████████▏                                                        | 185/681 [08:39<20:53,  2.53s/it]
                                                                                                                     
{'loss': 1.3663, 'grad_norm': 2.7128992080688477, 'learning_rate': 4.5768898691940836e-07, 'beta_dpo/gap_mean': 40.281700134277344, 'beta_dpo/gap_std': 56.37439727783203, 'beta_dpo/beta_used_raw': -1.0860377550125122, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6103675961494446, 'logits/rejected': -0.566834032535553, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 26.009916305541992, 'beta_dpo/beta_margin_mean': 0.02600991725921631, 'beta_dpo/beta_margin_std': 0.052919141948223114, 'beta_dpo/beta_margin_grad_mean': -0.49350568652153015, 'beta_dpo/beta_margin_grad_std': 0.013207558542490005, 'epoch': 0.27}

 27%|█████████████████████▏                                                        | 185/681 [08:39<20:53,  2.53s/it]
 27%|█████████████████████▎                                                        | 186/681 [08:42<20:43,  2.51s/it]
                                                                                                                     
{'loss': 1.3496, 'grad_norm': 2.8734123706817627, 'learning_rate': 4.5697190473557947e-07, 'beta_dpo/gap_mean': 40.561866760253906, 'beta_dpo/gap_std': 56.94186019897461, 'beta_dpo/beta_used_raw': -0.08622078597545624, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5887362360954285, 'logits/rejected': -0.5443171262741089, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 47.59168243408203, 'beta_dpo/beta_margin_mean': 0.0475916862487793, 'beta_dpo/beta_margin_std': 0.05890846624970436, 'beta_dpo/beta_margin_grad_mean': -0.4881168007850647, 'beta_dpo/beta_margin_grad_std': 0.014697042293846607, 'epoch': 0.27}

 27%|█████████████████████▎                                                        | 186/681 [08:42<20:43,  2.51s/it]
 27%|█████████████████████▍                                                        | 187/681 [08:44<20:11,  2.45s/it]
                                                                                                                     
{'loss': 0.8623, 'grad_norm': 143.63812255859375, 'learning_rate': 4.5624936864957555e-07, 'beta_dpo/gap_mean': 40.478797912597656, 'beta_dpo/gap_std': 56.40562438964844, 'beta_dpo/beta_used_raw': -0.1899646818637848, 'beta_dpo/beta_used': 0.09833470731973648, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5601129531860352, 'logits/rejected': -0.5561456680297852, 'beta_dpo/beta': 0.09833470731973648, 'beta_dpo/loss_margin_mean': 40.979331970214844, 'beta_dpo/beta_margin_mean': 5.131124019622803, 'beta_dpo/beta_margin_std': 8.384321212768555, 'beta_dpo/beta_margin_grad_mean': -0.29737338423728943, 'beta_dpo/beta_margin_grad_std': 0.27039891481399536, 'epoch': 0.27}

 27%|█████████████████████▍                                                        | 187/681 [08:44<20:11,  2.45s/it]
 28%|█████████████████████▌                                                        | 188/681 [08:47<20:26,  2.49s/it]
                                                                                                                     
{'loss': 1.1264, 'grad_norm': 319.3719787597656, 'learning_rate': 4.5552139770089454e-07, 'beta_dpo/gap_mean': 42.536376953125, 'beta_dpo/gap_std': 56.52394104003906, 'beta_dpo/beta_used_raw': -0.06993640959262848, 'beta_dpo/beta_used': 0.15021683275699615, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5592831373214722, 'logits/rejected': -0.5565686225891113, 'beta_dpo/beta': 0.15021683275699615, 'beta_dpo/loss_margin_mean': 51.156455993652344, 'beta_dpo/beta_margin_mean': 7.610217571258545, 'beta_dpo/beta_margin_std': 14.164756774902344, 'beta_dpo/beta_margin_grad_mean': -0.3293021023273468, 'beta_dpo/beta_margin_grad_std': 0.28328651189804077, 'epoch': 0.28}

 28%|█████████████████████▌                                                        | 188/681 [08:47<20:26,  2.49s/it]
 28%|█████████████████████▋                                                        | 189/681 [08:49<20:08,  2.46s/it]
                                                                                                                     
{'loss': 1.3503, 'grad_norm': 2.7365245819091797, 'learning_rate': 4.5478801107224794e-07, 'beta_dpo/gap_mean': 42.98434066772461, 'beta_dpo/gap_std': 57.9720573425293, 'beta_dpo/beta_used_raw': -0.27419549226760864, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5560922026634216, 'logits/rejected': -0.5184494853019714, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 43.51968002319336, 'beta_dpo/beta_margin_mean': 0.04351968318223953, 'beta_dpo/beta_margin_std': 0.06336233019828796, 'beta_dpo/beta_margin_grad_mean': -0.4891382157802582, 'beta_dpo/beta_margin_grad_std': 0.01579362154006958, 'epoch': 0.28}

 28%|█████████████████████▋                                                        | 189/681 [08:49<20:08,  2.46s/it]
 28%|█████████████████████▊                                                        | 190/681 [08:51<20:00,  2.44s/it]
                                                                                                                     
{'loss': 1.349, 'grad_norm': 3.3970863819122314, 'learning_rate': 4.5404922808905543e-07, 'beta_dpo/gap_mean': 43.333824157714844, 'beta_dpo/gap_std': 59.198699951171875, 'beta_dpo/beta_used_raw': -0.20993714034557343, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.6286275386810303, 'logits/rejected': -0.6088818907737732, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 50.25510787963867, 'beta_dpo/beta_margin_mean': 0.05025511234998703, 'beta_dpo/beta_margin_std': 0.0673254132270813, 'beta_dpo/beta_margin_grad_mean': -0.48745664954185486, 'beta_dpo/beta_margin_grad_std': 0.016793405637145042, 'epoch': 0.28}

 28%|█████████████████████▊                                                        | 190/681 [08:51<20:00,  2.44s/it]
 28%|█████████████████████▉                                                        | 191/681 [08:54<21:16,  2.61s/it]
                                                                                                                     
{'loss': 1.0202, 'grad_norm': 471.61907958984375, 'learning_rate': 4.5330506821893565e-07, 'beta_dpo/gap_mean': 48.85545349121094, 'beta_dpo/gap_std': 62.08613586425781, 'beta_dpo/beta_used_raw': 0.46209681034088135, 'beta_dpo/beta_used': 0.46209681034088135, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5496765375137329, 'logits/rejected': -0.5357059240341187, 'beta_dpo/beta': 0.46209681034088135, 'beta_dpo/loss_margin_mean': 71.1089096069336, 'beta_dpo/beta_margin_mean': 36.4068603515625, 'beta_dpo/beta_margin_std': 57.78350067138672, 'beta_dpo/beta_margin_grad_mean': -0.24650421738624573, 'beta_dpo/beta_margin_grad_std': 0.2589731812477112, 'epoch': 0.28}

 28%|█████████████████████▉                                                        | 191/681 [08:54<21:16,  2.61s/it]
 28%|█████████████████████▉                                                        | 192/681 [08:57<21:14,  2.61s/it]
                                                                                                                     
{'loss': 1.3484, 'grad_norm': 2.940540075302124, 'learning_rate': 4.5255555107119336e-07, 'beta_dpo/gap_mean': 49.61614227294922, 'beta_dpo/gap_std': 65.27165222167969, 'beta_dpo/beta_used_raw': -0.5453534126281738, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5459074974060059, 'logits/rejected': -0.5400164127349854, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 52.18231964111328, 'beta_dpo/beta_margin_mean': 0.05218232050538063, 'beta_dpo/beta_margin_std': 0.07510577142238617, 'beta_dpo/beta_margin_grad_mean': -0.48698392510414124, 'beta_dpo/beta_margin_grad_std': 0.018710140138864517, 'epoch': 0.28}

 28%|█████████████████████▉                                                        | 192/681 [08:57<21:14,  2.61s/it]
 28%|██████████████████████                                                        | 193/681 [08:59<20:42,  2.55s/it]
                                                                                                                     
{'loss': 1.3531, 'grad_norm': 3.5088882446289062, 'learning_rate': 4.5180069639630236e-07, 'beta_dpo/gap_mean': 46.75275421142578, 'beta_dpo/gap_std': 65.9295425415039, 'beta_dpo/beta_used_raw': -0.6699286103248596, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5572738647460938, 'logits/rejected': -0.5282651782035828, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 29.983781814575195, 'beta_dpo/beta_margin_mean': 0.02998378500342369, 'beta_dpo/beta_margin_std': 0.06887201964855194, 'beta_dpo/beta_margin_grad_mean': -0.4925091862678528, 'beta_dpo/beta_margin_grad_std': 0.017181508243083954, 'epoch': 0.28}

 28%|██████████████████████                                                        | 193/681 [08:59<20:42,  2.55s/it]
 28%|██████████████████████▏                                                       | 194/681 [09:02<19:56,  2.46s/it]
                                                                                                                     
{'loss': 1.67, 'grad_norm': 662.7078857421875, 'learning_rate': 4.510405240853854e-07, 'beta_dpo/gap_mean': 46.84581756591797, 'beta_dpo/gap_std': 64.2998046875, 'beta_dpo/beta_used_raw': 0.19052860140800476, 'beta_dpo/beta_used': 0.19052860140800476, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46685880422592163, 'logits/rejected': -0.44785797595977783, 'beta_dpo/beta': 0.19052860140800476, 'beta_dpo/loss_margin_mean': 48.318939208984375, 'beta_dpo/beta_margin_mean': 8.937496185302734, 'beta_dpo/beta_margin_std': 12.730754852294922, 'beta_dpo/beta_margin_grad_mean': -0.20192070305347443, 'beta_dpo/beta_margin_grad_std': 0.34633687138557434, 'epoch': 0.28}

 28%|██████████████████████▏                                                       | 194/681 [09:02<19:56,  2.46s/it]
 29%|██████████████████████▎                                                       | 195/681 [09:04<20:17,  2.51s/it]
                                                                                                                     
{'loss': 2.5194, 'grad_norm': 1409.7032470703125, 'learning_rate': 4.5027505416968985e-07, 'beta_dpo/gap_mean': 47.83788299560547, 'beta_dpo/gap_std': 64.01758575439453, 'beta_dpo/beta_used_raw': 0.34017544984817505, 'beta_dpo/beta_used': 0.34017544984817505, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4705166518688202, 'logits/rejected': -0.48458150029182434, 'beta_dpo/beta': 0.34017544984817505, 'beta_dpo/loss_margin_mean': 53.63036346435547, 'beta_dpo/beta_margin_mean': 17.846120834350586, 'beta_dpo/beta_margin_std': 31.463382720947266, 'beta_dpo/beta_margin_grad_mean': -0.24558886885643005, 'beta_dpo/beta_margin_grad_std': 0.3135336637496948, 'epoch': 0.29}

 29%|██████████████████████▎                                                       | 195/681 [09:04<20:17,  2.51s/it]
 29%|██████████████████████▍                                                       | 196/681 [09:07<20:24,  2.52s/it]
                                                                                                                     
{'loss': 2.7513, 'grad_norm': 580.5075073242188, 'learning_rate': 4.495043068200599e-07, 'beta_dpo/gap_mean': 49.88597869873047, 'beta_dpo/gap_std': 66.26655578613281, 'beta_dpo/beta_used_raw': -0.07183443009853363, 'beta_dpo/beta_used': 0.13741353154182434, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49783796072006226, 'logits/rejected': -0.4742533564567566, 'beta_dpo/beta': 0.13741353154182434, 'beta_dpo/loss_margin_mean': 57.657196044921875, 'beta_dpo/beta_margin_mean': 9.195865631103516, 'beta_dpo/beta_margin_std': 19.96077537536621, 'beta_dpo/beta_margin_grad_mean': -0.3610975742340088, 'beta_dpo/beta_margin_grad_std': 0.3129690885543823, 'epoch': 0.29}

 29%|██████████████████████▍                                                       | 196/681 [09:07<20:24,  2.52s/it]
 29%|██████████████████████▌                                                       | 197/681 [09:09<20:26,  2.53s/it]
                                                                                                                     
{'loss': 1.1075, 'grad_norm': 23.286901473999023, 'learning_rate': 4.4872830234640493e-07, 'beta_dpo/gap_mean': 48.81125259399414, 'beta_dpo/gap_std': 64.20172119140625, 'beta_dpo/beta_used_raw': -0.20918835699558258, 'beta_dpo/beta_used': 0.009012533351778984, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48581668734550476, 'logits/rejected': -0.47287267446517944, 'beta_dpo/beta': 0.009012533351778984, 'beta_dpo/loss_margin_mean': 44.6383056640625, 'beta_dpo/beta_margin_mean': 0.44567611813545227, 'beta_dpo/beta_margin_std': 0.761162519454956, 'beta_dpo/beta_margin_grad_mean': -0.4102240204811096, 'beta_dpo/beta_margin_grad_std': 0.14067673683166504, 'epoch': 0.29}

 29%|██████████████████████▌                                                       | 197/681 [09:09<20:26,  2.53s/it]
 29%|██████████████████████▋                                                       | 198/681 [09:12<20:34,  2.55s/it]
                                                                                                                     
{'loss': 1.3515, 'grad_norm': 3.0157718658447266, 'learning_rate': 4.479470611971645e-07, 'beta_dpo/gap_mean': 49.21632385253906, 'beta_dpo/gap_std': 63.374412536621094, 'beta_dpo/beta_used_raw': -0.7153933048248291, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5509780645370483, 'logits/rejected': -0.5530319213867188, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 52.77407455444336, 'beta_dpo/beta_margin_mean': 0.05277407914400101, 'beta_dpo/beta_margin_std': 0.06834717839956284, 'beta_dpo/beta_margin_grad_mean': -0.4868345856666565, 'beta_dpo/beta_margin_grad_std': 0.0170100387185812, 'epoch': 0.29}

 29%|██████████████████████▋                                                       | 198/681 [09:12<20:34,  2.55s/it]
 29%|██████████████████████▊                                                       | 199/681 [09:15<20:55,  2.61s/it]
                                                                                                                     
{'loss': 1.3469, 'grad_norm': 3.9049272537231445, 'learning_rate': 4.471606039587695e-07, 'beta_dpo/gap_mean': 50.510684967041016, 'beta_dpo/gap_std': 65.09575653076172, 'beta_dpo/beta_used_raw': -0.5050678253173828, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5343225002288818, 'logits/rejected': -0.5195610523223877, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 51.886741638183594, 'beta_dpo/beta_margin_mean': 0.05188674107193947, 'beta_dpo/beta_margin_std': 0.06968604773283005, 'beta_dpo/beta_margin_grad_mean': -0.48704952001571655, 'beta_dpo/beta_margin_grad_std': 0.01737978495657444, 'epoch': 0.29}

 29%|██████████████████████▊                                                       | 199/681 [09:15<20:55,  2.61s/it]
 29%|██████████████████████▉                                                       | 200/681 [09:17<20:49,  2.60s/it]
                                                                                                                     
{'loss': 0.8706, 'grad_norm': 191.8094024658203, 'learning_rate': 4.4636895135509966e-07, 'beta_dpo/gap_mean': 50.77419662475586, 'beta_dpo/gap_std': 67.68488311767578, 'beta_dpo/beta_used_raw': -0.24377571046352386, 'beta_dpo/beta_used': 0.09858327358961105, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5364083647727966, 'logits/rejected': -0.5175313949584961, 'beta_dpo/beta': 0.09858327358961105, 'beta_dpo/loss_margin_mean': 54.00712966918945, 'beta_dpo/beta_margin_mean': 5.793294429779053, 'beta_dpo/beta_margin_std': 12.536651611328125, 'beta_dpo/beta_margin_grad_mean': -0.3039037585258484, 'beta_dpo/beta_margin_grad_std': 0.26042643189430237, 'epoch': 0.29}

 29%|██████████████████████▉                                                       | 200/681 [09:17<20:49,  2.60s/it][INFO|trainer.py:4307] 2026-04-17 23:32:49,827 >>
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-17 23:32:49,827 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-17 23:32:49,827 >>   Batch size = 8


  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A

  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.65it/s][A

  4%|███▎                                                                             | 3/73 [00:01<00:27,  2.57it/s][A

  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.25it/s][A

  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.10it/s][A

  8%|██████▋                                                                          | 6/73 [00:02<00:33,  1.99it/s][A

 10%|███████▊                                                                         | 7/73 [00:03<00:32,  2.06it/s][A

 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.92it/s][A

 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.87it/s][A

 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.84it/s][A

 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A

 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.80it/s][A

 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.84it/s][A

 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.80it/s][A

 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.81it/s][A

 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.74it/s][A

 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.74it/s][A

 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.73it/s][A

 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.70it/s][A

 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.69it/s][A

 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.69it/s][A

 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.68it/s][A

 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:28,  1.73it/s][A

 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.74it/s][A

 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:27,  1.72it/s][A

 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.73it/s][A

 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s][A

 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.88it/s][A

 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:23,  1.91it/s][A

 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.92it/s][A

 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.85it/s][A

 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s][A

 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:20,  1.91it/s][A

 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.88it/s][A

 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.80it/s][A

 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.81it/s][A

 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s][A

 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.88it/s][A

 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:18,  1.79it/s][A

 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.82it/s][A

 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.88it/s][A

 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:16,  1.83it/s][A

 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s][A

 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.85it/s][A

 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.77it/s][A

 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.85it/s][A

 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s][A

 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:25<00:13,  1.80it/s][A

 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.79it/s][A

 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.81it/s][A

 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.79it/s][A

 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.73it/s][A

 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.71it/s][A

 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.82it/s][A

 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.81it/s][A

 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.85it/s][A

 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.77it/s][A

 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.85it/s][A

 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.84it/s][A

 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s][A

 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A

 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.77it/s][A

 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s][A

 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.96it/s][A

 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.93it/s][A

 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.85it/s][A

 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.89it/s][A

 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.83it/s][A

 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s][A

 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A

 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.81it/s][A

 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.80it/s][A

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A

                                                                                                                     
[A{'eval_loss': 0.6904171705245972, 'eval_runtime': 40.1818, 'eval_samples_per_second': 58.21, 'eval_steps_per_second': 1.842, 'eval_beta_dpo/beta': 0.004597905091941357, 'eval_beta_dpo/loss_margin_mean': 27.745779037475586, 'eval_beta_dpo/beta_margin_mean': 0.21994154155254364, 'eval_beta_dpo/beta_margin_std': 0.3260399401187897, 'eval_beta_dpo/beta_margin_grad_mean': -0.49029847979545593, 'eval_beta_dpo/beta_margin_grad_std': 0.022800996899604797, 'eval_beta_dpo/gap_mean': 50.691349029541016, 'eval_beta_dpo/gap_std': 68.24334716796875, 'eval_beta_dpo/beta_used_raw': -1.2767338752746582, 'eval_beta_dpo/beta_used': 0.004597905091941357, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.6063677668571472, 'eval_logits/rejected': -0.5873017311096191, 'epoch': 0.29}

 29%|██████████████████████▉                                                       | 200/681 [09:58<20:49,  2.60s/it]

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A

                                                                                                                     [A[INFO|trainer.py:3984] 2026-04-17 23:33:44,893 >> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200
[INFO|configuration_utils.py:419] 2026-04-17 23:33:44,942 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200/config.json
[INFO|configuration_utils.py:911] 2026-04-17 23:33:45,016 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-17 23:34:38,392 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-17 23:34:38,413 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-17 23:34:38,427 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200/special_tokens_map.json

 30%|█████████████████████▊                                                    | 201/681 [14:55<13:46:06, 103.26s/it]
                                                                                                                     
{'loss': 1.3421, 'grad_norm': 3.234513282775879, 'learning_rate': 4.455721242469372e-07, 'beta_dpo/gap_mean': 51.0998420715332, 'beta_dpo/gap_std': 69.32807922363281, 'beta_dpo/beta_used_raw': -0.24471929669380188, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5788037776947021, 'logits/rejected': -0.5658458471298218, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 54.232852935791016, 'beta_dpo/beta_margin_mean': 0.05423285812139511, 'beta_dpo/beta_margin_std': 0.07199931889772415, 'beta_dpo/beta_margin_grad_mean': -0.48646533489227295, 'beta_dpo/beta_margin_grad_std': 0.017951475456357002, 'epoch': 0.3}

 30%|█████████████████████▊                                                    | 201/681 [14:55<13:46:06, 103.26s/it]
 30%|██████████████████████▌                                                     | 202/681 [14:58<9:43:39, 73.11s/it]
                                                                                                                     
{'loss': 1.3486, 'grad_norm': 3.0596237182617188, 'learning_rate': 4.4477014363141755e-07, 'beta_dpo/gap_mean': 49.74256896972656, 'beta_dpo/gap_std': 69.538330078125, 'beta_dpo/beta_used_raw': -0.5578510165214539, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5542974472045898, 'logits/rejected': -0.557321310043335, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 40.36243438720703, 'beta_dpo/beta_margin_mean': 0.040362436324357986, 'beta_dpo/beta_margin_std': 0.07123276591300964, 'beta_dpo/beta_margin_grad_mean': -0.4899270534515381, 'beta_dpo/beta_margin_grad_std': 0.017768291756510735, 'epoch': 0.3}

 30%|██████████████████████▌                                                     | 202/681 [14:58<9:43:39, 73.11s/it]
 30%|██████████████████████▋                                                     | 203/681 [15:01<6:54:41, 52.05s/it]
                                                                                                                     
{'loss': 1.347, 'grad_norm': 3.645709753036499, 'learning_rate': 4.439630306414758e-07, 'beta_dpo/gap_mean': 48.89398193359375, 'beta_dpo/gap_std': 68.63645935058594, 'beta_dpo/beta_used_raw': -0.41438037157058716, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.571040153503418, 'logits/rejected': -0.5497109293937683, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 45.81226348876953, 'beta_dpo/beta_margin_mean': 0.04581226408481598, 'beta_dpo/beta_margin_std': 0.06257802248001099, 'beta_dpo/beta_margin_grad_mean': -0.48856452107429504, 'beta_dpo/beta_margin_grad_std': 0.015608040615916252, 'epoch': 0.3}

 30%|██████████████████████▋                                                     | 203/681 [15:01<6:54:41, 52.05s/it]
 30%|██████████████████████▊                                                     | 204/681 [15:04<4:56:33, 37.30s/it]
                                                                                                                     
{'loss': 1.3582, 'grad_norm': 2.720808982849121, 'learning_rate': 4.431508065452897e-07, 'beta_dpo/gap_mean': 47.7497673034668, 'beta_dpo/gap_std': 70.519287109375, 'beta_dpo/beta_used_raw': -1.0310747623443604, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5842176675796509, 'logits/rejected': -0.5408717393875122, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 42.08584213256836, 'beta_dpo/beta_margin_mean': 0.04208584129810333, 'beta_dpo/beta_margin_std': 0.07838640362024307, 'beta_dpo/beta_margin_grad_mean': -0.489501029253006, 'beta_dpo/beta_margin_grad_std': 0.01954388990998268, 'epoch': 0.3}

 30%|██████████████████████▊                                                     | 204/681 [15:04<4:56:33, 37.30s/it]
 30%|██████████████████████▉                                                     | 205/681 [15:07<3:33:13, 26.88s/it]
                                                                                                                     
{'loss': 0.9147, 'grad_norm': 358.5487365722656, 'learning_rate': 4.4233349274571974e-07, 'beta_dpo/gap_mean': 50.11834716796875, 'beta_dpo/gap_std': 70.84585571289062, 'beta_dpo/beta_used_raw': 0.12516099214553833, 'beta_dpo/beta_used': 0.2624741196632385, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.54551100730896, 'logits/rejected': -0.5079349875450134, 'beta_dpo/beta': 0.2624741196632385, 'beta_dpo/loss_margin_mean': 59.972965240478516, 'beta_dpo/beta_margin_mean': 21.14405059814453, 'beta_dpo/beta_margin_std': 34.92091369628906, 'beta_dpo/beta_margin_grad_mean': -0.29318341612815857, 'beta_dpo/beta_margin_grad_std': 0.2785731852054596, 'epoch': 0.3}

 30%|██████████████████████▉                                                     | 205/681 [15:07<3:33:13, 26.88s/it]
 30%|██████████████████████▉                                                     | 206/681 [15:09<2:34:17, 19.49s/it]
                                                                                                                     
{'loss': 5.7592, 'grad_norm': 1746.28271484375, 'learning_rate': 4.415111107797445e-07, 'beta_dpo/gap_mean': 52.5726318359375, 'beta_dpo/gap_std': 71.26499938964844, 'beta_dpo/beta_used_raw': 0.8118077516555786, 'beta_dpo/beta_used': 0.8118077516555786, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5080777406692505, 'logits/rejected': -0.5112833976745605, 'beta_dpo/beta': 0.8118077516555786, 'beta_dpo/loss_margin_mean': 68.52181243896484, 'beta_dpo/beta_margin_mean': 56.539398193359375, 'beta_dpo/beta_margin_std': 60.37042236328125, 'beta_dpo/beta_margin_grad_mean': -0.1911478042602539, 'beta_dpo/beta_margin_grad_std': 0.3803271949291229, 'epoch': 0.3}

 30%|██████████████████████▉                                                     | 206/681 [15:09<2:34:17, 19.49s/it]
 30%|███████████████████████                                                     | 207/681 [15:11<1:53:45, 14.40s/it]
                                                                                                                     
{'loss': 1.3372, 'grad_norm': 3.9254820346832275, 'learning_rate': 4.4068368231789365e-07, 'beta_dpo/gap_mean': 55.76563262939453, 'beta_dpo/gap_std': 74.22966766357422, 'beta_dpo/beta_used_raw': -0.22176781296730042, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5645418167114258, 'logits/rejected': -0.5385115742683411, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 70.96053314208984, 'beta_dpo/beta_margin_mean': 0.07096053659915924, 'beta_dpo/beta_margin_std': 0.08763889223337173, 'beta_dpo/beta_margin_grad_mean': -0.4823157787322998, 'beta_dpo/beta_margin_grad_std': 0.02179008349776268, 'epoch': 0.3}

 30%|███████████████████████                                                     | 207/681 [15:11<1:53:45, 14.40s/it]
 31%|███████████████████████▏                                                    | 208/681 [15:14<1:25:42, 10.87s/it]
                                                                                                                     
{'loss': 1.3351, 'grad_norm': 3.8811442852020264, 'learning_rate': 4.398512291636768e-07, 'beta_dpo/gap_mean': 56.717201232910156, 'beta_dpo/gap_std': 76.8087158203125, 'beta_dpo/beta_used_raw': -0.131654754281044, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5704125761985779, 'logits/rejected': -0.5577903985977173, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 55.905086517333984, 'beta_dpo/beta_margin_mean': 0.055905092507600784, 'beta_dpo/beta_margin_std': 0.08626676350831985, 'beta_dpo/beta_margin_grad_mean': -0.48605671525001526, 'beta_dpo/beta_margin_grad_std': 0.021491041406989098, 'epoch': 0.31}

 31%|███████████████████████▏                                                    | 208/681 [15:14<1:25:42, 10.87s/it]
 31%|███████████████████████▎                                                    | 209/681 [15:16<1:05:18,  8.30s/it]
                                                                                                                     
{'loss': 1.3415, 'grad_norm': 3.4770359992980957, 'learning_rate': 4.3901377325300857e-07, 'beta_dpo/gap_mean': 55.72069549560547, 'beta_dpo/gap_std': 78.26738739013672, 'beta_dpo/beta_used_raw': -0.45698946714401245, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5012378692626953, 'logits/rejected': -0.4895186424255371, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 52.53633117675781, 'beta_dpo/beta_margin_mean': 0.05253633111715317, 'beta_dpo/beta_margin_std': 0.07954316586256027, 'beta_dpo/beta_margin_grad_mean': -0.48689284920692444, 'beta_dpo/beta_margin_grad_std': 0.019833343103528023, 'epoch': 0.31}

 31%|███████████████████████▎                                                    | 209/681 [15:16<1:05:18,  8.30s/it]
 31%|████████████████████████                                                      | 210/681 [15:19<51:16,  6.53s/it]
                                                                                                                     
{'loss': 1.2834, 'grad_norm': 341.5815124511719, 'learning_rate': 4.381713366536311e-07, 'beta_dpo/gap_mean': 55.32640075683594, 'beta_dpo/gap_std': 78.07096862792969, 'beta_dpo/beta_used_raw': -0.5257502794265747, 'beta_dpo/beta_used': 0.15351513028144836, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4934021234512329, 'logits/rejected': -0.48370587825775146, 'beta_dpo/beta': 0.15351513028144836, 'beta_dpo/loss_margin_mean': 55.78252029418945, 'beta_dpo/beta_margin_mean': 9.529181480407715, 'beta_dpo/beta_margin_std': 20.73506736755371, 'beta_dpo/beta_margin_grad_mean': -0.3444797396659851, 'beta_dpo/beta_margin_grad_std': 0.28890836238861084, 'epoch': 0.31}

 31%|████████████████████████                                                      | 210/681 [15:19<51:16,  6.53s/it]
 31%|████████████████████████▏                                                     | 211/681 [15:21<41:16,  5.27s/it]
                                                                                                                     
{'loss': 1.3584, 'grad_norm': 3.5843217372894287, 'learning_rate': 4.373239415645323e-07, 'beta_dpo/gap_mean': 54.482818603515625, 'beta_dpo/gap_std': 79.86414337158203, 'beta_dpo/beta_used_raw': -1.437325358390808, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4944462776184082, 'logits/rejected': -0.4566226005554199, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 47.95879364013672, 'beta_dpo/beta_margin_mean': 0.047958794981241226, 'beta_dpo/beta_margin_std': 0.09425321221351624, 'beta_dpo/beta_margin_grad_mean': -0.4880537688732147, 'beta_dpo/beta_margin_grad_std': 0.0234391950070858, 'epoch': 0.31}

 31%|████████████████████████▏                                                     | 211/681 [15:21<41:16,  5.27s/it]
 31%|████████████████████████▎                                                     | 212/681 [15:24<34:43,  4.44s/it]
                                                                                                                     
{'loss': 29.8368, 'grad_norm': 7063.01416015625, 'learning_rate': 4.3647161031536086e-07, 'beta_dpo/gap_mean': 59.36201477050781, 'beta_dpo/gap_std': 85.50032043457031, 'beta_dpo/beta_used_raw': 1.0547301769256592, 'beta_dpo/beta_used': 1.3223354816436768, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4703846573829651, 'logits/rejected': -0.4657232165336609, 'beta_dpo/beta': 1.3223354816436768, 'beta_dpo/loss_margin_mean': 81.92825317382812, 'beta_dpo/beta_margin_mean': 141.0015869140625, 'beta_dpo/beta_margin_std': 267.85894775390625, 'beta_dpo/beta_margin_grad_mean': -0.35223668813705444, 'beta_dpo/beta_margin_grad_std': 0.32164767384529114, 'epoch': 0.31}

 31%|████████████████████████▎                                                     | 212/681 [15:24<34:43,  4.44s/it]
 31%|████████████████████████▍                                                     | 213/681 [15:26<30:19,  3.89s/it]
                                                                                                                     
{'loss': 1.335, 'grad_norm': 4.132566452026367, 'learning_rate': 4.3561436536583774e-07, 'beta_dpo/gap_mean': 61.29865646362305, 'beta_dpo/gap_std': 87.67449951171875, 'beta_dpo/beta_used_raw': -0.37106069922447205, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47617167234420776, 'logits/rejected': -0.44875389337539673, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 71.65673828125, 'beta_dpo/beta_margin_mean': 0.07165674865245819, 'beta_dpo/beta_margin_std': 0.10214556753635406, 'beta_dpo/beta_margin_grad_mean': -0.4821443259716034, 'beta_dpo/beta_margin_grad_std': 0.025429587811231613, 'epoch': 0.31}

 31%|████████████████████████▍                                                     | 213/681 [15:26<30:19,  3.89s/it]
 31%|████████████████████████▌                                                     | 214/681 [15:28<26:33,  3.41s/it]
                                                                                                                     
{'loss': 1.3312, 'grad_norm': 5.018362998962402, 'learning_rate': 4.3475222930516473e-07, 'beta_dpo/gap_mean': 62.14265823364258, 'beta_dpo/gap_std': 89.926513671875, 'beta_dpo/beta_used_raw': -0.2031300812959671, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4100716710090637, 'logits/rejected': -0.41462287306785583, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 66.73929595947266, 'beta_dpo/beta_margin_mean': 0.06673929840326309, 'beta_dpo/beta_margin_std': 0.09353061765432358, 'beta_dpo/beta_margin_grad_mean': -0.4833696484565735, 'beta_dpo/beta_margin_grad_std': 0.023280689492821693, 'epoch': 0.31}

 31%|████████████████████████▌                                                     | 214/681 [15:28<26:33,  3.41s/it]
 32%|████████████████████████▋                                                     | 215/681 [15:31<25:17,  3.26s/it]
                                                                                                                     
{'loss': 5.4992, 'grad_norm': 1893.756103515625, 'learning_rate': 4.3388522485142885e-07, 'beta_dpo/gap_mean': 64.10518646240234, 'beta_dpo/gap_std': 91.72321319580078, 'beta_dpo/beta_used_raw': -0.06115126609802246, 'beta_dpo/beta_used': 0.3104745149612427, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4227758049964905, 'logits/rejected': -0.41368818283081055, 'beta_dpo/beta': 0.3104745149612427, 'beta_dpo/loss_margin_mean': 70.83655548095703, 'beta_dpo/beta_margin_mean': 24.29639434814453, 'beta_dpo/beta_margin_std': 55.270938873291016, 'beta_dpo/beta_margin_grad_mean': -0.35084572434425354, 'beta_dpo/beta_margin_grad_std': 0.3201132118701935, 'epoch': 0.32}

 32%|████████████████████████▋                                                     | 215/681 [15:31<25:17,  3.26s/it]
 32%|████████████████████████▋                                                     | 216/681 [15:34<24:05,  3.11s/it]
                                                                                                                     
{'loss': 1.6065, 'grad_norm': 478.4328918457031, 'learning_rate': 4.330133748510036e-07, 'beta_dpo/gap_mean': 63.70437240600586, 'beta_dpo/gap_std': 92.65457153320312, 'beta_dpo/beta_used_raw': -0.4864157736301422, 'beta_dpo/beta_used': 0.1452518105506897, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4186558425426483, 'logits/rejected': -0.40211576223373413, 'beta_dpo/beta': 0.1452518105506897, 'beta_dpo/loss_margin_mean': 66.72907257080078, 'beta_dpo/beta_margin_mean': 12.094311714172363, 'beta_dpo/beta_margin_std': 23.100305557250977, 'beta_dpo/beta_margin_grad_mean': -0.3200395703315735, 'beta_dpo/beta_margin_grad_std': 0.28639811277389526, 'epoch': 0.32}

 32%|████████████████████████▋                                                     | 216/681 [15:34<24:05,  3.11s/it]
 32%|████████████████████████▊                                                     | 217/681 [15:37<22:49,  2.95s/it]
                                                                                                                     
{'loss': 1.4452, 'grad_norm': 547.8667602539062, 'learning_rate': 4.3213670227794757e-07, 'beta_dpo/gap_mean': 67.39096069335938, 'beta_dpo/gap_std': 93.9806137084961, 'beta_dpo/beta_used_raw': -0.15126293897628784, 'beta_dpo/beta_used': 0.052402470260858536, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4100034236907959, 'logits/rejected': -0.407045841217041, 'beta_dpo/beta': 0.052402470260858536, 'beta_dpo/loss_margin_mean': 80.78280639648438, 'beta_dpo/beta_margin_mean': 3.8621439933776855, 'beta_dpo/beta_margin_std': 9.069067001342773, 'beta_dpo/beta_margin_grad_mean': -0.38916242122650146, 'beta_dpo/beta_margin_grad_std': 0.3128577768802643, 'epoch': 0.32}

 32%|████████████████████████▊                                                     | 217/681 [15:37<22:49,  2.95s/it]
 32%|████████████████████████▉                                                     | 218/681 [15:39<22:10,  2.87s/it]
                                                                                                                     
{'loss': 1.3429, 'grad_norm': 5.246548652648926, 'learning_rate': 4.3125523023339815e-07, 'beta_dpo/gap_mean': 66.28788757324219, 'beta_dpo/gap_std': 94.35865783691406, 'beta_dpo/beta_used_raw': -1.1618341207504272, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.431363046169281, 'logits/rejected': -0.4271088242530823, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.7301025390625, 'beta_dpo/beta_margin_mean': 0.05773010477423668, 'beta_dpo/beta_margin_std': 0.09657855331897736, 'beta_dpo/beta_margin_grad_mean': -0.4856181740760803, 'beta_dpo/beta_margin_grad_std': 0.024022625759243965, 'epoch': 0.32}

 32%|████████████████████████▉                                                     | 218/681 [15:39<22:10,  2.87s/it]
 32%|█████████████████████████                                                     | 219/681 [15:42<21:37,  2.81s/it]
                                                                                                                     
{'loss': 1.3488, 'grad_norm': 4.286383152008057, 'learning_rate': 4.303689819449636e-07, 'beta_dpo/gap_mean': 62.747528076171875, 'beta_dpo/gap_std': 96.75794982910156, 'beta_dpo/beta_used_raw': -1.3351142406463623, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4274938106536865, 'logits/rejected': -0.41343453526496887, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 51.15894317626953, 'beta_dpo/beta_margin_mean': 0.05115894228219986, 'beta_dpo/beta_margin_std': 0.10570129752159119, 'beta_dpo/beta_margin_grad_mean': -0.4872594475746155, 'beta_dpo/beta_margin_grad_std': 0.02623271755874157, 'epoch': 0.32}

 32%|█████████████████████████                                                     | 219/681 [15:42<21:37,  2.81s/it]
 32%|█████████████████████████▏                                                    | 220/681 [15:45<21:06,  2.75s/it]
                                                                                                                     
{'loss': 0.914, 'grad_norm': 1213.65625, 'learning_rate': 4.2947798076611047e-07, 'beta_dpo/gap_mean': 60.67655944824219, 'beta_dpo/gap_std': 93.46902465820312, 'beta_dpo/beta_used_raw': 0.05747605115175247, 'beta_dpo/beta_used': 0.17918218672275543, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45730453729629517, 'logits/rejected': -0.43929389119148254, 'beta_dpo/beta': 0.17918218672275543, 'beta_dpo/loss_margin_mean': 43.123931884765625, 'beta_dpo/beta_margin_mean': 9.130165100097656, 'beta_dpo/beta_margin_std': 20.58268928527832, 'beta_dpo/beta_margin_grad_mean': -0.34378835558891296, 'beta_dpo/beta_margin_grad_std': 0.3021136224269867, 'epoch': 0.32}

 32%|█████████████████████████▏                                                    | 220/681 [15:45<21:06,  2.75s/it]
 32%|█████████████████████████▎                                                    | 221/681 [15:47<20:29,  2.67s/it]
                                                                                                                     
{'loss': 8.7201, 'grad_norm': 3353.1982421875, 'learning_rate': 4.285822501755485e-07, 'beta_dpo/gap_mean': 63.86392593383789, 'beta_dpo/gap_std': 92.72855377197266, 'beta_dpo/beta_used_raw': 0.8143908977508545, 'beta_dpo/beta_used': 1.0828216075897217, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41670554876327515, 'logits/rejected': -0.42472323775291443, 'beta_dpo/beta': 1.0828216075897217, 'beta_dpo/loss_margin_mean': 93.2608871459961, 'beta_dpo/beta_margin_mean': 110.4359359741211, 'beta_dpo/beta_margin_std': 165.42660522460938, 'beta_dpo/beta_margin_grad_mean': -0.285607248544693, 'beta_dpo/beta_margin_grad_std': 0.28007781505584717, 'epoch': 0.32}

 32%|█████████████████████████▎                                                    | 221/681 [15:47<20:29,  2.67s/it]
 33%|█████████████████████████▍                                                    | 222/681 [15:50<20:15,  2.65s/it]
                                                                                                                     
{'loss': 3.3505, 'grad_norm': 1461.958251953125, 'learning_rate': 4.276818137766118e-07, 'beta_dpo/gap_mean': 65.32881164550781, 'beta_dpo/gap_std': 91.67716979980469, 'beta_dpo/beta_used_raw': 0.24051879346370697, 'beta_dpo/beta_used': 0.24051879346370697, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4541017413139343, 'logits/rejected': -0.45362943410873413, 'beta_dpo/beta': 0.24051879346370697, 'beta_dpo/loss_margin_mean': 64.1358642578125, 'beta_dpo/beta_margin_mean': 14.743354797363281, 'beta_dpo/beta_margin_std': 23.80963897705078, 'beta_dpo/beta_margin_grad_mean': -0.19494900107383728, 'beta_dpo/beta_margin_grad_std': 0.3727710545063019, 'epoch': 0.33}

 33%|█████████████████████████▍                                                    | 222/681 [15:50<20:15,  2.65s/it]
 33%|█████████████████████████▌                                                    | 223/681 [15:52<19:10,  2.51s/it]
                                                                                                                     
{'loss': 1.3355, 'grad_norm': 5.079369068145752, 'learning_rate': 4.2677669529663686e-07, 'beta_dpo/gap_mean': 64.32170104980469, 'beta_dpo/gap_std': 92.70675659179688, 'beta_dpo/beta_used_raw': -0.6068298816680908, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4292357563972473, 'logits/rejected': -0.41810518503189087, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 55.133277893066406, 'beta_dpo/beta_margin_mean': 0.05513327941298485, 'beta_dpo/beta_margin_std': 0.09587711095809937, 'beta_dpo/beta_margin_grad_mean': -0.48626866936683655, 'beta_dpo/beta_margin_grad_std': 0.02382073365151882, 'epoch': 0.33}

 33%|█████████████████████████▌                                                    | 223/681 [15:52<19:10,  2.51s/it]
 33%|█████████████████████████▋                                                    | 224/681 [15:54<18:15,  2.40s/it]
                                                                                                                     
{'loss': 1.3414, 'grad_norm': 5.289470672607422, 'learning_rate': 4.2586691858633747e-07, 'beta_dpo/gap_mean': 64.98542785644531, 'beta_dpo/gap_std': 92.75971221923828, 'beta_dpo/beta_used_raw': -1.0090042352676392, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40946879982948303, 'logits/rejected': -0.3898620009422302, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 66.39501190185547, 'beta_dpo/beta_margin_mean': 0.06639501452445984, 'beta_dpo/beta_margin_std': 0.09770266711711884, 'beta_dpo/beta_margin_grad_mean': -0.4834619462490082, 'beta_dpo/beta_margin_grad_std': 0.024282945320010185, 'epoch': 0.33}

 33%|█████████████████████████▋                                                    | 224/681 [15:54<18:15,  2.40s/it]
 33%|█████████████████████████▊                                                    | 225/681 [15:56<17:56,  2.36s/it]
                                                                                                                     
{'loss': 2.7657, 'grad_norm': 5388.49951171875, 'learning_rate': 4.249525076191759e-07, 'beta_dpo/gap_mean': 66.35330200195312, 'beta_dpo/gap_std': 93.56597137451172, 'beta_dpo/beta_used_raw': 0.5190803408622742, 'beta_dpo/beta_used': 0.5190803408622742, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42718806862831116, 'logits/rejected': -0.4125264286994934, 'beta_dpo/beta': 0.5190803408622742, 'beta_dpo/loss_margin_mean': 78.7562484741211, 'beta_dpo/beta_margin_mean': 43.59006881713867, 'beta_dpo/beta_margin_std': 67.32926940917969, 'beta_dpo/beta_margin_grad_mean': -0.22263871133327484, 'beta_dpo/beta_margin_grad_std': 0.4009822607040405, 'epoch': 0.33}

 33%|█████████████████████████▊                                                    | 225/681 [15:56<17:56,  2.36s/it]
 33%|█████████████████████████▉                                                    | 226/681 [15:59<18:51,  2.49s/it]
                                                                                                                     
{'loss': 1.1641, 'grad_norm': 17.83782958984375, 'learning_rate': 4.2403348649073167e-07, 'beta_dpo/gap_mean': 65.67891693115234, 'beta_dpo/gap_std': 93.4427490234375, 'beta_dpo/beta_used_raw': -0.38874343037605286, 'beta_dpo/beta_used': 0.004440045915544033, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48651188611984253, 'logits/rejected': -0.4508872628211975, 'beta_dpo/beta': 0.004440045915544033, 'beta_dpo/loss_margin_mean': 54.554115295410156, 'beta_dpo/beta_margin_mean': 0.30315059423446655, 'beta_dpo/beta_margin_std': 0.5602424740791321, 'beta_dpo/beta_margin_grad_mean': -0.433518648147583, 'beta_dpo/beta_margin_grad_std': 0.11666657030582428, 'epoch': 0.33}

 33%|█████████████████████████▉                                                    | 226/681 [15:59<18:51,  2.49s/it]
 33%|██████████████████████████                                                    | 227/681 [16:02<18:46,  2.48s/it]
                                                                                                                     
{'loss': 1.3266, 'grad_norm': 4.970055103302002, 'learning_rate': 4.2310987941806615e-07, 'beta_dpo/gap_mean': 66.89671325683594, 'beta_dpo/gap_std': 93.85809326171875, 'beta_dpo/beta_used_raw': -0.21814611554145813, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46300429105758667, 'logits/rejected': -0.4537394046783447, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 80.1581802368164, 'beta_dpo/beta_margin_mean': 0.08015818148851395, 'beta_dpo/beta_margin_std': 0.09570427238941193, 'beta_dpo/beta_margin_grad_mean': -0.4800347089767456, 'beta_dpo/beta_margin_grad_std': 0.023754583671689034, 'epoch': 0.33}

 33%|██████████████████████████                                                    | 227/681 [16:02<18:46,  2.48s/it]
 33%|██████████████████████████                                                    | 228/681 [16:04<19:45,  2.62s/it]
                                                                                                                     
{'loss': 2.1248, 'grad_norm': 576.836669921875, 'learning_rate': 4.2218171073908463e-07, 'beta_dpo/gap_mean': 65.2583999633789, 'beta_dpo/gap_std': 93.36762237548828, 'beta_dpo/beta_used_raw': -0.04854981601238251, 'beta_dpo/beta_used': 0.23101337254047394, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46720415353775024, 'logits/rejected': -0.4512375593185425, 'beta_dpo/beta': 0.23101337254047394, 'beta_dpo/loss_margin_mean': 55.80860137939453, 'beta_dpo/beta_margin_mean': 11.812125205993652, 'beta_dpo/beta_margin_std': 30.85622215270996, 'beta_dpo/beta_margin_grad_mean': -0.36090514063835144, 'beta_dpo/beta_margin_grad_std': 0.31774094700813293, 'epoch': 0.33}

 33%|██████████████████████████                                                    | 228/681 [16:05<19:45,  2.62s/it]
 34%|██████████████████████████▏                                                   | 229/681 [16:07<19:23,  2.57s/it]
                                                                                                                     
{'loss': 1.3298, 'grad_norm': 5.151296615600586, 'learning_rate': 4.212490049118951e-07, 'beta_dpo/gap_mean': 63.560447692871094, 'beta_dpo/gap_std': 93.40653991699219, 'beta_dpo/beta_used_raw': -0.1934027224779129, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.52690190076828, 'logits/rejected': -0.4995231628417969, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 55.15596389770508, 'beta_dpo/beta_margin_mean': 0.05515596643090248, 'beta_dpo/beta_margin_std': 0.09170445799827576, 'beta_dpo/beta_margin_grad_mean': -0.486246794462204, 'beta_dpo/beta_margin_grad_std': 0.022847512736916542, 'epoch': 0.34}

 34%|██████████████████████████▏                                                   | 229/681 [16:07<19:23,  2.57s/it]
 34%|██████████████████████████▎                                                   | 230/681 [16:09<18:56,  2.52s/it]
                                                                                                                     
{'loss': 6.1252, 'grad_norm': 2202.667724609375, 'learning_rate': 4.203117865141635e-07, 'beta_dpo/gap_mean': 66.75623321533203, 'beta_dpo/gap_std': 92.87422180175781, 'beta_dpo/beta_used_raw': 0.7624739408493042, 'beta_dpo/beta_used': 0.7624739408493042, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4267687201499939, 'logits/rejected': -0.43476104736328125, 'beta_dpo/beta': 0.7624739408493042, 'beta_dpo/loss_margin_mean': 86.35228729248047, 'beta_dpo/beta_margin_mean': 65.0893325805664, 'beta_dpo/beta_margin_std': 68.40202331542969, 'beta_dpo/beta_margin_grad_mean': -0.14170564711093903, 'beta_dpo/beta_margin_grad_std': 0.3462100327014923, 'epoch': 0.34}

 34%|██████████████████████████▎                                                   | 230/681 [16:09<18:56,  2.52s/it]
 34%|██████████████████████████▍                                                   | 231/681 [16:12<19:06,  2.55s/it]
                                                                                                                     
{'loss': 1.3451, 'grad_norm': 3.6118087768554688, 'learning_rate': 4.1937008024246625e-07, 'beta_dpo/gap_mean': 65.62940979003906, 'beta_dpo/gap_std': 90.5175552368164, 'beta_dpo/beta_used_raw': -1.2731541395187378, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48225754499435425, 'logits/rejected': -0.4550408124923706, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 55.06380844116211, 'beta_dpo/beta_margin_mean': 0.05506381019949913, 'beta_dpo/beta_margin_std': 0.0815558135509491, 'beta_dpo/beta_margin_grad_mean': -0.4862736463546753, 'beta_dpo/beta_margin_grad_std': 0.020299429073929787, 'epoch': 0.34}

 34%|██████████████████████████▍                                                   | 231/681 [16:12<19:06,  2.55s/it]
 34%|██████████████████████████▌                                                   | 232/681 [16:15<19:42,  2.63s/it]
                                                                                                                     
{'loss': 1.3498, 'grad_norm': 3.735759973526001, 'learning_rate': 4.1842391091163933e-07, 'beta_dpo/gap_mean': 62.820167541503906, 'beta_dpo/gap_std': 90.34293365478516, 'beta_dpo/beta_used_raw': -1.4023609161376953, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.459547221660614, 'logits/rejected': -0.43855172395706177, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 45.41696548461914, 'beta_dpo/beta_margin_mean': 0.04541696980595589, 'beta_dpo/beta_margin_std': 0.08694743365049362, 'beta_dpo/beta_margin_grad_mean': -0.4886838495731354, 'beta_dpo/beta_margin_grad_std': 0.02164299599826336, 'epoch': 0.34}

 34%|██████████████████████████▌                                                   | 232/681 [16:15<19:42,  2.63s/it]
 34%|██████████████████████████▋                                                   | 233/681 [16:18<19:58,  2.68s/it]
                                                                                                                     
{'loss': 13.3621, 'grad_norm': 2282.5595703125, 'learning_rate': 4.174733034541245e-07, 'beta_dpo/gap_mean': 63.577369689941406, 'beta_dpo/gap_std': 93.35490417480469, 'beta_dpo/beta_used_raw': 0.6553887128829956, 'beta_dpo/beta_used': 0.6553887128829956, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4606332778930664, 'logits/rejected': -0.46368852257728577, 'beta_dpo/beta': 0.6553887128829956, 'beta_dpo/loss_margin_mean': 80.09815216064453, 'beta_dpo/beta_margin_mean': 55.271568298339844, 'beta_dpo/beta_margin_std': 99.48710632324219, 'beta_dpo/beta_margin_grad_mean': -0.2702082693576813, 'beta_dpo/beta_margin_grad_std': 0.43462416529655457, 'epoch': 0.34}

 34%|██████████████████████████▋                                                   | 233/681 [16:18<19:58,  2.68s/it]
 34%|██████████████████████████▊                                                   | 234/681 [16:20<19:56,  2.68s/it]
                                                                                                                     
{'loss': 8.0627, 'grad_norm': 2767.52880859375, 'learning_rate': 4.165182829193126e-07, 'beta_dpo/gap_mean': 68.05307006835938, 'beta_dpo/gap_std': 95.49946594238281, 'beta_dpo/beta_used_raw': 0.4511352777481079, 'beta_dpo/beta_used': 0.7232382297515869, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43197929859161377, 'logits/rejected': -0.4625827670097351, 'beta_dpo/beta': 0.7232382297515869, 'beta_dpo/loss_margin_mean': 78.76392364501953, 'beta_dpo/beta_margin_mean': 74.6033935546875, 'beta_dpo/beta_margin_std': 122.55489349365234, 'beta_dpo/beta_margin_grad_mean': -0.2983703017234802, 'beta_dpo/beta_margin_grad_std': 0.284095823764801, 'epoch': 0.34}

 34%|██████████████████████████▊                                                   | 234/681 [16:20<19:56,  2.68s/it]
 35%|██████████████████████████▉                                                   | 235/681 [16:23<19:21,  2.60s/it]
                                                                                                                     
{'loss': 1.3526, 'grad_norm': 6.3571929931640625, 'learning_rate': 4.1555887447288255e-07, 'beta_dpo/gap_mean': 64.27421569824219, 'beta_dpo/gap_std': 95.8262939453125, 'beta_dpo/beta_used_raw': -1.6707329750061035, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4989432692527771, 'logits/rejected': -0.4859057068824768, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 48.786006927490234, 'beta_dpo/beta_margin_mean': 0.04878600686788559, 'beta_dpo/beta_margin_std': 0.09710308909416199, 'beta_dpo/beta_margin_grad_mean': -0.4878506064414978, 'beta_dpo/beta_margin_grad_std': 0.024142302572727203, 'epoch': 0.35}

 35%|██████████████████████████▉                                                   | 235/681 [16:23<19:21,  2.60s/it]
 35%|███████████████████████████                                                   | 236/681 [16:25<19:37,  2.65s/it]
                                                                                                                     
{'loss': 0.7942, 'grad_norm': 211.59228515625, 'learning_rate': 4.1459510339613946e-07, 'beta_dpo/gap_mean': 65.10395050048828, 'beta_dpo/gap_std': 94.22532653808594, 'beta_dpo/beta_used_raw': -0.10223083198070526, 'beta_dpo/beta_used': 0.12677739560604095, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46568238735198975, 'logits/rejected': -0.4750595688819885, 'beta_dpo/beta': 0.12677739560604095, 'beta_dpo/loss_margin_mean': 74.87934875488281, 'beta_dpo/beta_margin_mean': 10.552834510803223, 'beta_dpo/beta_margin_std': 17.651796340942383, 'beta_dpo/beta_margin_grad_mean': -0.2837068736553192, 'beta_dpo/beta_margin_grad_std': 0.26055774092674255, 'epoch': 0.35}

 35%|███████████████████████████                                                   | 236/681 [16:25<19:37,  2.65s/it]
 35%|███████████████████████████▏                                                  | 237/681 [16:28<19:46,  2.67s/it]
                                                                                                                     
{'loss': 4.2522, 'grad_norm': 1457.3970947265625, 'learning_rate': 4.136269950853473e-07, 'beta_dpo/gap_mean': 66.33110046386719, 'beta_dpo/gap_std': 94.28207397460938, 'beta_dpo/beta_used_raw': 0.05189155042171478, 'beta_dpo/beta_used': 0.23019856214523315, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4683570861816406, 'logits/rejected': -0.4693116545677185, 'beta_dpo/beta': 0.23019856214523315, 'beta_dpo/loss_margin_mean': 68.86071014404297, 'beta_dpo/beta_margin_mean': 16.547616958618164, 'beta_dpo/beta_margin_std': 33.88982391357422, 'beta_dpo/beta_margin_grad_mean': -0.3403577208518982, 'beta_dpo/beta_margin_grad_std': 0.2993144690990448, 'epoch': 0.35}

 35%|███████████████████████████▏                                                  | 237/681 [16:28<19:46,  2.67s/it]
 35%|███████████████████████████▎                                                  | 238/681 [16:31<20:04,  2.72s/it]
                                                                                                                     
{'loss': 1.3348, 'grad_norm': 4.830297946929932, 'learning_rate': 4.126545750510605e-07, 'beta_dpo/gap_mean': 66.35641479492188, 'beta_dpo/gap_std': 93.38137817382812, 'beta_dpo/beta_used_raw': -0.6816811561584473, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4283304214477539, 'logits/rejected': -0.4415178894996643, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 60.12242889404297, 'beta_dpo/beta_margin_mean': 0.06012243032455444, 'beta_dpo/beta_margin_std': 0.08544077724218369, 'beta_dpo/beta_margin_grad_mean': -0.48502317070961, 'beta_dpo/beta_margin_grad_std': 0.021210981532931328, 'epoch': 0.35}

 35%|███████████████████████████▎                                                  | 238/681 [16:31<20:04,  2.72s/it]
 35%|███████████████████████████▎                                                  | 239/681 [16:33<19:27,  2.64s/it]
                                                                                                                     
{'loss': 5.1543, 'grad_norm': 3145.790283203125, 'learning_rate': 4.116778689174514e-07, 'beta_dpo/gap_mean': 66.31056213378906, 'beta_dpo/gap_std': 91.886962890625, 'beta_dpo/beta_used_raw': 0.1778862476348877, 'beta_dpo/beta_used': 1.085011601448059, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46962711215019226, 'logits/rejected': -0.45392659306526184, 'beta_dpo/beta': 1.085011601448059, 'beta_dpo/loss_margin_mean': 67.11627197265625, 'beta_dpo/beta_margin_mean': 92.08358001708984, 'beta_dpo/beta_margin_std': 171.84555053710938, 'beta_dpo/beta_margin_grad_mean': -0.3376123607158661, 'beta_dpo/beta_margin_grad_std': 0.3144451677799225, 'epoch': 0.35}

 35%|███████████████████████████▎                                                  | 239/681 [16:33<19:27,  2.64s/it]
 35%|███████████████████████████▍                                                  | 240/681 [16:36<19:23,  2.64s/it]
                                                                                                                     
{'loss': 1.003, 'grad_norm': 40.69264602661133, 'learning_rate': 4.106969024216348e-07, 'beta_dpo/gap_mean': 64.25852966308594, 'beta_dpo/gap_std': 89.93122863769531, 'beta_dpo/beta_used_raw': -0.3118809163570404, 'beta_dpo/beta_used': 0.01710430718958378, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4985065460205078, 'logits/rejected': -0.48068171739578247, 'beta_dpo/beta': 0.01710430718958378, 'beta_dpo/loss_margin_mean': 53.26530075073242, 'beta_dpo/beta_margin_mean': 1.1268202066421509, 'beta_dpo/beta_margin_std': 2.160505771636963, 'beta_dpo/beta_margin_grad_mean': -0.35482582449913025, 'beta_dpo/beta_margin_grad_std': 0.23242245614528656, 'epoch': 0.35}

 35%|███████████████████████████▍                                                  | 240/681 [16:36<19:23,  2.64s/it]
 35%|███████████████████████████▌                                                  | 241/681 [16:39<18:56,  2.58s/it]
                                                                                                                     
{'loss': 0.7624, 'grad_norm': 423.2123107910156, 'learning_rate': 4.097117014129903e-07, 'beta_dpo/gap_mean': 65.07862854003906, 'beta_dpo/gap_std': 90.019287109375, 'beta_dpo/beta_used_raw': -0.44774329662323, 'beta_dpo/beta_used': 0.15345998108386993, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.509527862071991, 'logits/rejected': -0.4832276701927185, 'beta_dpo/beta': 0.15345998108386993, 'beta_dpo/loss_margin_mean': 80.56120300292969, 'beta_dpo/beta_margin_mean': 10.851144790649414, 'beta_dpo/beta_margin_std': 16.8941593170166, 'beta_dpo/beta_margin_grad_mean': -0.2729555368423462, 'beta_dpo/beta_margin_grad_std': 0.2604886293411255, 'epoch': 0.35}

 35%|███████████████████████████▌                                                  | 241/681 [16:39<18:56,  2.58s/it]
 36%|███████████████████████████▋                                                  | 242/681 [16:41<18:35,  2.54s/it]
                                                                                                                     
{'loss': 1.3321, 'grad_norm': 4.439099311828613, 'learning_rate': 4.087222918524807e-07, 'beta_dpo/gap_mean': 64.53580474853516, 'beta_dpo/gap_std': 93.37384033203125, 'beta_dpo/beta_used_raw': -0.40156319737434387, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45422351360321045, 'logits/rejected': -0.42984485626220703, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.7884407043457, 'beta_dpo/beta_margin_mean': 0.05778844282031059, 'beta_dpo/beta_margin_std': 0.094021275639534, 'beta_dpo/beta_margin_grad_mean': -0.4855991005897522, 'beta_dpo/beta_margin_grad_std': 0.023397963494062424, 'epoch': 0.36}

 36%|███████████████████████████▋                                                  | 242/681 [16:41<18:35,  2.54s/it]
 36%|███████████████████████████▊                                                  | 243/681 [16:44<18:34,  2.54s/it]
                                                                                                                     
{'loss': 4.1283, 'grad_norm': 1469.662841796875, 'learning_rate': 4.07728699811968e-07, 'beta_dpo/gap_mean': 65.9927978515625, 'beta_dpo/gap_std': 92.37184143066406, 'beta_dpo/beta_used_raw': -0.12471228837966919, 'beta_dpo/beta_used': 0.30491340160369873, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44465339183807373, 'logits/rejected': -0.4099007844924927, 'beta_dpo/beta': 0.30491340160369873, 'beta_dpo/loss_margin_mean': 72.20804595947266, 'beta_dpo/beta_margin_mean': 22.148780822753906, 'beta_dpo/beta_margin_std': 43.37929153442383, 'beta_dpo/beta_margin_grad_mean': -0.3281807005405426, 'beta_dpo/beta_margin_grad_std': 0.29721781611442566, 'epoch': 0.36}

 36%|███████████████████████████▊                                                  | 243/681 [16:44<18:34,  2.54s/it]
 36%|███████████████████████████▉                                                  | 244/681 [16:46<18:34,  2.55s/it]
                                                                                                                     
{'loss': 1.3698, 'grad_norm': 321.0909118652344, 'learning_rate': 4.067309514735267e-07, 'beta_dpo/gap_mean': 67.40866088867188, 'beta_dpo/gap_std': 90.40948486328125, 'beta_dpo/beta_used_raw': -0.010177649557590485, 'beta_dpo/beta_used': 0.12539884448051453, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49787259101867676, 'logits/rejected': -0.4910111427307129, 'beta_dpo/beta': 0.12539884448051453, 'beta_dpo/loss_margin_mean': 73.00894165039062, 'beta_dpo/beta_margin_mean': 8.772866249084473, 'beta_dpo/beta_margin_std': 14.808113098144531, 'beta_dpo/beta_margin_grad_mean': -0.33266112208366394, 'beta_dpo/beta_margin_grad_std': 0.2994270622730255, 'epoch': 0.36}

 36%|███████████████████████████▉                                                  | 244/681 [16:46<18:34,  2.55s/it]
 36%|████████████████████████████                                                  | 245/681 [16:49<19:03,  2.62s/it]
                                                                                                                     
{'loss': 1.3501, 'grad_norm': 3.6279404163360596, 'learning_rate': 4.057290731287531e-07, 'beta_dpo/gap_mean': 67.58259582519531, 'beta_dpo/gap_std': 91.15482330322266, 'beta_dpo/beta_used_raw': -1.7166011333465576, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5001641511917114, 'logits/rejected': -0.4671769142150879, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.68232727050781, 'beta_dpo/beta_margin_mean': 0.057682327926158905, 'beta_dpo/beta_margin_std': 0.10235247761011124, 'beta_dpo/beta_margin_grad_mean': -0.48563241958618164, 'beta_dpo/beta_margin_grad_std': 0.025404594838619232, 'epoch': 0.36}

 36%|████████████████████████████                                                  | 245/681 [16:49<19:03,  2.62s/it]
 36%|████████████████████████████▏                                                 | 246/681 [16:51<18:54,  2.61s/it]
                                                                                                                     
{'loss': 1.3351, 'grad_norm': 4.705582618713379, 'learning_rate': 4.047230911780736e-07, 'beta_dpo/gap_mean': 64.41853332519531, 'beta_dpo/gap_std': 90.19287872314453, 'beta_dpo/beta_used_raw': -0.5867970585823059, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5271105766296387, 'logits/rejected': -0.49014580249786377, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 58.41972351074219, 'beta_dpo/beta_margin_mean': 0.05841972678899765, 'beta_dpo/beta_margin_std': 0.08776440471410751, 'beta_dpo/beta_margin_grad_mean': -0.48544150590896606, 'beta_dpo/beta_margin_grad_std': 0.021831955760717392, 'epoch': 0.36}

 36%|████████████████████████████▏                                                 | 246/681 [16:52<18:54,  2.61s/it]
 36%|████████████████████████████▎                                                 | 247/681 [16:54<18:35,  2.57s/it]
                                                                                                                     
{'loss': 2.3625, 'grad_norm': 471.9046325683594, 'learning_rate': 4.0371303213004814e-07, 'beta_dpo/gap_mean': 68.1501235961914, 'beta_dpo/gap_std': 92.23121643066406, 'beta_dpo/beta_used_raw': 0.06344389915466309, 'beta_dpo/beta_used': 0.1847115010023117, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44840526580810547, 'logits/rejected': -0.45401185750961304, 'beta_dpo/beta': 0.1847115010023117, 'beta_dpo/loss_margin_mean': 90.32220458984375, 'beta_dpo/beta_margin_mean': 15.352115631103516, 'beta_dpo/beta_margin_std': 25.77711296081543, 'beta_dpo/beta_margin_grad_mean': -0.2965923547744751, 'beta_dpo/beta_margin_grad_std': 0.28494712710380554, 'epoch': 0.36}

 36%|████████████████████████████▎                                                 | 247/681 [16:54<18:35,  2.57s/it]
 36%|████████████████████████████▍                                                 | 248/681 [16:56<18:27,  2.56s/it]
                                                                                                                     
{'loss': 1.3302, 'grad_norm': 4.8645339012146, 'learning_rate': 4.0269892260067197e-07, 'beta_dpo/gap_mean': 68.87054443359375, 'beta_dpo/gap_std': 89.18070220947266, 'beta_dpo/beta_used_raw': -0.5669313669204712, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45725005865097046, 'logits/rejected': -0.47495073080062866, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 66.2895278930664, 'beta_dpo/beta_margin_mean': 0.06628952920436859, 'beta_dpo/beta_margin_std': 0.07302607595920563, 'beta_dpo/beta_margin_grad_mean': -0.48346683382987976, 'beta_dpo/beta_margin_grad_std': 0.018162554129958153, 'epoch': 0.36}

 36%|████████████████████████████▍                                                 | 248/681 [16:57<18:27,  2.56s/it]
 37%|████████████████████████████▌                                                 | 249/681 [16:59<18:04,  2.51s/it]
                                                                                                                     
{'loss': 1.3437, 'grad_norm': 6.0476884841918945, 'learning_rate': 4.0168078931267426e-07, 'beta_dpo/gap_mean': 64.90923309326172, 'beta_dpo/gap_std': 87.11177825927734, 'beta_dpo/beta_used_raw': -1.1384837627410889, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47966477274894714, 'logits/rejected': -0.45807725191116333, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 41.93442916870117, 'beta_dpo/beta_margin_mean': 0.041934434324502945, 'beta_dpo/beta_margin_std': 0.07966778427362442, 'beta_dpo/beta_margin_grad_mean': -0.48953747749328613, 'beta_dpo/beta_margin_grad_std': 0.019871097058057785, 'epoch': 0.37}

 37%|████████████████████████████▌                                                 | 249/681 [16:59<18:04,  2.51s/it]
 37%|████████████████████████████▋                                                 | 250/681 [17:02<18:39,  2.60s/it]
                                                                                                                     
{'loss': 0.7885, 'grad_norm': 598.4202270507812, 'learning_rate': 4.006586590948141e-07, 'beta_dpo/gap_mean': 62.63585662841797, 'beta_dpo/gap_std': 83.05741119384766, 'beta_dpo/beta_used_raw': 0.17717288434505463, 'beta_dpo/beta_used': 0.3004174530506134, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.458739697933197, 'logits/rejected': -0.40397346019744873, 'beta_dpo/beta': 0.3004174530506134, 'beta_dpo/loss_margin_mean': 62.211456298828125, 'beta_dpo/beta_margin_mean': 21.81104278564453, 'beta_dpo/beta_margin_std': 32.62987518310547, 'beta_dpo/beta_margin_grad_mean': -0.277651309967041, 'beta_dpo/beta_margin_grad_std': 0.2621324062347412, 'epoch': 0.37}

 37%|████████████████████████████▋                                                 | 250/681 [17:02<18:39,  2.60s/it]
 37%|████████████████████████████▋                                                 | 251/681 [17:04<18:12,  2.54s/it]
                                                                                                                     
{'loss': 1.1642, 'grad_norm': 993.1358032226562, 'learning_rate': 3.9963255888117325e-07, 'beta_dpo/gap_mean': 62.36948013305664, 'beta_dpo/gap_std': 82.18414306640625, 'beta_dpo/beta_used_raw': -0.07390487194061279, 'beta_dpo/beta_used': 0.25873419642448425, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45881718397140503, 'logits/rejected': -0.43461471796035767, 'beta_dpo/beta': 0.25873419642448425, 'beta_dpo/loss_margin_mean': 55.00004959106445, 'beta_dpo/beta_margin_mean': 16.468461990356445, 'beta_dpo/beta_margin_std': 38.37507629394531, 'beta_dpo/beta_margin_grad_mean': -0.35796087980270386, 'beta_dpo/beta_margin_grad_std': 0.3145868182182312, 'epoch': 0.37}

 37%|████████████████████████████▋                                                 | 251/681 [17:04<18:12,  2.54s/it]
 37%|████████████████████████████▊                                                 | 252/681 [17:07<18:28,  2.58s/it]
                                                                                                                     
{'loss': 1.6671, 'grad_norm': 1931.18115234375, 'learning_rate': 3.9860251571044666e-07, 'beta_dpo/gap_mean': 61.836875915527344, 'beta_dpo/gap_std': 78.91354370117188, 'beta_dpo/beta_used_raw': 0.2833039164543152, 'beta_dpo/beta_used': 0.43845975399017334, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5125927925109863, 'logits/rejected': -0.47563207149505615, 'beta_dpo/beta': 0.43845975399017334, 'beta_dpo/loss_margin_mean': 61.227333068847656, 'beta_dpo/beta_margin_mean': 30.300657272338867, 'beta_dpo/beta_margin_std': 50.934173583984375, 'beta_dpo/beta_margin_grad_mean': -0.27507588267326355, 'beta_dpo/beta_margin_grad_std': 0.2723042070865631, 'epoch': 0.37}

 37%|████████████████████████████▊                                                 | 252/681 [17:07<18:28,  2.58s/it]
 37%|████████████████████████████▉                                                 | 253/681 [17:09<18:32,  2.60s/it]
                                                                                                                     
{'loss': 1.364, 'grad_norm': 569.2015991210938, 'learning_rate': 3.9756855672522986e-07, 'beta_dpo/gap_mean': 60.489776611328125, 'beta_dpo/gap_std': 77.81178283691406, 'beta_dpo/beta_used_raw': -0.5888211727142334, 'beta_dpo/beta_used': 0.13669037818908691, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49557358026504517, 'logits/rejected': -0.4879855513572693, 'beta_dpo/beta': 0.13669037818908691, 'beta_dpo/loss_margin_mean': 61.38548278808594, 'beta_dpo/beta_margin_mean': 11.10105037689209, 'beta_dpo/beta_margin_std': 19.28214454650879, 'beta_dpo/beta_margin_grad_mean': -0.31530076265335083, 'beta_dpo/beta_margin_grad_std': 0.2846486270427704, 'epoch': 0.37}

 37%|████████████████████████████▉                                                 | 253/681 [17:09<18:32,  2.60s/it]
 37%|█████████████████████████████                                                 | 254/681 [17:12<18:48,  2.64s/it]
                                                                                                                     
{'loss': 1.3323, 'grad_norm': 4.005491733551025, 'learning_rate': 3.965307091713037e-07, 'beta_dpo/gap_mean': 61.257843017578125, 'beta_dpo/gap_std': 80.37059020996094, 'beta_dpo/beta_used_raw': -0.21809083223342896, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47500473260879517, 'logits/rejected': -0.46256011724472046, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.76969528198242, 'beta_dpo/beta_margin_mean': 0.05776969715952873, 'beta_dpo/beta_margin_std': 0.08991079777479172, 'beta_dpo/beta_margin_grad_mean': -0.4855990707874298, 'beta_dpo/beta_margin_grad_std': 0.02238706313073635, 'epoch': 0.37}

 37%|█████████████████████████████                                                 | 254/681 [17:12<18:48,  2.64s/it]
 37%|█████████████████████████████▏                                                | 255/681 [17:15<18:23,  2.59s/it]
                                                                                                                     
{'loss': 2.8414, 'grad_norm': 1103.354248046875, 'learning_rate': 3.954890003969163e-07, 'beta_dpo/gap_mean': 61.839927673339844, 'beta_dpo/gap_std': 83.36296844482422, 'beta_dpo/beta_used_raw': -0.4761512279510498, 'beta_dpo/beta_used': 0.21867026388645172, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4370883107185364, 'logits/rejected': -0.4320235848426819, 'beta_dpo/beta': 0.21867026388645172, 'beta_dpo/loss_margin_mean': 60.37783432006836, 'beta_dpo/beta_margin_mean': 18.47532844543457, 'beta_dpo/beta_margin_std': 37.53182601928711, 'beta_dpo/beta_margin_grad_mean': -0.3410184681415558, 'beta_dpo/beta_margin_grad_std': 0.3134188652038574, 'epoch': 0.37}

 37%|█████████████████████████████▏                                                | 255/681 [17:15<18:23,  2.59s/it]
 38%|█████████████████████████████▎                                                | 256/681 [17:17<18:15,  2.58s/it]
                                                                                                                     
{'loss': 1.3417, 'grad_norm': 5.088190078735352, 'learning_rate': 3.944434578520628e-07, 'beta_dpo/gap_mean': 60.238243103027344, 'beta_dpo/gap_std': 83.42945861816406, 'beta_dpo/beta_used_raw': -0.7590247988700867, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43487805128097534, 'logits/rejected': -0.4386810064315796, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.98687744140625, 'beta_dpo/beta_margin_mean': 0.05798688158392906, 'beta_dpo/beta_margin_std': 0.08430825173854828, 'beta_dpo/beta_margin_grad_mean': -0.48553693294525146, 'beta_dpo/beta_margin_grad_std': 0.021008189767599106, 'epoch': 0.38}

 38%|█████████████████████████████▎                                                | 256/681 [17:17<18:15,  2.58s/it]
 38%|█████████████████████████████▍                                                | 257/681 [17:20<18:23,  2.60s/it]
                                                                                                                     
{'loss': 1.3407, 'grad_norm': 4.403605937957764, 'learning_rate': 3.933941090877615e-07, 'beta_dpo/gap_mean': 63.066001892089844, 'beta_dpo/gap_std': 86.74974060058594, 'beta_dpo/beta_used_raw': -0.8660670518875122, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4413556456565857, 'logits/rejected': -0.42769724130630493, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 74.549072265625, 'beta_dpo/beta_margin_mean': 0.07454907149076462, 'beta_dpo/beta_margin_std': 0.09976498037576675, 'beta_dpo/beta_margin_grad_mean': -0.48144304752349854, 'beta_dpo/beta_margin_grad_std': 0.024765780195593834, 'epoch': 0.38}

 38%|█████████████████████████████▍                                                | 257/681 [17:20<18:23,  2.60s/it]
 38%|█████████████████████████████▌                                                | 258/681 [17:22<17:34,  2.49s/it]
                                                                                                                     
{'loss': 6.21, 'grad_norm': 3212.95654296875, 'learning_rate': 3.923409817553284e-07, 'beta_dpo/gap_mean': 62.323787689208984, 'beta_dpo/gap_std': 87.7547607421875, 'beta_dpo/beta_used_raw': 0.8561594486236572, 'beta_dpo/beta_used': 0.8561594486236572, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39796602725982666, 'logits/rejected': -0.39811059832572937, 'beta_dpo/beta': 0.8561594486236572, 'beta_dpo/loss_margin_mean': 63.648921966552734, 'beta_dpo/beta_margin_mean': 54.67416000366211, 'beta_dpo/beta_margin_std': 84.30635070800781, 'beta_dpo/beta_margin_grad_mean': -0.24124778807163239, 'beta_dpo/beta_margin_grad_std': 0.42249229550361633, 'epoch': 0.38}

 38%|█████████████████████████████▌                                                | 258/681 [17:22<17:34,  2.49s/it]
 38%|█████████████████████████████▋                                                | 259/681 [17:25<17:36,  2.50s/it]
                                                                                                                     
{'loss': 1.3481, 'grad_norm': 5.502564430236816, 'learning_rate': 3.9128410360564793e-07, 'beta_dpo/gap_mean': 62.94316864013672, 'beta_dpo/gap_std': 88.68659973144531, 'beta_dpo/beta_used_raw': -1.3002283573150635, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45921239256858826, 'logits/rejected': -0.4577338993549347, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 59.64350891113281, 'beta_dpo/beta_margin_mean': 0.05964351072907448, 'beta_dpo/beta_margin_std': 0.08494514971971512, 'beta_dpo/beta_margin_grad_mean': -0.48512884974479675, 'beta_dpo/beta_margin_grad_std': 0.02116353064775467, 'epoch': 0.38}

 38%|█████████████████████████████▋                                                | 259/681 [17:25<17:36,  2.50s/it]
 38%|█████████████████████████████▊                                                | 260/681 [17:27<18:00,  2.57s/it]
                                                                                                                     
{'loss': 1.3345, 'grad_norm': 6.234367847442627, 'learning_rate': 3.9022350248844246e-07, 'beta_dpo/gap_mean': 62.76177215576172, 'beta_dpo/gap_std': 87.07768249511719, 'beta_dpo/beta_used_raw': -0.4817598760128021, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42374077439308167, 'logits/rejected': -0.44464540481567383, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 69.42640686035156, 'beta_dpo/beta_margin_mean': 0.06942640990018845, 'beta_dpo/beta_margin_std': 0.08899199217557907, 'beta_dpo/beta_margin_grad_mean': -0.48271456360816956, 'beta_dpo/beta_margin_grad_std': 0.022007808089256287, 'epoch': 0.38}

 38%|█████████████████████████████▊                                                | 260/681 [17:27<18:00,  2.57s/it]
 38%|█████████████████████████████▉                                                | 261/681 [17:30<17:13,  2.46s/it]
                                                                                                                     
{'loss': 1.3409, 'grad_norm': 4.799732208251953, 'learning_rate': 3.891592063515376e-07, 'beta_dpo/gap_mean': 64.44114685058594, 'beta_dpo/gap_std': 89.06988525390625, 'beta_dpo/beta_used_raw': -0.943615198135376, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3694385290145874, 'logits/rejected': -0.3720252513885498, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 67.0704574584961, 'beta_dpo/beta_margin_mean': 0.06707046180963516, 'beta_dpo/beta_margin_std': 0.09085685759782791, 'beta_dpo/beta_margin_grad_mean': -0.48329126834869385, 'beta_dpo/beta_margin_grad_std': 0.022538091987371445, 'epoch': 0.38}

 38%|█████████████████████████████▉                                                | 261/681 [17:30<17:13,  2.46s/it]
 38%|██████████████████████████████                                                | 262/681 [17:32<17:10,  2.46s/it]
                                                                                                                     
{'loss': 1.3326, 'grad_norm': 4.288631916046143, 'learning_rate': 3.880912432401264e-07, 'beta_dpo/gap_mean': 63.341896057128906, 'beta_dpo/gap_std': 86.87582397460938, 'beta_dpo/beta_used_raw': -0.3785286545753479, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3830975890159607, 'logits/rejected': -0.3654525876045227, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 59.38102722167969, 'beta_dpo/beta_margin_mean': 0.05938103049993515, 'beta_dpo/beta_margin_std': 0.07453680038452148, 'beta_dpo/beta_margin_grad_mean': -0.4851832985877991, 'beta_dpo/beta_margin_grad_std': 0.018579039722681046, 'epoch': 0.38}

 38%|██████████████████████████████                                                | 262/681 [17:32<17:10,  2.46s/it]
 39%|██████████████████████████████                                                | 263/681 [17:35<17:43,  2.54s/it]
                                                                                                                     
{'loss': 3.3255, 'grad_norm': 1847.1041259765625, 'learning_rate': 3.870196412960302e-07, 'beta_dpo/gap_mean': 66.71192932128906, 'beta_dpo/gap_std': 88.3709487915039, 'beta_dpo/beta_used_raw': 0.651368260383606, 'beta_dpo/beta_used': 0.7164207696914673, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43336668610572815, 'logits/rejected': -0.40536999702453613, 'beta_dpo/beta': 0.7164207696914673, 'beta_dpo/loss_margin_mean': 81.06204986572266, 'beta_dpo/beta_margin_mean': 71.56385803222656, 'beta_dpo/beta_margin_std': 131.27561950683594, 'beta_dpo/beta_margin_grad_mean': -0.31974849104881287, 'beta_dpo/beta_margin_grad_std': 0.30375197529792786, 'epoch': 0.39}

 39%|██████████████████████████████                                                | 263/681 [17:35<17:43,  2.54s/it]
 39%|██████████████████████████████▏                                               | 264/681 [17:37<18:03,  2.60s/it]
                                                                                                                     
{'loss': 3.0123, 'grad_norm': 1272.9935302734375, 'learning_rate': 3.8594442875695665e-07, 'beta_dpo/gap_mean': 66.88683319091797, 'beta_dpo/gap_std': 88.364501953125, 'beta_dpo/beta_used_raw': -0.5231786966323853, 'beta_dpo/beta_used': 0.32210445404052734, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.47683650255203247, 'logits/rejected': -0.4689565896987915, 'beta_dpo/beta': 0.32210445404052734, 'beta_dpo/loss_margin_mean': 62.8607292175293, 'beta_dpo/beta_margin_mean': 26.927030563354492, 'beta_dpo/beta_margin_std': 47.48490524291992, 'beta_dpo/beta_margin_grad_mean': -0.3196498155593872, 'beta_dpo/beta_margin_grad_std': 0.2992617189884186, 'epoch': 0.39}

 39%|██████████████████████████████▏                                               | 264/681 [17:37<18:03,  2.60s/it]
 39%|██████████████████████████████▎                                               | 265/681 [17:40<17:34,  2.54s/it]
                                                                                                                     
{'loss': 1.3367, 'grad_norm': 5.106090545654297, 'learning_rate': 3.848656339557562e-07, 'beta_dpo/gap_mean': 65.43952941894531, 'beta_dpo/gap_std': 89.35261535644531, 'beta_dpo/beta_used_raw': -0.7309384942054749, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44355565309524536, 'logits/rejected': -0.42892855405807495, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 65.74657440185547, 'beta_dpo/beta_margin_mean': 0.06574657559394836, 'beta_dpo/beta_margin_std': 0.097164586186409, 'beta_dpo/beta_margin_grad_mean': -0.4836253225803375, 'beta_dpo/beta_margin_grad_std': 0.024147428572177887, 'epoch': 0.39}

 39%|██████████████████████████████▎                                               | 265/681 [17:40<17:34,  2.54s/it]
 39%|██████████████████████████████▍                                               | 266/681 [17:42<17:28,  2.53s/it]
                                                                                                                     
{'loss': 1.3305, 'grad_norm': 3.584993362426758, 'learning_rate': 3.8378328531967507e-07, 'beta_dpo/gap_mean': 64.68086242675781, 'beta_dpo/gap_std': 90.58798217773438, 'beta_dpo/beta_used_raw': -0.3030107021331787, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5003777146339417, 'logits/rejected': -0.4550362229347229, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 57.66104507446289, 'beta_dpo/beta_margin_mean': 0.05766104906797409, 'beta_dpo/beta_margin_std': 0.08847023546695709, 'beta_dpo/beta_margin_grad_mean': -0.48562902212142944, 'beta_dpo/beta_margin_grad_std': 0.02202366106212139, 'epoch': 0.39}

 39%|██████████████████████████████▍                                               | 266/681 [17:42<17:28,  2.53s/it]
 39%|██████████████████████████████▌                                               | 267/681 [17:45<17:29,  2.54s/it]
                                                                                                                     
{'loss': 1.3368, 'grad_norm': 5.026149272918701, 'learning_rate': 3.8269741136960646e-07, 'beta_dpo/gap_mean': 64.24443817138672, 'beta_dpo/gap_std': 89.84454345703125, 'beta_dpo/beta_used_raw': -0.679577112197876, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46633046865463257, 'logits/rejected': -0.4374736547470093, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 64.59161376953125, 'beta_dpo/beta_margin_mean': 0.06459161639213562, 'beta_dpo/beta_margin_std': 0.08754534274339676, 'beta_dpo/beta_margin_grad_mean': -0.4839051365852356, 'beta_dpo/beta_margin_grad_std': 0.021753991022706032, 'epoch': 0.39}

 39%|██████████████████████████████▌                                               | 267/681 [17:45<17:29,  2.54s/it]
 39%|██████████████████████████████▋                                               | 268/681 [17:47<17:25,  2.53s/it]
                                                                                                                     
{'loss': 5.9535, 'grad_norm': 2970.7353515625, 'learning_rate': 3.8160804071933894e-07, 'beta_dpo/gap_mean': 64.24163055419922, 'beta_dpo/gap_std': 89.63772583007812, 'beta_dpo/beta_used_raw': 0.28859809041023254, 'beta_dpo/beta_used': 0.4272679090499878, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4358275532722473, 'logits/rejected': -0.44389188289642334, 'beta_dpo/beta': 0.4272679090499878, 'beta_dpo/loss_margin_mean': 64.2711410522461, 'beta_dpo/beta_margin_mean': 26.88530731201172, 'beta_dpo/beta_margin_std': 64.07011413574219, 'beta_dpo/beta_margin_grad_mean': -0.3774115741252899, 'beta_dpo/beta_margin_grad_std': 0.3255773186683655, 'epoch': 0.39}

 39%|██████████████████████████████▋                                               | 268/681 [17:47<17:25,  2.53s/it]
 40%|██████████████████████████████▊                                               | 269/681 [17:50<17:12,  2.51s/it]
                                                                                                                     
{'loss': 17.9159, 'grad_norm': 6386.1025390625, 'learning_rate': 3.8051520207480204e-07, 'beta_dpo/gap_mean': 67.56047821044922, 'beta_dpo/gap_std': 95.0364990234375, 'beta_dpo/beta_used_raw': 0.7696582078933716, 'beta_dpo/beta_used': 0.7696582078933716, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4257703721523285, 'logits/rejected': -0.40664464235305786, 'beta_dpo/beta': 0.7696582078933716, 'beta_dpo/loss_margin_mean': 89.27982330322266, 'beta_dpo/beta_margin_mean': 70.0230484008789, 'beta_dpo/beta_margin_std': 98.9859390258789, 'beta_dpo/beta_margin_grad_mean': -0.31902071833610535, 'beta_dpo/beta_margin_grad_std': 0.45872315764427185, 'epoch': 0.4}

 40%|██████████████████████████████▊                                               | 269/681 [17:50<17:12,  2.51s/it]
 40%|██████████████████████████████▉                                               | 270/681 [17:53<17:32,  2.56s/it]
                                                                                                                     
{'loss': 2.5132, 'grad_norm': 782.6886596679688, 'learning_rate': 3.794189242333106e-07, 'beta_dpo/gap_mean': 68.88189697265625, 'beta_dpo/gap_std': 98.04679870605469, 'beta_dpo/beta_used_raw': 0.31599855422973633, 'beta_dpo/beta_used': 0.31599855422973633, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5228564739227295, 'logits/rejected': -0.5192960500717163, 'beta_dpo/beta': 0.31599855422973633, 'beta_dpo/loss_margin_mean': 69.03794860839844, 'beta_dpo/beta_margin_mean': 21.739652633666992, 'beta_dpo/beta_margin_std': 33.68879318237305, 'beta_dpo/beta_margin_grad_mean': -0.1990150511264801, 'beta_dpo/beta_margin_grad_std': 0.38719597458839417, 'epoch': 0.4}

 40%|██████████████████████████████▉                                               | 270/681 [17:53<17:32,  2.56s/it]
 40%|███████████████████████████████                                               | 271/681 [17:55<17:06,  2.50s/it]
                                                                                                                     
{'loss': 1.3298, 'grad_norm': 5.687714576721191, 'learning_rate': 3.7831923608280514e-07, 'beta_dpo/gap_mean': 70.80068969726562, 'beta_dpo/gap_std': 99.597412109375, 'beta_dpo/beta_used_raw': -0.6152107119560242, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45079296827316284, 'logits/rejected': -0.4350966811180115, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 78.76793670654297, 'beta_dpo/beta_margin_mean': 0.07876794040203094, 'beta_dpo/beta_margin_std': 0.10474507510662079, 'beta_dpo/beta_margin_grad_mean': -0.48039206862449646, 'beta_dpo/beta_margin_grad_std': 0.026033930480480194, 'epoch': 0.4}

 40%|███████████████████████████████                                               | 271/681 [17:55<17:06,  2.50s/it]
 40%|███████████████████████████████▏                                              | 272/681 [17:58<17:27,  2.56s/it]
                                                                                                                     
{'loss': 2.403, 'grad_norm': 3469.978759765625, 'learning_rate': 3.772161666010912e-07, 'beta_dpo/gap_mean': 74.29582214355469, 'beta_dpo/gap_std': 98.69171905517578, 'beta_dpo/beta_used_raw': 0.21146634221076965, 'beta_dpo/beta_used': 0.2916773557662964, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4280936121940613, 'logits/rejected': -0.4439089596271515, 'beta_dpo/beta': 0.2916773557662964, 'beta_dpo/loss_margin_mean': 96.75138854980469, 'beta_dpo/beta_margin_mean': 26.473766326904297, 'beta_dpo/beta_margin_std': 43.10868835449219, 'beta_dpo/beta_margin_grad_mean': -0.34444308280944824, 'beta_dpo/beta_margin_grad_std': 0.3155882954597473, 'epoch': 0.4}

 40%|███████████████████████████████▏                                              | 272/681 [17:58<17:27,  2.56s/it]
 40%|███████████████████████████████▎                                              | 273/681 [18:00<17:05,  2.51s/it]
                                                                                                                     
{'loss': 3.9441, 'grad_norm': 1977.9761962890625, 'learning_rate': 3.761097448550755e-07, 'beta_dpo/gap_mean': 76.61572265625, 'beta_dpo/gap_std': 100.23278045654297, 'beta_dpo/beta_used_raw': -0.13546743988990784, 'beta_dpo/beta_used': 0.4497944712638855, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4547615647315979, 'logits/rejected': -0.4396814703941345, 'beta_dpo/beta': 0.4497944712638855, 'beta_dpo/loss_margin_mean': 77.89697265625, 'beta_dpo/beta_margin_mean': 40.1925048828125, 'beta_dpo/beta_margin_std': 79.06779479980469, 'beta_dpo/beta_margin_grad_mean': -0.30444207787513733, 'beta_dpo/beta_margin_grad_std': 0.294939249753952, 'epoch': 0.4}

 40%|███████████████████████████████▎                                              | 273/681 [18:00<17:05,  2.51s/it]
 40%|███████████████████████████████▍                                              | 274/681 [18:03<17:07,  2.52s/it]
                                                                                                                     
{'loss': 1.3435, 'grad_norm': 4.778660774230957, 'learning_rate': 3.75e-07, 'beta_dpo/gap_mean': 73.87464141845703, 'beta_dpo/gap_std': 97.98983001708984, 'beta_dpo/beta_used_raw': -1.6583735942840576, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4540286064147949, 'logits/rejected': -0.43437108397483826, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 64.36125183105469, 'beta_dpo/beta_margin_mean': 0.06436125934123993, 'beta_dpo/beta_margin_std': 0.08749227970838547, 'beta_dpo/beta_margin_grad_mean': -0.48395276069641113, 'beta_dpo/beta_margin_grad_std': 0.021796153858304024, 'epoch': 0.4}

 40%|███████████████████████████████▍                                              | 274/681 [18:03<17:07,  2.52s/it]
 40%|███████████████████████████████▍                                              | 275/681 [18:05<17:50,  2.64s/it]
                                                                                                                     
{'loss': 1.4477, 'grad_norm': 1107.3209228515625, 'learning_rate': 3.738869612786737e-07, 'beta_dpo/gap_mean': 73.8324203491211, 'beta_dpo/gap_std': 97.02469635009766, 'beta_dpo/beta_used_raw': -0.2188054919242859, 'beta_dpo/beta_used': 0.3658776581287384, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48561912775039673, 'logits/rejected': -0.4850524365901947, 'beta_dpo/beta': 0.3658776581287384, 'beta_dpo/loss_margin_mean': 74.46902465820312, 'beta_dpo/beta_margin_mean': 28.91089630126953, 'beta_dpo/beta_margin_std': 53.39341354370117, 'beta_dpo/beta_margin_grad_mean': -0.30500340461730957, 'beta_dpo/beta_margin_grad_std': 0.2937050759792328, 'epoch': 0.4}

 40%|███████████████████████████████▍                                              | 275/681 [18:06<17:50,  2.64s/it]
 41%|███████████████████████████████▌                                              | 276/681 [18:08<17:52,  2.65s/it]
                                                                                                                     
{'loss': 1.328, 'grad_norm': 4.309329986572266, 'learning_rate': 3.7277065802070204e-07, 'beta_dpo/gap_mean': 73.41490173339844, 'beta_dpo/gap_std': 99.17544555664062, 'beta_dpo/beta_used_raw': -0.6487220525741577, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4739760756492615, 'logits/rejected': -0.4428936541080475, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 68.88844299316406, 'beta_dpo/beta_margin_mean': 0.06888844817876816, 'beta_dpo/beta_margin_std': 0.10926186293363571, 'beta_dpo/beta_margin_grad_mean': -0.48285502195358276, 'beta_dpo/beta_margin_grad_std': 0.027132032439112663, 'epoch': 0.41}

 41%|███████████████████████████████▌                                              | 276/681 [18:08<17:52,  2.65s/it]
 41%|███████████████████████████████▋                                              | 277/681 [18:10<16:57,  2.52s/it]
                                                                                                                     
{'loss': 3.3232, 'grad_norm': 959.0798950195312, 'learning_rate': 3.71651119641714e-07, 'beta_dpo/gap_mean': 71.44065856933594, 'beta_dpo/gap_std': 96.77009582519531, 'beta_dpo/beta_used_raw': -0.2556490898132324, 'beta_dpo/beta_used': 0.2809670865535736, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4775172770023346, 'logits/rejected': -0.4674876928329468, 'beta_dpo/beta': 0.2809670865535736, 'beta_dpo/loss_margin_mean': 65.0876693725586, 'beta_dpo/beta_margin_mean': 21.383647918701172, 'beta_dpo/beta_margin_std': 38.81602478027344, 'beta_dpo/beta_margin_grad_mean': -0.3351666331291199, 'beta_dpo/beta_margin_grad_std': 0.3102318048477173, 'epoch': 0.41}

 41%|███████████████████████████████▋                                              | 277/681 [18:10<16:57,  2.52s/it]
 41%|███████████████████████████████▊                                              | 278/681 [18:13<16:54,  2.52s/it]
                                                                                                                     
{'loss': 1.8696, 'grad_norm': 546.0422973632812, 'learning_rate': 3.705283756425872e-07, 'beta_dpo/gap_mean': 73.7154541015625, 'beta_dpo/gap_std': 97.09827423095703, 'beta_dpo/beta_used_raw': -0.4377209544181824, 'beta_dpo/beta_used': 0.09777142852544785, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5163074731826782, 'logits/rejected': -0.5155045390129089, 'beta_dpo/beta': 0.09777142852544785, 'beta_dpo/loss_margin_mean': 81.99968719482422, 'beta_dpo/beta_margin_mean': 9.16122055053711, 'beta_dpo/beta_margin_std': 16.98973274230957, 'beta_dpo/beta_margin_grad_mean': -0.3435121774673462, 'beta_dpo/beta_margin_grad_std': 0.3006548285484314, 'epoch': 0.41}

 41%|███████████████████████████████▊                                              | 278/681 [18:13<16:54,  2.52s/it]
 41%|███████████████████████████████▉                                              | 279/681 [18:15<16:52,  2.52s/it]
                                                                                                                     
{'loss': 2.2112, 'grad_norm': 677.2081909179688, 'learning_rate': 3.6940245560867e-07, 'beta_dpo/gap_mean': 75.48173522949219, 'beta_dpo/gap_std': 98.2899169921875, 'beta_dpo/beta_used_raw': -0.6678704023361206, 'beta_dpo/beta_used': 0.1939535290002823, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4336978495121002, 'logits/rejected': -0.42833346128463745, 'beta_dpo/beta': 0.1939535290002823, 'beta_dpo/loss_margin_mean': 83.40555572509766, 'beta_dpo/beta_margin_mean': 18.408206939697266, 'beta_dpo/beta_margin_std': 33.89780807495117, 'beta_dpo/beta_margin_grad_mean': -0.31403571367263794, 'beta_dpo/beta_margin_grad_std': 0.2941286265850067, 'epoch': 0.41}

 41%|███████████████████████████████▉                                              | 279/681 [18:15<16:52,  2.52s/it]
 41%|████████████████████████████████                                              | 280/681 [18:18<17:03,  2.55s/it]
                                                                                                                     
{'loss': 0.6316, 'grad_norm': 373.3504943847656, 'learning_rate': 3.6827338920900253e-07, 'beta_dpo/gap_mean': 75.63088989257812, 'beta_dpo/gap_std': 95.76606750488281, 'beta_dpo/beta_used_raw': 0.5752575993537903, 'beta_dpo/beta_used': 0.5752575993537903, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4546999931335449, 'logits/rejected': -0.45433032512664795, 'beta_dpo/beta': 0.5752575993537903, 'beta_dpo/loss_margin_mean': 77.03679656982422, 'beta_dpo/beta_margin_mean': 43.74085235595703, 'beta_dpo/beta_margin_std': 54.59124755859375, 'beta_dpo/beta_margin_grad_mean': -0.13274730741977692, 'beta_dpo/beta_margin_grad_std': 0.31232884526252747, 'epoch': 0.41}

 41%|████████████████████████████████                                              | 280/681 [18:18<17:03,  2.55s/it]
 41%|████████████████████████████████▏                                             | 281/681 [18:21<17:05,  2.56s/it]
                                                                                                                     
{'loss': 1.3182, 'grad_norm': 8.058195114135742, 'learning_rate': 3.6714120619553435e-07, 'beta_dpo/gap_mean': 73.92355346679688, 'beta_dpo/gap_std': 93.38307189941406, 'beta_dpo/beta_used_raw': -0.12925973534584045, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49369382858276367, 'logits/rejected': -0.46913886070251465, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 66.84371185302734, 'beta_dpo/beta_margin_mean': 0.06684371829032898, 'beta_dpo/beta_margin_std': 0.0805417075753212, 'beta_dpo/beta_margin_grad_mean': -0.483308345079422, 'beta_dpo/beta_margin_grad_std': 0.020045718178153038, 'epoch': 0.41}

 41%|████████████████████████████████▏                                             | 281/681 [18:21<17:05,  2.56s/it]
 41%|████████████████████████████████▎                                             | 282/681 [18:23<16:56,  2.55s/it]
                                                                                                                     
{'loss': 1.346, 'grad_norm': 3.629554033279419, 'learning_rate': 3.660059364023408e-07, 'beta_dpo/gap_mean': 70.5438003540039, 'beta_dpo/gap_std': 89.866455078125, 'beta_dpo/beta_used_raw': -1.6386913061141968, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5274136066436768, 'logits/rejected': -0.5010647773742676, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 53.189762115478516, 'beta_dpo/beta_margin_mean': 0.05318976566195488, 'beta_dpo/beta_margin_std': 0.07743314653635025, 'beta_dpo/beta_margin_grad_mean': -0.48673728108406067, 'beta_dpo/beta_margin_grad_std': 0.019268635660409927, 'epoch': 0.41}

 41%|████████████████████████████████▎                                             | 282/681 [18:23<16:56,  2.55s/it]
 42%|████████████████████████████████▍                                             | 283/681 [18:26<16:50,  2.54s/it]
                                                                                                                     
{'loss': 1.5468, 'grad_norm': 462.5566711425781, 'learning_rate': 3.6486760974483685e-07, 'beta_dpo/gap_mean': 71.56987762451172, 'beta_dpo/gap_std': 89.52423095703125, 'beta_dpo/beta_used_raw': 0.838965654373169, 'beta_dpo/beta_used': 0.838965654373169, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.49745476245880127, 'logits/rejected': -0.48693162202835083, 'beta_dpo/beta': 0.838965654373169, 'beta_dpo/loss_margin_mean': 84.6165771484375, 'beta_dpo/beta_margin_mean': 74.75791931152344, 'beta_dpo/beta_margin_std': 82.98445892333984, 'beta_dpo/beta_margin_grad_mean': -0.12155988812446594, 'beta_dpo/beta_margin_grad_std': 0.31926241517066956, 'epoch': 0.42}

 42%|████████████████████████████████▍                                             | 283/681 [18:26<16:50,  2.54s/it]
 42%|████████████████████████████████▌                                             | 284/681 [18:28<17:18,  2.62s/it]
                                                                                                                     
{'loss': 1.3195, 'grad_norm': 6.851167678833008, 'learning_rate': 3.6372625621898863e-07, 'beta_dpo/gap_mean': 74.1982650756836, 'beta_dpo/gap_std': 90.27053833007812, 'beta_dpo/beta_used_raw': -0.19312117993831635, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5042980313301086, 'logits/rejected': -0.4991450905799866, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 81.42410278320312, 'beta_dpo/beta_margin_mean': 0.08142410963773727, 'beta_dpo/beta_margin_std': 0.0932619571685791, 'beta_dpo/beta_margin_grad_mean': -0.47972315549850464, 'beta_dpo/beta_margin_grad_std': 0.02312047965824604, 'epoch': 0.42}

 42%|████████████████████████████████▌                                             | 284/681 [18:28<17:18,  2.62s/it]
 42%|████████████████████████████████▋                                             | 285/681 [18:31<17:07,  2.60s/it]
                                                                                                                     
{'loss': 1.3215, 'grad_norm': 7.985069274902344, 'learning_rate': 3.625819059005228e-07, 'beta_dpo/gap_mean': 73.66974639892578, 'beta_dpo/gap_std': 90.04093933105469, 'beta_dpo/beta_used_raw': -0.30619388818740845, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4940687417984009, 'logits/rejected': -0.48543840646743774, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 72.39013671875, 'beta_dpo/beta_margin_mean': 0.07239013910293579, 'beta_dpo/beta_margin_std': 0.08699988573789597, 'beta_dpo/beta_margin_grad_mean': -0.48195090889930725, 'beta_dpo/beta_margin_grad_std': 0.0216471329331398, 'epoch': 0.42}

 42%|████████████████████████████████▋                                             | 285/681 [18:31<17:07,  2.60s/it]
 42%|████████████████████████████████▊                                             | 286/681 [18:34<17:15,  2.62s/it]
                                                                                                                     
{'loss': 1.2468, 'grad_norm': 274.8042907714844, 'learning_rate': 3.614345889441346e-07, 'beta_dpo/gap_mean': 74.31663513183594, 'beta_dpo/gap_std': 90.61752319335938, 'beta_dpo/beta_used_raw': -0.39668411016464233, 'beta_dpo/beta_used': 0.07317624241113663, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4832392930984497, 'logits/rejected': -0.46001118421554565, 'beta_dpo/beta': 0.07317624241113663, 'beta_dpo/loss_margin_mean': 73.65949249267578, 'beta_dpo/beta_margin_mean': 5.437658786773682, 'beta_dpo/beta_margin_std': 11.020866394042969, 'beta_dpo/beta_margin_grad_mean': -0.3578983247280121, 'beta_dpo/beta_margin_grad_std': 0.3003653585910797, 'epoch': 0.42}

 42%|████████████████████████████████▊                                             | 286/681 [18:34<17:15,  2.62s/it]
 42%|████████████████████████████████▊                                             | 287/681 [18:36<16:29,  2.51s/it]
                                                                                                                     
{'loss': 1.3334, 'grad_norm': 4.072757720947266, 'learning_rate': 3.6028433558269275e-07, 'beta_dpo/gap_mean': 72.43344116210938, 'beta_dpo/gap_std': 90.36245727539062, 'beta_dpo/beta_used_raw': -0.9690273404121399, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46784478425979614, 'logits/rejected': -0.44443923234939575, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 61.16653823852539, 'beta_dpo/beta_margin_mean': 0.061166539788246155, 'beta_dpo/beta_margin_std': 0.08909157663583755, 'beta_dpo/beta_margin_grad_mean': -0.48475971817970276, 'beta_dpo/beta_margin_grad_std': 0.022152835503220558, 'epoch': 0.42}

 42%|████████████████████████████████▊                                             | 287/681 [18:36<16:29,  2.51s/it]
 42%|████████████████████████████████▉                                             | 288/681 [18:39<17:19,  2.64s/it]
                                                                                                                     
{'loss': 1.2203, 'grad_norm': 2659.9658203125, 'learning_rate': 3.5913117612644327e-07, 'beta_dpo/gap_mean': 74.12348937988281, 'beta_dpo/gap_std': 91.28290557861328, 'beta_dpo/beta_used_raw': 0.6619566082954407, 'beta_dpo/beta_used': 0.7897164821624756, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44504302740097046, 'logits/rejected': -0.4315459430217743, 'beta_dpo/beta': 0.7897164821624756, 'beta_dpo/loss_margin_mean': 79.14554595947266, 'beta_dpo/beta_margin_mean': 85.403076171875, 'beta_dpo/beta_margin_std': 137.9335479736328, 'beta_dpo/beta_margin_grad_mean': -0.3040521442890167, 'beta_dpo/beta_margin_grad_std': 0.2914998233318329, 'epoch': 0.42}

 42%|████████████████████████████████▉                                             | 288/681 [18:39<17:19,  2.64s/it]
 42%|█████████████████████████████████                                             | 289/681 [18:41<16:55,  2.59s/it]
                                                                                                                     
{'loss': 2.5223, 'grad_norm': 1766.22216796875, 'learning_rate': 3.5797514096221024e-07, 'beta_dpo/gap_mean': 74.27970886230469, 'beta_dpo/gap_std': 92.71040344238281, 'beta_dpo/beta_used_raw': -0.10066229104995728, 'beta_dpo/beta_used': 0.629094123840332, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35877037048339844, 'logits/rejected': -0.3598015010356903, 'beta_dpo/beta': 0.629094123840332, 'beta_dpo/loss_margin_mean': 88.7456283569336, 'beta_dpo/beta_margin_mean': 68.1593246459961, 'beta_dpo/beta_margin_std': 111.16494750976562, 'beta_dpo/beta_margin_grad_mean': -0.3004843592643738, 'beta_dpo/beta_margin_grad_std': 0.28447577357292175, 'epoch': 0.42}

 42%|█████████████████████████████████                                             | 289/681 [18:41<16:55,  2.59s/it]
 43%|█████████████████████████████████▏                                            | 290/681 [18:44<16:27,  2.53s/it]
                                                                                                                     
{'loss': 3.118, 'grad_norm': 1004.2230224609375, 'learning_rate': 3.568162605525952e-07, 'beta_dpo/gap_mean': 80.18174743652344, 'beta_dpo/gap_std': 98.11917877197266, 'beta_dpo/beta_used_raw': -0.1657930314540863, 'beta_dpo/beta_used': 0.4477105140686035, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3618127703666687, 'logits/rejected': -0.38121217489242554, 'beta_dpo/beta': 0.4477105140686035, 'beta_dpo/loss_margin_mean': 104.16016387939453, 'beta_dpo/beta_margin_mean': 46.98125076293945, 'beta_dpo/beta_margin_std': 88.1680908203125, 'beta_dpo/beta_margin_grad_mean': -0.3150025010108948, 'beta_dpo/beta_margin_grad_std': 0.30229073762893677, 'epoch': 0.43}

 43%|█████████████████████████████████▏                                            | 290/681 [18:44<16:27,  2.53s/it]
 43%|█████████████████████████████████▎                                            | 291/681 [18:46<16:33,  2.55s/it]
                                                                                                                     
{'loss': 2.0799, 'grad_norm': 952.44775390625, 'learning_rate': 3.5565456543517485e-07, 'beta_dpo/gap_mean': 79.38957214355469, 'beta_dpo/gap_std': 99.54486083984375, 'beta_dpo/beta_used_raw': 0.3404870629310608, 'beta_dpo/beta_used': 0.3404870629310608, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42019423842430115, 'logits/rejected': -0.40653547644615173, 'beta_dpo/beta': 0.3404870629310608, 'beta_dpo/loss_margin_mean': 72.23591613769531, 'beta_dpo/beta_margin_mean': 25.296192169189453, 'beta_dpo/beta_margin_std': 31.709936141967773, 'beta_dpo/beta_margin_grad_mean': -0.2316586971282959, 'beta_dpo/beta_margin_grad_std': 0.40322452783584595, 'epoch': 0.43}

 43%|█████████████████████████████████▎                                            | 291/681 [18:46<16:33,  2.55s/it]
 43%|█████████████████████████████████▍                                            | 292/681 [18:49<16:11,  2.50s/it]
                                                                                                                     
{'loss': 1.6587, 'grad_norm': 439.33978271484375, 'learning_rate': 3.5449008622169583e-07, 'beta_dpo/gap_mean': 79.20477294921875, 'beta_dpo/gap_std': 100.69721984863281, 'beta_dpo/beta_used_raw': -0.7626643776893616, 'beta_dpo/beta_used': 0.12015949934720993, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3626874089241028, 'logits/rejected': -0.3548169732093811, 'beta_dpo/beta': 0.12015949934720993, 'beta_dpo/loss_margin_mean': 78.73019409179688, 'beta_dpo/beta_margin_mean': 10.655224800109863, 'beta_dpo/beta_margin_std': 21.715547561645508, 'beta_dpo/beta_margin_grad_mean': -0.33290329575538635, 'beta_dpo/beta_margin_grad_std': 0.30069440603256226, 'epoch': 0.43}

 43%|█████████████████████████████████▍                                            | 292/681 [18:49<16:11,  2.50s/it]
 43%|█████████████████████████████████▌                                            | 293/681 [18:51<16:28,  2.55s/it]
                                                                                                                     
{'loss': 1.3249, 'grad_norm': 4.400468349456787, 'learning_rate': 3.5332285359726846e-07, 'beta_dpo/gap_mean': 77.53086853027344, 'beta_dpo/gap_std': 101.82347106933594, 'beta_dpo/beta_used_raw': -0.7132205963134766, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41298121213912964, 'logits/rejected': -0.40352344512939453, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 67.81421661376953, 'beta_dpo/beta_margin_mean': 0.06781422346830368, 'beta_dpo/beta_margin_std': 0.10339030623435974, 'beta_dpo/beta_margin_grad_mean': -0.4831177890300751, 'beta_dpo/beta_margin_grad_std': 0.025702647864818573, 'epoch': 0.43}

 43%|█████████████████████████████████▌                                            | 293/681 [18:51<16:28,  2.55s/it]
 43%|█████████████████████████████████▋                                            | 294/681 [18:54<16:11,  2.51s/it]
                                                                                                                     
{'loss': 1.3324, 'grad_norm': 4.342075347900391, 'learning_rate': 3.5215289831955786e-07, 'beta_dpo/gap_mean': 78.0030517578125, 'beta_dpo/gap_std': 102.60092163085938, 'beta_dpo/beta_used_raw': -1.2027143239974976, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.380662739276886, 'logits/rejected': -0.3861265182495117, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 76.23664855957031, 'beta_dpo/beta_margin_mean': 0.07623665034770966, 'beta_dpo/beta_margin_std': 0.10481663793325424, 'beta_dpo/beta_margin_grad_mean': -0.48102009296417236, 'beta_dpo/beta_margin_grad_std': 0.026048097759485245, 'epoch': 0.43}

 43%|█████████████████████████████████▋                                            | 294/681 [18:54<16:11,  2.51s/it]
 43%|█████████████████████████████████▊                                            | 295/681 [18:56<16:01,  2.49s/it]
                                                                                                                     
{'loss': 8.3528, 'grad_norm': 1862.5281982421875, 'learning_rate': 3.509802512179737e-07, 'beta_dpo/gap_mean': 76.71334075927734, 'beta_dpo/gap_std': 102.96287536621094, 'beta_dpo/beta_used_raw': 0.05702996253967285, 'beta_dpo/beta_used': 0.2947583496570587, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37672334909439087, 'logits/rejected': -0.3786112368106842, 'beta_dpo/beta': 0.2947583496570587, 'beta_dpo/loss_margin_mean': 78.26499938964844, 'beta_dpo/beta_margin_mean': 19.130741119384766, 'beta_dpo/beta_margin_std': 50.656394958496094, 'beta_dpo/beta_margin_grad_mean': -0.40385448932647705, 'beta_dpo/beta_margin_grad_std': 0.32800954580307007, 'epoch': 0.43}

 43%|█████████████████████████████████▊                                            | 295/681 [18:56<16:01,  2.49s/it]
 43%|█████████████████████████████████▉                                            | 296/681 [18:59<15:54,  2.48s/it]
                                                                                                                     
{'loss': 1.3325, 'grad_norm': 4.538437366485596, 'learning_rate': 3.498049431928577e-07, 'beta_dpo/gap_mean': 75.4265365600586, 'beta_dpo/gap_std': 102.43699645996094, 'beta_dpo/beta_used_raw': -1.0527881383895874, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41676008701324463, 'logits/rejected': -0.3972277343273163, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 58.992069244384766, 'beta_dpo/beta_margin_mean': 0.05899207293987274, 'beta_dpo/beta_margin_std': 0.10110720992088318, 'beta_dpo/beta_margin_grad_mean': -0.48530909419059753, 'beta_dpo/beta_margin_grad_std': 0.02513442374765873, 'epoch': 0.43}

 43%|█████████████████████████████████▉                                            | 296/681 [18:59<15:54,  2.48s/it]
 44%|██████████████████████████████████                                            | 297/681 [19:01<16:03,  2.51s/it]
                                                                                                                     
{'loss': 1.3264, 'grad_norm': 5.51907205581665, 'learning_rate': 3.486270052146694e-07, 'beta_dpo/gap_mean': 73.90296936035156, 'beta_dpo/gap_std': 100.1375961303711, 'beta_dpo/beta_used_raw': -0.6135008335113525, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35295820236206055, 'logits/rejected': -0.3571382761001587, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 69.82958984375, 'beta_dpo/beta_margin_mean': 0.06982959061861038, 'beta_dpo/beta_margin_std': 0.0898992121219635, 'beta_dpo/beta_margin_grad_mean': -0.48259493708610535, 'beta_dpo/beta_margin_grad_std': 0.022371800616383553, 'epoch': 0.44}

 44%|██████████████████████████████████                                            | 297/681 [19:01<16:03,  2.51s/it]
 44%|██████████████████████████████████▏                                           | 298/681 [19:04<16:45,  2.63s/it]
                                                                                                                     
{'loss': 1.6437, 'grad_norm': 738.2294311523438, 'learning_rate': 3.474464683231698e-07, 'beta_dpo/gap_mean': 74.29185485839844, 'beta_dpo/gap_std': 102.38994598388672, 'beta_dpo/beta_used_raw': 0.27431046962738037, 'beta_dpo/beta_used': 0.27431046962738037, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4162539839744568, 'logits/rejected': -0.4425868093967438, 'beta_dpo/beta': 0.27431046962738037, 'beta_dpo/loss_margin_mean': 86.00110626220703, 'beta_dpo/beta_margin_mean': 20.479074478149414, 'beta_dpo/beta_margin_std': 45.33749008178711, 'beta_dpo/beta_margin_grad_mean': -0.263118177652359, 'beta_dpo/beta_margin_grad_std': 0.33494073152542114, 'epoch': 0.44}

 44%|██████████████████████████████████▏                                           | 298/681 [19:04<16:45,  2.63s/it]
 44%|██████████████████████████████████▏                                           | 299/681 [19:07<16:35,  2.61s/it]
                                                                                                                     
{'loss': 1.3176, 'grad_norm': 5.145935535430908, 'learning_rate': 3.462633636266041e-07, 'beta_dpo/gap_mean': 74.65848541259766, 'beta_dpo/gap_std': 103.56509399414062, 'beta_dpo/beta_used_raw': -0.10428804159164429, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39493227005004883, 'logits/rejected': -0.40073153376579285, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 77.17499542236328, 'beta_dpo/beta_margin_mean': 0.07717499881982803, 'beta_dpo/beta_margin_std': 0.10790830105543137, 'beta_dpo/beta_margin_grad_mean': -0.4808002710342407, 'beta_dpo/beta_margin_grad_std': 0.02673073299229145, 'epoch': 0.44}

 44%|██████████████████████████████████▏                                           | 299/681 [19:07<16:35,  2.61s/it]
 44%|██████████████████████████████████▎                                           | 300/681 [19:09<16:41,  2.63s/it]
                                                                                                                     
{'loss': 2.8698, 'grad_norm': 932.0242919921875, 'learning_rate': 3.4507772230088147e-07, 'beta_dpo/gap_mean': 77.76226806640625, 'beta_dpo/gap_std': 109.28889465332031, 'beta_dpo/beta_used_raw': -0.37631434202194214, 'beta_dpo/beta_used': 0.09059438109397888, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3533056974411011, 'logits/rejected': -0.35223710536956787, 'beta_dpo/beta': 0.09059438109397888, 'beta_dpo/loss_margin_mean': 91.35057830810547, 'beta_dpo/beta_margin_mean': 9.376904487609863, 'beta_dpo/beta_margin_std': 18.19443702697754, 'beta_dpo/beta_margin_grad_mean': -0.3587842583656311, 'beta_dpo/beta_margin_grad_std': 0.31596502661705017, 'epoch': 0.44}

 44%|██████████████████████████████████▎                                           | 300/681 [19:09<16:41,  2.63s/it][INFO|trainer.py:4307] 2026-04-17 23:42:41,926 >>
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-17 23:42:41,926 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-17 23:42:41,926 >>   Batch size = 8


  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A

  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.65it/s][A

  4%|███▎                                                                             | 3/73 [00:01<00:27,  2.58it/s][A

  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.25it/s][A

  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.10it/s][A

  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.00it/s][A

 10%|███████▊                                                                         | 7/73 [00:03<00:32,  2.06it/s][A

 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.93it/s][A

 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.87it/s][A

 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.84it/s][A

 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A

 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.79it/s][A

 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.84it/s][A

 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.81it/s][A

 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.81it/s][A

 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.75it/s][A

 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.74it/s][A

 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.73it/s][A

 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.70it/s][A

 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.69it/s][A

 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.69it/s][A

 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.67it/s][A

 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:29,  1.72it/s][A

 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.73it/s][A

 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:28,  1.71it/s][A

 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.73it/s][A

 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s][A

 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.89it/s][A

 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:22,  1.91it/s][A

 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.92it/s][A

 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.85it/s][A

 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s][A

 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:20,  1.91it/s][A

 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.87it/s][A

 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.80it/s][A

 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.81it/s][A

 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s][A

 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.88it/s][A

 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:19,  1.79it/s][A

 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.81it/s][A

 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.87it/s][A

 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:17,  1.82it/s][A

 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.85it/s][A

 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.84it/s][A

 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s][A

 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.84it/s][A

 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s][A

 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:26<00:13,  1.80it/s][A

 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.79it/s][A

 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.81it/s][A

 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.79it/s][A

 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.73it/s][A

 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s][A

 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.81it/s][A

 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.80it/s][A

 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.84it/s][A

 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.77it/s][A

 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s][A

 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.85it/s][A

 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s][A

 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A

 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.77it/s][A

 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s][A

 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.95it/s][A

 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.92it/s][A

 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.85it/s][A

 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.88it/s][A

 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.83it/s][A

 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s][A

 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A

 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.81it/s][A

 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.80it/s][A

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A

                                                                                                                     
[A{'eval_loss': 0.8542339205741882, 'eval_runtime': 40.2324, 'eval_samples_per_second': 58.137, 'eval_steps_per_second': 1.839, 'eval_beta_dpo/beta': 0.021529680117964745, 'eval_beta_dpo/loss_margin_mean': 46.85930633544922, 'eval_beta_dpo/beta_margin_mean': 1.7761027812957764, 'eval_beta_dpo/beta_margin_std': 2.521554946899414, 'eval_beta_dpo/beta_margin_grad_mean': -0.47100841999053955, 'eval_beta_dpo/beta_margin_grad_std': 0.05001794174313545, 'eval_beta_dpo/gap_mean': 79.1242446899414, 'eval_beta_dpo/gap_std': 110.1003646850586, 'eval_beta_dpo/beta_used_raw': -1.8358967304229736, 'eval_beta_dpo/beta_used': 0.021529680117964745, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.4178045988082886, 'eval_logits/rejected': -0.40100225806236267, 'epoch': 0.44}

 44%|██████████████████████████████████▎                                           | 300/681 [19:50<16:41,  2.63s/it]

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A

                                                                                                                     [A
 44%|█████████████████████████████████▌                                          | 301/681 [19:52<1:32:40, 14.63s/it]
                                                                                                                     
{'loss': 2.4685, 'grad_norm': 1095.8056640625, 'learning_rate': 3.4388957558875316e-07, 'beta_dpo/gap_mean': 82.58103942871094, 'beta_dpo/gap_std': 111.84109497070312, 'beta_dpo/beta_used_raw': 0.05099296569824219, 'beta_dpo/beta_used': 0.2012784332036972, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.36673691868782043, 'logits/rejected': -0.3641397953033447, 'beta_dpo/beta': 0.2012784332036972, 'beta_dpo/loss_margin_mean': 101.39947509765625, 'beta_dpo/beta_margin_mean': 21.419300079345703, 'beta_dpo/beta_margin_std': 39.65841293334961, 'beta_dpo/beta_margin_grad_mean': -0.31333795189857483, 'beta_dpo/beta_margin_grad_std': 0.2758391499519348, 'epoch': 0.44}

 44%|█████████████████████████████████▌                                          | 301/681 [19:52<1:32:40, 14.63s/it]
 44%|█████████████████████████████████▋                                          | 302/681 [19:55<1:09:39, 11.03s/it]
                                                                                                                     
{'loss': 1.3296, 'grad_norm': 5.6372833251953125, 'learning_rate': 3.426989547989902e-07, 'beta_dpo/gap_mean': 82.75358581542969, 'beta_dpo/gap_std': 113.17562103271484, 'beta_dpo/beta_used_raw': -1.307005763053894, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37512508034706116, 'logits/rejected': -0.38196590542793274, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 75.1414566040039, 'beta_dpo/beta_margin_mean': 0.07514145970344543, 'beta_dpo/beta_margin_std': 0.1161830946803093, 'beta_dpo/beta_margin_grad_mean': -0.48131224513053894, 'beta_dpo/beta_margin_grad_std': 0.028863143175840378, 'epoch': 0.44}

 44%|█████████████████████████████████▋                                          | 302/681 [19:55<1:09:39, 11.03s/it]
 44%|██████████████████████████████████▋                                           | 303/681 [19:57<53:38,  8.51s/it]
                                                                                                                     
{'loss': 1.3394, 'grad_norm': 5.255090236663818, 'learning_rate': 3.4150589130555773e-07, 'beta_dpo/gap_mean': 80.88421630859375, 'beta_dpo/gap_std': 116.31727600097656, 'beta_dpo/beta_used_raw': -1.7821969985961914, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38791757822036743, 'logits/rejected': -0.36933159828186035, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 71.96322631835938, 'beta_dpo/beta_margin_mean': 0.07196322828531265, 'beta_dpo/beta_margin_std': 0.12872378528118134, 'beta_dpo/beta_margin_grad_mean': -0.4821236729621887, 'beta_dpo/beta_margin_grad_std': 0.03194034472107887, 'epoch': 0.44}

 44%|██████████████████████████████████▋                                           | 303/681 [19:57<53:38,  8.51s/it]
 45%|██████████████████████████████████▊                                           | 304/681 [20:00<42:29,  6.76s/it]
                                                                                                                     
{'loss': 2.6158, 'grad_norm': 2268.49462890625, 'learning_rate': 3.403104165467883e-07, 'beta_dpo/gap_mean': 78.1776123046875, 'beta_dpo/gap_std': 113.8460693359375, 'beta_dpo/beta_used_raw': 0.308247447013855, 'beta_dpo/beta_used': 0.45528510212898254, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42312443256378174, 'logits/rejected': -0.4081481993198395, 'beta_dpo/beta': 0.45528510212898254, 'beta_dpo/loss_margin_mean': 74.2430419921875, 'beta_dpo/beta_margin_mean': 40.59646224975586, 'beta_dpo/beta_margin_std': 64.21621704101562, 'beta_dpo/beta_margin_grad_mean': -0.3141389787197113, 'beta_dpo/beta_margin_grad_std': 0.2951262891292572, 'epoch': 0.45}

 45%|██████████████████████████████████▊                                           | 304/681 [20:00<42:29,  6.76s/it]
 45%|██████████████████████████████████▉                                           | 305/681 [20:03<34:44,  5.54s/it]
                                                                                                                     
{'loss': 1.3143, 'grad_norm': 5.800883769989014, 'learning_rate': 3.391125620245535e-07, 'beta_dpo/gap_mean': 79.73931884765625, 'beta_dpo/gap_std': 116.2216567993164, 'beta_dpo/beta_used_raw': -0.13185091316699982, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4113423824310303, 'logits/rejected': -0.39184314012527466, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 82.05501556396484, 'beta_dpo/beta_margin_mean': 0.08205502480268478, 'beta_dpo/beta_margin_std': 0.13452649116516113, 'beta_dpo/beta_margin_grad_mean': -0.47965607047080994, 'beta_dpo/beta_margin_grad_std': 0.0331178717315197, 'epoch': 0.45}

 45%|██████████████████████████████████▉                                           | 305/681 [20:03<34:44,  5.54s/it]
 45%|███████████████████████████████████                                           | 306/681 [20:05<29:15,  4.68s/it]
                                                                                                                     
{'loss': 1.3335, 'grad_norm': 5.251987457275391, 'learning_rate': 3.3791235930343417e-07, 'beta_dpo/gap_mean': 76.38526916503906, 'beta_dpo/gap_std': 114.24805450439453, 'beta_dpo/beta_used_raw': -1.1865973472595215, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.400661826133728, 'logits/rejected': -0.38528114557266235, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 59.507118225097656, 'beta_dpo/beta_margin_mean': 0.05950712412595749, 'beta_dpo/beta_margin_std': 0.10371576249599457, 'beta_dpo/beta_margin_grad_mean': -0.4851844310760498, 'beta_dpo/beta_margin_grad_std': 0.02573644183576107, 'epoch': 0.45}

 45%|███████████████████████████████████                                           | 306/681 [20:05<29:15,  4.68s/it]
 45%|███████████████████████████████████▏                                          | 307/681 [20:08<25:39,  4.12s/it]
                                                                                                                     
{'loss': 7.6211, 'grad_norm': 1632.386474609375, 'learning_rate': 3.367098400098881e-07, 'beta_dpo/gap_mean': 76.5669937133789, 'beta_dpo/gap_std': 113.13117218017578, 'beta_dpo/beta_used_raw': 0.1832038164138794, 'beta_dpo/beta_used': 0.3818568289279938, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39632394909858704, 'logits/rejected': -0.37825697660446167, 'beta_dpo/beta': 0.3818568289279938, 'beta_dpo/loss_margin_mean': 80.41350555419922, 'beta_dpo/beta_margin_mean': 27.862314224243164, 'beta_dpo/beta_margin_std': 64.0865249633789, 'beta_dpo/beta_margin_grad_mean': -0.34861063957214355, 'beta_dpo/beta_margin_grad_std': 0.32014045119285583, 'epoch': 0.45}

 45%|███████████████████████████████████▏                                          | 307/681 [20:08<25:39,  4.12s/it]
 45%|███████████████████████████████████▎                                          | 308/681 [20:11<22:43,  3.65s/it]
                                                                                                                     
{'loss': 5.1079, 'grad_norm': 1437.0244140625, 'learning_rate': 3.355050358314172e-07, 'beta_dpo/gap_mean': 78.43896484375, 'beta_dpo/gap_std': 113.47734069824219, 'beta_dpo/beta_used_raw': 0.35672301054000854, 'beta_dpo/beta_used': 0.35672301054000854, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3438449501991272, 'logits/rejected': -0.31777122616767883, 'beta_dpo/beta': 0.35672301054000854, 'beta_dpo/loss_margin_mean': 90.54447174072266, 'beta_dpo/beta_margin_mean': 32.29079055786133, 'beta_dpo/beta_margin_std': 39.89966583251953, 'beta_dpo/beta_margin_grad_mean': -0.21785807609558105, 'beta_dpo/beta_margin_grad_std': 0.3981392979621887, 'epoch': 0.45}

 45%|███████████████████████████████████▎                                          | 308/681 [20:11<22:43,  3.65s/it]
 45%|███████████████████████████████████▍                                          | 309/681 [20:13<20:48,  3.36s/it]
                                                                                                                     
{'loss': 3.7664, 'grad_norm': 1346.0263671875, 'learning_rate': 3.3429797851573183e-07, 'beta_dpo/gap_mean': 78.77679443359375, 'beta_dpo/gap_std': 111.2503433227539, 'beta_dpo/beta_used_raw': 0.36354923248291016, 'beta_dpo/beta_used': 0.36354923248291016, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3582022190093994, 'logits/rejected': -0.3475998640060425, 'beta_dpo/beta': 0.36354923248291016, 'beta_dpo/loss_margin_mean': 83.59400177001953, 'beta_dpo/beta_margin_mean': 37.24231719970703, 'beta_dpo/beta_margin_std': 56.5272102355957, 'beta_dpo/beta_margin_grad_mean': -0.22801323235034943, 'beta_dpo/beta_margin_grad_std': 0.36051756143569946, 'epoch': 0.45}

 45%|███████████████████████████████████▍                                          | 309/681 [20:13<20:48,  3.36s/it]
 46%|███████████████████████████████████▌                                          | 310/681 [20:16<19:42,  3.19s/it]
                                                                                                                     
{'loss': 1.3247, 'grad_norm': 5.082400321960449, 'learning_rate': 3.3308869986991487e-07, 'beta_dpo/gap_mean': 78.03067016601562, 'beta_dpo/gap_std': 107.44921875, 'beta_dpo/beta_used_raw': -0.7171174883842468, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39452001452445984, 'logits/rejected': -0.3749483823776245, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 69.67520141601562, 'beta_dpo/beta_margin_mean': 0.06967519968748093, 'beta_dpo/beta_margin_std': 0.09265855699777603, 'beta_dpo/beta_margin_grad_mean': -0.4826306700706482, 'beta_dpo/beta_margin_grad_std': 0.0230739563703537, 'epoch': 0.46}

 46%|███████████████████████████████████▌                                          | 310/681 [20:16<19:42,  3.19s/it]
 46%|███████████████████████████████████▌                                          | 311/681 [20:19<18:33,  3.01s/it]
                                                                                                                     
{'loss': 6.6088, 'grad_norm': 2260.131591796875, 'learning_rate': 3.3187723175958346e-07, 'beta_dpo/gap_mean': 79.78893280029297, 'beta_dpo/gap_std': 111.02082824707031, 'beta_dpo/beta_used_raw': -0.058561310172080994, 'beta_dpo/beta_used': 0.2502756416797638, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3645089864730835, 'logits/rejected': -0.349958598613739, 'beta_dpo/beta': 0.2502756416797638, 'beta_dpo/loss_margin_mean': 86.99933624267578, 'beta_dpo/beta_margin_mean': 23.12792205810547, 'beta_dpo/beta_margin_std': 54.33233642578125, 'beta_dpo/beta_margin_grad_mean': -0.40929269790649414, 'beta_dpo/beta_margin_grad_std': 0.3354220688343048, 'epoch': 0.46}

 46%|███████████████████████████████████▌                                          | 311/681 [20:19<18:33,  3.01s/it]
 46%|███████████████████████████████████▋                                          | 312/681 [20:21<17:22,  2.82s/it]
                                                                                                                     
{'loss': 2.0408, 'grad_norm': 368.40875244140625, 'learning_rate': 3.306636061080487e-07, 'beta_dpo/gap_mean': 79.41765594482422, 'beta_dpo/gap_std': 112.60750579833984, 'beta_dpo/beta_used_raw': -0.2892300486564636, 'beta_dpo/beta_used': 0.07158917188644409, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3711026608943939, 'logits/rejected': -0.36203962564468384, 'beta_dpo/beta': 0.07158917188644409, 'beta_dpo/loss_margin_mean': 79.63638305664062, 'beta_dpo/beta_margin_mean': 6.374331474304199, 'beta_dpo/beta_margin_std': 13.631952285766602, 'beta_dpo/beta_margin_grad_mean': -0.3369253873825073, 'beta_dpo/beta_margin_grad_std': 0.29506799578666687, 'epoch': 0.46}

 46%|███████████████████████████████████▋                                          | 312/681 [20:21<17:22,  2.82s/it]
 46%|███████████████████████████████████▊                                          | 313/681 [20:24<16:37,  2.71s/it]
                                                                                                                     
{'loss': 1.321, 'grad_norm': 4.683560371398926, 'learning_rate': 3.2944785489547537e-07, 'beta_dpo/gap_mean': 78.54216003417969, 'beta_dpo/gap_std': 110.89816284179688, 'beta_dpo/beta_used_raw': -0.5578416585922241, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39467549324035645, 'logits/rejected': -0.38951510190963745, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 76.3763198852539, 'beta_dpo/beta_margin_mean': 0.07637631893157959, 'beta_dpo/beta_margin_std': 0.10121695697307587, 'beta_dpo/beta_margin_grad_mean': -0.48098939657211304, 'beta_dpo/beta_margin_grad_std': 0.025076594203710556, 'epoch': 0.46}

 46%|███████████████████████████████████▊                                          | 313/681 [20:24<16:37,  2.71s/it]
 46%|███████████████████████████████████▉                                          | 314/681 [20:26<16:15,  2.66s/it]
                                                                                                                     
{'loss': 3.7032, 'grad_norm': 1395.1510009765625, 'learning_rate': 3.2823001015803857e-07, 'beta_dpo/gap_mean': 79.06829833984375, 'beta_dpo/gap_std': 112.64566040039062, 'beta_dpo/beta_used_raw': -0.6258662939071655, 'beta_dpo/beta_used': 0.2938551902770996, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4507661461830139, 'logits/rejected': -0.44838911294937134, 'beta_dpo/beta': 0.2938551902770996, 'beta_dpo/loss_margin_mean': 75.2780532836914, 'beta_dpo/beta_margin_mean': 23.5745906829834, 'beta_dpo/beta_margin_std': 54.09528350830078, 'beta_dpo/beta_margin_grad_mean': -0.3812112510204315, 'beta_dpo/beta_margin_grad_std': 0.33289316296577454, 'epoch': 0.46}

 46%|███████████████████████████████████▉                                          | 314/681 [20:26<16:15,  2.66s/it]
 46%|████████████████████████████████████                                          | 315/681 [20:29<15:56,  2.61s/it]
                                                                                                                     
{'loss': 2.1612, 'grad_norm': 879.7577514648438, 'learning_rate': 3.270101039870797e-07, 'beta_dpo/gap_mean': 76.99462890625, 'beta_dpo/gap_std': 110.44047546386719, 'beta_dpo/beta_used_raw': -0.3934894800186157, 'beta_dpo/beta_used': 0.2281070500612259, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3693186044692993, 'logits/rejected': -0.3700152039527893, 'beta_dpo/beta': 0.2281070500612259, 'beta_dpo/loss_margin_mean': 66.10765075683594, 'beta_dpo/beta_margin_mean': 16.0867919921875, 'beta_dpo/beta_margin_std': 31.88882827758789, 'beta_dpo/beta_margin_grad_mean': -0.34743332862854004, 'beta_dpo/beta_margin_grad_std': 0.3025640845298767, 'epoch': 0.46}

 46%|████████████████████████████████████                                          | 315/681 [20:29<15:56,  2.61s/it]
 46%|████████████████████████████████████▏                                         | 316/681 [20:31<15:47,  2.60s/it]
                                                                                                                     
{'loss': 2.74, 'grad_norm': 1523.668701171875, 'learning_rate': 3.2578816852826086e-07, 'beta_dpo/gap_mean': 79.88623046875, 'beta_dpo/gap_std': 111.00810241699219, 'beta_dpo/beta_used_raw': 0.716162919998169, 'beta_dpo/beta_used': 0.716162919998169, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4141780734062195, 'logits/rejected': -0.426508367061615, 'beta_dpo/beta': 0.716162919998169, 'beta_dpo/loss_margin_mean': 95.93524169921875, 'beta_dpo/beta_margin_mean': 75.56684112548828, 'beta_dpo/beta_margin_std': 110.35047149658203, 'beta_dpo/beta_margin_grad_mean': -0.17893782258033752, 'beta_dpo/beta_margin_grad_std': 0.3721279203891754, 'epoch': 0.46}

 46%|████████████████████████████████████▏                                         | 316/681 [20:31<15:47,  2.60s/it]
 47%|████████████████████████████████████▎                                         | 317/681 [20:34<15:46,  2.60s/it]
                                                                                                                     
{'loss': 7.8427, 'grad_norm': 2744.883056640625, 'learning_rate': 3.2456423598071783e-07, 'beta_dpo/gap_mean': 83.21510314941406, 'beta_dpo/gap_std': 109.098876953125, 'beta_dpo/beta_used_raw': 0.6636589169502258, 'beta_dpo/beta_used': 0.6636589169502258, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43852800130844116, 'logits/rejected': -0.4249088168144226, 'beta_dpo/beta': 0.6636589169502258, 'beta_dpo/loss_margin_mean': 105.4694595336914, 'beta_dpo/beta_margin_mean': 66.06298828125, 'beta_dpo/beta_margin_std': 109.42732238769531, 'beta_dpo/beta_margin_grad_mean': -0.2624233067035675, 'beta_dpo/beta_margin_grad_std': 0.2798077166080475, 'epoch': 0.47}

 47%|████████████████████████████████████▎                                         | 317/681 [20:34<15:46,  2.60s/it]
 47%|████████████████████████████████████▍                                         | 318/681 [20:36<15:25,  2.55s/it]
                                                                                                                     
{'loss': 1.3202, 'grad_norm': 5.620822906494141, 'learning_rate': 3.233383385962115e-07, 'beta_dpo/gap_mean': 83.25845336914062, 'beta_dpo/gap_std': 107.83091735839844, 'beta_dpo/beta_used_raw': -0.7813102602958679, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4964483976364136, 'logits/rejected': -0.46540865302085876, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 79.98356628417969, 'beta_dpo/beta_margin_mean': 0.07998356968164444, 'beta_dpo/beta_margin_std': 0.09835181385278702, 'beta_dpo/beta_margin_grad_mean': -0.4800810217857361, 'beta_dpo/beta_margin_grad_std': 0.024429909884929657, 'epoch': 0.47}

 47%|████████████████████████████████████▍                                         | 318/681 [20:36<15:25,  2.55s/it]
 47%|████████████████████████████████████▌                                         | 319/681 [20:39<15:40,  2.60s/it]
                                                                                                                     
{'loss': 1.3132, 'grad_norm': 5.136927604675293, 'learning_rate': 3.2211050867827805e-07, 'beta_dpo/gap_mean': 84.244140625, 'beta_dpo/gap_std': 106.17644500732422, 'beta_dpo/beta_used_raw': -0.41069674491882324, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44059932231903076, 'logits/rejected': -0.4612247943878174, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.76531219482422, 'beta_dpo/beta_margin_mean': 0.08676531910896301, 'beta_dpo/beta_margin_std': 0.09681374579668045, 'beta_dpo/beta_margin_grad_mean': -0.4783901572227478, 'beta_dpo/beta_margin_grad_std': 0.02400689758360386, 'epoch': 0.47}

 47%|████████████████████████████████████▌                                         | 319/681 [20:39<15:40,  2.60s/it]
 47%|████████████████████████████████████▋                                         | 320/681 [20:42<15:42,  2.61s/it]
                                                                                                                     
{'loss': 0.9036, 'grad_norm': 51.687992095947266, 'learning_rate': 3.208807785813777e-07, 'beta_dpo/gap_mean': 85.014892578125, 'beta_dpo/gap_std': 103.82169342041016, 'beta_dpo/beta_used_raw': -0.33262649178504944, 'beta_dpo/beta_used': 0.028877759352326393, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4929655194282532, 'logits/rejected': -0.4922058582305908, 'beta_dpo/beta': 0.028877759352326393, 'beta_dpo/loss_margin_mean': 86.08537292480469, 'beta_dpo/beta_margin_mean': 2.645266532897949, 'beta_dpo/beta_margin_std': 4.285132884979248, 'beta_dpo/beta_margin_grad_mean': -0.3182305097579956, 'beta_dpo/beta_margin_grad_std': 0.24575480818748474, 'epoch': 0.47}

 47%|████████████████████████████████████▋                                         | 320/681 [20:42<15:42,  2.61s/it]
 47%|████████████████████████████████████▊                                         | 321/681 [20:44<15:28,  2.58s/it]
                                                                                                                     
{'loss': 1.3152, 'grad_norm': 5.877539157867432, 'learning_rate': 3.1964918071004217e-07, 'beta_dpo/gap_mean': 84.98190307617188, 'beta_dpo/gap_std': 106.54576110839844, 'beta_dpo/beta_used_raw': -0.5375549793243408, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42156291007995605, 'logits/rejected': -0.41359078884124756, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 80.3016128540039, 'beta_dpo/beta_margin_mean': 0.08030161261558533, 'beta_dpo/beta_margin_std': 0.11732209473848343, 'beta_dpo/beta_margin_grad_mean': -0.4800475537776947, 'beta_dpo/beta_margin_grad_std': 0.028980152681469917, 'epoch': 0.47}

 47%|████████████████████████████████████▊                                         | 321/681 [20:44<15:28,  2.58s/it]
 47%|████████████████████████████████████▉                                         | 322/681 [20:47<15:39,  2.62s/it]
                                                                                                                     
{'loss': 5.5448, 'grad_norm': 2252.3525390625, 'learning_rate': 3.184157475180207e-07, 'beta_dpo/gap_mean': 84.80892944335938, 'beta_dpo/gap_std': 106.46078491210938, 'beta_dpo/beta_used_raw': 0.6184810400009155, 'beta_dpo/beta_used': 0.6184810400009155, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4382587671279907, 'logits/rejected': -0.4316785931587219, 'beta_dpo/beta': 0.6184810400009155, 'beta_dpo/loss_margin_mean': 88.51132202148438, 'beta_dpo/beta_margin_mean': 58.11309814453125, 'beta_dpo/beta_margin_std': 91.10275268554688, 'beta_dpo/beta_margin_grad_mean': -0.202738955616951, 'beta_dpo/beta_margin_grad_std': 0.3781369626522064, 'epoch': 0.47}

 47%|████████████████████████████████████▉                                         | 322/681 [20:47<15:39,  2.62s/it]
 47%|████████████████████████████████████▉                                         | 323/681 [20:50<15:53,  2.66s/it]
                                                                                                                     
{'loss': 1.375, 'grad_norm': 346.4527282714844, 'learning_rate': 3.171805115074251e-07, 'beta_dpo/gap_mean': 85.3616943359375, 'beta_dpo/gap_std': 106.0413818359375, 'beta_dpo/beta_used_raw': -0.6850037574768066, 'beta_dpo/beta_used': 0.09758946299552917, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4343454837799072, 'logits/rejected': -0.4204588532447815, 'beta_dpo/beta': 0.09758946299552917, 'beta_dpo/loss_margin_mean': 85.88945770263672, 'beta_dpo/beta_margin_mean': 9.701543807983398, 'beta_dpo/beta_margin_std': 19.077165603637695, 'beta_dpo/beta_margin_grad_mean': -0.3393961191177368, 'beta_dpo/beta_margin_grad_std': 0.30425986647605896, 'epoch': 0.47}

 47%|████████████████████████████████████▉                                         | 323/681 [20:50<15:53,  2.66s/it]
 48%|█████████████████████████████████████                                         | 324/681 [20:52<15:23,  2.59s/it]
                                                                                                                     
{'loss': 1.327, 'grad_norm': 6.610962390899658, 'learning_rate': 3.1594350522787295e-07, 'beta_dpo/gap_mean': 82.46531677246094, 'beta_dpo/gap_std': 104.10604858398438, 'beta_dpo/beta_used_raw': -1.1255923509597778, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44873249530792236, 'logits/rejected': -0.4262539744377136, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 79.67871856689453, 'beta_dpo/beta_margin_mean': 0.0796787217259407, 'beta_dpo/beta_margin_std': 0.11951327323913574, 'beta_dpo/beta_margin_grad_mean': -0.48019298911094666, 'beta_dpo/beta_margin_grad_std': 0.029619457200169563, 'epoch': 0.48}

 48%|█████████████████████████████████████                                         | 324/681 [20:52<15:23,  2.59s/it]
 48%|█████████████████████████████████████▏                                        | 325/681 [20:55<16:04,  2.71s/it]
                                                                                                                     
{'loss': 1.3307, 'grad_norm': 4.3783674240112305, 'learning_rate': 3.147047612756302e-07, 'beta_dpo/gap_mean': 81.02421569824219, 'beta_dpo/gap_std': 103.86199951171875, 'beta_dpo/beta_used_raw': -1.2990741729736328, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.494614839553833, 'logits/rejected': -0.46266597509384155, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 62.00973129272461, 'beta_dpo/beta_margin_mean': 0.06200973317027092, 'beta_dpo/beta_margin_std': 0.08459888398647308, 'beta_dpo/beta_margin_grad_mean': -0.4845367670059204, 'beta_dpo/beta_margin_grad_std': 0.02106996439397335, 'epoch': 0.48}

 48%|█████████████████████████████████████▏                                        | 325/681 [20:55<16:04,  2.71s/it]
 48%|█████████████████████████████████████▎                                        | 326/681 [20:58<15:52,  2.68s/it]
                                                                                                                     
{'loss': 1.3416, 'grad_norm': 4.2274274826049805, 'learning_rate': 3.134643122927519e-07, 'beta_dpo/gap_mean': 77.61061096191406, 'beta_dpo/gap_std': 99.97056579589844, 'beta_dpo/beta_used_raw': -1.766413688659668, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.516798198223114, 'logits/rejected': -0.48323750495910645, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 64.17534637451172, 'beta_dpo/beta_margin_mean': 0.06417535245418549, 'beta_dpo/beta_margin_std': 0.08998852968215942, 'beta_dpo/beta_margin_grad_mean': -0.4840051829814911, 'beta_dpo/beta_margin_grad_std': 0.022391587495803833, 'epoch': 0.48}

 48%|█████████████████████████████████████▎                                        | 326/681 [20:58<15:52,  2.68s/it]
 48%|█████████████████████████████████████▍                                        | 327/681 [21:00<15:54,  2.70s/it]
                                                                                                                     
{'loss': 7.9926, 'grad_norm': 2141.1357421875, 'learning_rate': 3.1222219096622264e-07, 'beta_dpo/gap_mean': 81.72610473632812, 'beta_dpo/gap_std': 102.8271713256836, 'beta_dpo/beta_used_raw': 0.5268765687942505, 'beta_dpo/beta_used': 0.5268765687942505, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.436132550239563, 'logits/rejected': -0.41571980714797974, 'beta_dpo/beta': 0.5268765687942505, 'beta_dpo/loss_margin_mean': 105.36248779296875, 'beta_dpo/beta_margin_mean': 54.37653732299805, 'beta_dpo/beta_margin_std': 60.839786529541016, 'beta_dpo/beta_margin_grad_mean': -0.19231468439102173, 'beta_dpo/beta_margin_grad_std': 0.38571032881736755, 'epoch': 0.48}

 48%|█████████████████████████████████████▍                                        | 327/681 [21:00<15:54,  2.70s/it]
 48%|█████████████████████████████████████▌                                        | 328/681 [21:03<15:44,  2.68s/it]
                                                                                                                     
{'loss': 1.3207, 'grad_norm': 5.572524547576904, 'learning_rate': 3.1097843002709427e-07, 'beta_dpo/gap_mean': 83.3543701171875, 'beta_dpo/gap_std': 105.11456298828125, 'beta_dpo/beta_used_raw': -0.8078003525733948, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42520958185195923, 'logits/rejected': -0.4174392819404602, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 88.71802520751953, 'beta_dpo/beta_margin_mean': 0.08871802687644958, 'beta_dpo/beta_margin_std': 0.1109635978937149, 'beta_dpo/beta_margin_grad_mean': -0.47792962193489075, 'beta_dpo/beta_margin_grad_std': 0.027522550895810127, 'epoch': 0.48}

 48%|█████████████████████████████████████▌                                        | 328/681 [21:03<15:44,  2.68s/it]
 48%|█████████████████████████████████████▋                                        | 329/681 [21:05<15:20,  2.61s/it]
                                                                                                                     
{'loss': 12.0021, 'grad_norm': 3878.8359375, 'learning_rate': 3.0973306224962437e-07, 'beta_dpo/gap_mean': 87.77429962158203, 'beta_dpo/gap_std': 108.42816162109375, 'beta_dpo/beta_used_raw': 1.0845508575439453, 'beta_dpo/beta_used': 1.0845508575439453, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3832947015762329, 'logits/rejected': -0.36104413866996765, 'beta_dpo/beta': 1.0845508575439453, 'beta_dpo/loss_margin_mean': 109.0322265625, 'beta_dpo/beta_margin_mean': 114.5302505493164, 'beta_dpo/beta_margin_std': 163.5399627685547, 'beta_dpo/beta_margin_grad_mean': -0.1470133364200592, 'beta_dpo/beta_margin_grad_std': 0.3484492897987366, 'epoch': 0.48}

 48%|█████████████████████████████████████▋                                        | 329/681 [21:05<15:20,  2.61s/it]
 48%|█████████████████████████████████████▊                                        | 330/681 [21:08<15:24,  2.63s/it]
                                                                                                                     
{'loss': 1.1195, 'grad_norm': 94.45597839355469, 'learning_rate': 3.084861204504122e-07, 'beta_dpo/gap_mean': 89.45821380615234, 'beta_dpo/gap_std': 113.25923156738281, 'beta_dpo/beta_used_raw': -0.501742959022522, 'beta_dpo/beta_used': 0.020872846245765686, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3601895570755005, 'logits/rejected': -0.36258891224861145, 'beta_dpo/beta': 0.020872846245765686, 'beta_dpo/loss_margin_mean': 98.53221893310547, 'beta_dpo/beta_margin_mean': 2.022984027862549, 'beta_dpo/beta_margin_std': 3.9013209342956543, 'beta_dpo/beta_margin_grad_mean': -0.356696754693985, 'beta_dpo/beta_margin_grad_std': 0.2544516921043396, 'epoch': 0.48}

 48%|█████████████████████████████████████▊                                        | 330/681 [21:08<15:24,  2.63s/it]
 49%|█████████████████████████████████████▉                                        | 331/681 [21:11<15:08,  2.60s/it]
                                                                                                                     
{'loss': 0.6532, 'grad_norm': 4.018616199493408, 'learning_rate': 3.072376374875335e-07, 'beta_dpo/gap_mean': 91.51332092285156, 'beta_dpo/gap_std': 111.50447082519531, 'beta_dpo/beta_used_raw': 0.10756845772266388, 'beta_dpo/beta_used': 0.3303714692592621, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40397077798843384, 'logits/rejected': -0.3952021598815918, 'beta_dpo/beta': 0.3303714692592621, 'beta_dpo/loss_margin_mean': 98.58274841308594, 'beta_dpo/beta_margin_mean': 34.38044357299805, 'beta_dpo/beta_margin_std': 57.2767333984375, 'beta_dpo/beta_margin_grad_mean': -0.3008911907672882, 'beta_dpo/beta_margin_grad_std': 0.292959600687027, 'epoch': 0.49}

 49%|█████████████████████████████████████▉                                        | 331/681 [21:11<15:08,  2.60s/it]
 49%|██████████████████████████████████████                                        | 332/681 [21:13<14:44,  2.53s/it]
                                                                                                                     
{'loss': 1.3397, 'grad_norm': 5.169561386108398, 'learning_rate': 3.059876462596758e-07, 'beta_dpo/gap_mean': 88.39376831054688, 'beta_dpo/gap_std': 107.6720962524414, 'beta_dpo/beta_used_raw': -2.294619083404541, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42340922355651855, 'logits/rejected': -0.4118001163005829, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 70.96298217773438, 'beta_dpo/beta_margin_mean': 0.07096298784017563, 'beta_dpo/beta_margin_std': 0.0935334786772728, 'beta_dpo/beta_margin_grad_mean': -0.48232200741767883, 'beta_dpo/beta_margin_grad_std': 0.023256592452526093, 'epoch': 0.49}

 49%|██████████████████████████████████████                                        | 332/681 [21:13<14:44,  2.53s/it]
 49%|██████████████████████████████████████▏                                       | 333/681 [21:15<14:36,  2.52s/it]
                                                                                                                     
{'loss': 7.7022, 'grad_norm': 6724.30078125, 'learning_rate': 3.0473617970527015e-07, 'beta_dpo/gap_mean': 90.23367309570312, 'beta_dpo/gap_std': 110.23046875, 'beta_dpo/beta_used_raw': 0.4829646050930023, 'beta_dpo/beta_used': 0.9148516654968262, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41021233797073364, 'logits/rejected': -0.4079732298851013, 'beta_dpo/beta': 0.9148516654968262, 'beta_dpo/loss_margin_mean': 97.64309692382812, 'beta_dpo/beta_margin_mean': 111.1144790649414, 'beta_dpo/beta_margin_std': 201.45445251464844, 'beta_dpo/beta_margin_grad_mean': -0.34807515144348145, 'beta_dpo/beta_margin_grad_std': 0.3170374631881714, 'epoch': 0.49}

 49%|██████████████████████████████████████▏                                       | 333/681 [21:16<14:36,  2.52s/it]
 49%|██████████████████████████████████████▎                                       | 334/681 [21:18<14:43,  2.55s/it]
                                                                                                                     
{'loss': 1.3155, 'grad_norm': 5.3802080154418945, 'learning_rate': 3.034832708016243e-07, 'beta_dpo/gap_mean': 88.88426208496094, 'beta_dpo/gap_std': 111.89533996582031, 'beta_dpo/beta_used_raw': -0.775077760219574, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45664849877357483, 'logits/rejected': -0.44416582584381104, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.18205261230469, 'beta_dpo/beta_margin_mean': 0.08618205785751343, 'beta_dpo/beta_margin_std': 0.11291919648647308, 'beta_dpo/beta_margin_grad_mean': -0.47854748368263245, 'beta_dpo/beta_margin_grad_std': 0.028062039986252785, 'epoch': 0.49}

 49%|██████████████████████████████████████▎                                       | 334/681 [21:18<14:43,  2.55s/it]
 49%|██████████████████████████████████████▎                                       | 335/681 [21:21<14:42,  2.55s/it]
                                                                                                                     
{'loss': 1.3126, 'grad_norm': 5.149271488189697, 'learning_rate': 3.022289525640531e-07, 'beta_dpo/gap_mean': 84.96998596191406, 'beta_dpo/gap_std': 111.31343078613281, 'beta_dpo/beta_used_raw': -0.3869401812553406, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42109692096710205, 'logits/rejected': -0.4054427742958069, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 66.3158950805664, 'beta_dpo/beta_margin_mean': 0.0663158968091011, 'beta_dpo/beta_margin_std': 0.11655885726213455, 'beta_dpo/beta_margin_grad_mean': -0.48350557684898376, 'beta_dpo/beta_margin_grad_std': 0.028902921825647354, 'epoch': 0.49}

 49%|██████████████████████████████████████▎                                       | 335/681 [21:21<14:42,  2.55s/it]
 49%|██████████████████████████████████████▍                                       | 336/681 [21:23<14:52,  2.59s/it]
                                                                                                                     
{'loss': 6.4255, 'grad_norm': 4854.24609375, 'learning_rate': 3.009732580450086e-07, 'beta_dpo/gap_mean': 88.45248413085938, 'beta_dpo/gap_std': 115.87779998779297, 'beta_dpo/beta_used_raw': 0.7048290371894836, 'beta_dpo/beta_used': 0.7048290371894836, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39914026856422424, 'logits/rejected': -0.40446028113365173, 'beta_dpo/beta': 0.7048290371894836, 'beta_dpo/loss_margin_mean': 115.32160186767578, 'beta_dpo/beta_margin_mean': 86.26851654052734, 'beta_dpo/beta_margin_std': 136.75621032714844, 'beta_dpo/beta_margin_grad_mean': -0.12527000904083252, 'beta_dpo/beta_margin_grad_std': 0.3306175172328949, 'epoch': 0.49}

 49%|██████████████████████████████████████▍                                       | 336/681 [21:23<14:52,  2.59s/it]
 49%|██████████████████████████████████████▌                                       | 337/681 [21:26<14:39,  2.56s/it]
                                                                                                                     
{'loss': 2.2556, 'grad_norm': 1186.75927734375, 'learning_rate': 2.9971622033320914e-07, 'beta_dpo/gap_mean': 93.61722564697266, 'beta_dpo/gap_std': 119.06917572021484, 'beta_dpo/beta_used_raw': 0.00013016164302825928, 'beta_dpo/beta_used': 0.14777547121047974, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4144825041294098, 'logits/rejected': -0.41202259063720703, 'beta_dpo/beta': 0.14777547121047974, 'beta_dpo/loss_margin_mean': 105.2668228149414, 'beta_dpo/beta_margin_mean': 18.477201461791992, 'beta_dpo/beta_margin_std': 31.78298568725586, 'beta_dpo/beta_margin_grad_mean': -0.33285483717918396, 'beta_dpo/beta_margin_grad_std': 0.31178155541419983, 'epoch': 0.49}

 49%|██████████████████████████████████████▌                                       | 337/681 [21:26<14:39,  2.56s/it]
 50%|██████████████████████████████████████▋                                       | 338/681 [21:28<14:37,  2.56s/it]
                                                                                                                     
{'loss': 1.3108, 'grad_norm': 7.202863693237305, 'learning_rate': 2.984578725527675e-07, 'beta_dpo/gap_mean': 94.33158874511719, 'beta_dpo/gap_std': 117.08407592773438, 'beta_dpo/beta_used_raw': -0.8564766645431519, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4074411988258362, 'logits/rejected': -0.3915863037109375, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 101.54019927978516, 'beta_dpo/beta_margin_mean': 0.10154020041227341, 'beta_dpo/beta_margin_std': 0.10497380793094635, 'beta_dpo/beta_margin_grad_mean': -0.47472554445266724, 'beta_dpo/beta_margin_grad_std': 0.02603665366768837, 'epoch': 0.5}

 50%|██████████████████████████████████████▋                                       | 338/681 [21:28<14:37,  2.56s/it]
 50%|██████████████████████████████████████▊                                       | 339/681 [21:31<14:04,  2.47s/it]
                                                                                                                     
{'loss': 5.6395, 'grad_norm': 4415.94677734375, 'learning_rate': 2.9719824786231796e-07, 'beta_dpo/gap_mean': 93.49383544921875, 'beta_dpo/gap_std': 113.80068969726562, 'beta_dpo/beta_used_raw': 0.2719331383705139, 'beta_dpo/beta_used': 1.0157151222229004, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4132786989212036, 'logits/rejected': -0.4065033197402954, 'beta_dpo/beta': 1.0157151222229004, 'beta_dpo/loss_margin_mean': 96.39201354980469, 'beta_dpo/beta_margin_mean': 132.27044677734375, 'beta_dpo/beta_margin_std': 213.22317504882812, 'beta_dpo/beta_margin_grad_mean': -0.3203289806842804, 'beta_dpo/beta_margin_grad_std': 0.3050708770751953, 'epoch': 0.5}

 50%|██████████████████████████████████████▊                                       | 339/681 [21:31<14:04,  2.47s/it]
 50%|██████████████████████████████████████▉                                       | 340/681 [21:33<14:12,  2.50s/it]
                                                                                                                     
{'loss': 2.6635, 'grad_norm': 2312.302001953125, 'learning_rate': 2.959373794541426e-07, 'beta_dpo/gap_mean': 95.82996368408203, 'beta_dpo/gap_std': 116.46409606933594, 'beta_dpo/beta_used_raw': -0.11612993478775024, 'beta_dpo/beta_used': 0.48150238394737244, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.36081361770629883, 'logits/rejected': -0.33534175157546997, 'beta_dpo/beta': 0.48150238394737244, 'beta_dpo/loss_margin_mean': 91.91159057617188, 'beta_dpo/beta_margin_mean': 53.98538589477539, 'beta_dpo/beta_margin_std': 104.22420501708984, 'beta_dpo/beta_margin_grad_mean': -0.31963202357292175, 'beta_dpo/beta_margin_grad_std': 0.30448395013809204, 'epoch': 0.5}

 50%|██████████████████████████████████████▉                                       | 340/681 [21:33<14:12,  2.50s/it]
 50%|███████████████████████████████████████                                       | 341/681 [21:35<13:41,  2.42s/it]
                                                                                                                     
{'loss': 5.4623, 'grad_norm': 2236.2265625, 'learning_rate': 2.946753005532965e-07, 'beta_dpo/gap_mean': 97.98030090332031, 'beta_dpo/gap_std': 118.38259887695312, 'beta_dpo/beta_used_raw': 0.584057629108429, 'beta_dpo/beta_used': 0.6681861877441406, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35989874601364136, 'logits/rejected': -0.3705149292945862, 'beta_dpo/beta': 0.6681861877441406, 'beta_dpo/loss_margin_mean': 117.34190368652344, 'beta_dpo/beta_margin_mean': 76.64708709716797, 'beta_dpo/beta_margin_std': 130.1103515625, 'beta_dpo/beta_margin_grad_mean': -0.29601871967315674, 'beta_dpo/beta_margin_grad_std': 0.28802916407585144, 'epoch': 0.5}

 50%|███████████████████████████████████████                                       | 341/681 [21:35<13:41,  2.42s/it]
 50%|███████████████████████████████████████▏                                      | 342/681 [21:38<14:03,  2.49s/it]
                                                                                                                     
{'loss': 1.3243, 'grad_norm': 6.459059238433838, 'learning_rate': 2.934120444167326e-07, 'beta_dpo/gap_mean': 96.36663818359375, 'beta_dpo/gap_std': 119.49044799804688, 'beta_dpo/beta_used_raw': -1.7561790943145752, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4166700839996338, 'logits/rejected': -0.387287974357605, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 88.04671478271484, 'beta_dpo/beta_margin_mean': 0.08804672211408615, 'beta_dpo/beta_margin_std': 0.12628589570522308, 'beta_dpo/beta_margin_grad_mean': -0.47810834646224976, 'beta_dpo/beta_margin_grad_std': 0.031336311250925064, 'epoch': 0.5}

 50%|███████████████████████████████████████▏                                      | 342/681 [21:38<14:03,  2.49s/it]
 50%|███████████████████████████████████████▎                                      | 343/681 [21:40<13:43,  2.44s/it]
                                                                                                                     
{'loss': 1.0074, 'grad_norm': 1073.5543212890625, 'learning_rate': 2.9214764433242476e-07, 'beta_dpo/gap_mean': 99.7641372680664, 'beta_dpo/gap_std': 115.47168731689453, 'beta_dpo/beta_used_raw': -0.4439680874347687, 'beta_dpo/beta_used': 0.4361698031425476, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41678088903427124, 'logits/rejected': -0.4238309860229492, 'beta_dpo/beta': 0.4361698031425476, 'beta_dpo/loss_margin_mean': 112.97042083740234, 'beta_dpo/beta_margin_mean': 53.51424026489258, 'beta_dpo/beta_margin_std': 72.98287200927734, 'beta_dpo/beta_margin_grad_mean': -0.25323668122291565, 'beta_dpo/beta_margin_grad_std': 0.25362610816955566, 'epoch': 0.5}

 50%|███████████████████████████████████████▎                                      | 343/681 [21:40<13:43,  2.44s/it]
 51%|███████████████████████████████████████▍                                      | 344/681 [21:43<13:50,  2.46s/it]
                                                                                                                     
{'loss': 1.9805, 'grad_norm': 2767.380859375, 'learning_rate': 2.9088213361849126e-07, 'beta_dpo/gap_mean': 97.2651596069336, 'beta_dpo/gap_std': 113.85401916503906, 'beta_dpo/beta_used_raw': -0.35434967279434204, 'beta_dpo/beta_used': 0.5173386931419373, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3739524185657501, 'logits/rejected': -0.3753708004951477, 'beta_dpo/beta': 0.5173386931419373, 'beta_dpo/loss_margin_mean': 91.90724182128906, 'beta_dpo/beta_margin_mean': 64.93697357177734, 'beta_dpo/beta_margin_std': 109.22602844238281, 'beta_dpo/beta_margin_grad_mean': -0.30524685978889465, 'beta_dpo/beta_margin_grad_std': 0.2957528233528137, 'epoch': 0.51}

 51%|███████████████████████████████████████▍                                      | 344/681 [21:43<13:50,  2.46s/it]
 51%|███████████████████████████████████████▌                                      | 345/681 [21:46<14:21,  2.56s/it]
                                                                                                                     
{'loss': 3.0387, 'grad_norm': 2037.227294921875, 'learning_rate': 2.896155456223163e-07, 'beta_dpo/gap_mean': 99.37379455566406, 'beta_dpo/gap_std': 114.99360656738281, 'beta_dpo/beta_used_raw': 0.40887582302093506, 'beta_dpo/beta_used': 0.40887582302093506, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41102027893066406, 'logits/rejected': -0.3992459177970886, 'beta_dpo/beta': 0.40887582302093506, 'beta_dpo/loss_margin_mean': 109.09276580810547, 'beta_dpo/beta_margin_mean': 49.93855667114258, 'beta_dpo/beta_margin_std': 70.8931655883789, 'beta_dpo/beta_margin_grad_mean': -0.19348150491714478, 'beta_dpo/beta_margin_grad_std': 0.38543590903282166, 'epoch': 0.51}

 51%|███████████████████████████████████████▌                                      | 345/681 [21:46<14:21,  2.56s/it]
 51%|███████████████████████████████████████▋                                      | 346/681 [21:48<14:10,  2.54s/it]
                                                                                                                     
{'loss': 1.3049, 'grad_norm': 6.275406837463379, 'learning_rate': 2.883479137196714e-07, 'beta_dpo/gap_mean': 100.52455139160156, 'beta_dpo/gap_std': 115.36701965332031, 'beta_dpo/beta_used_raw': -0.828955888748169, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37849825620651245, 'logits/rejected': -0.3621870279312134, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 96.45289611816406, 'beta_dpo/beta_margin_mean': 0.09645290672779083, 'beta_dpo/beta_margin_std': 0.1203700602054596, 'beta_dpo/beta_margin_grad_mean': -0.4759877324104309, 'beta_dpo/beta_margin_grad_std': 0.029918290674686432, 'epoch': 0.51}

 51%|███████████████████████████████████████▋                                      | 346/681 [21:48<14:10,  2.54s/it]
 51%|███████████████████████████████████████▋                                      | 347/681 [21:50<13:41,  2.46s/it]
                                                                                                                     
{'loss': 1.3105, 'grad_norm': 7.38579797744751, 'learning_rate': 2.8707927131383614e-07, 'beta_dpo/gap_mean': 100.19987487792969, 'beta_dpo/gap_std': 118.36697387695312, 'beta_dpo/beta_used_raw': -1.1044821739196777, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3721884787082672, 'logits/rejected': -0.3643941581249237, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 98.27653503417969, 'beta_dpo/beta_margin_mean': 0.0982765406370163, 'beta_dpo/beta_margin_std': 0.12459293752908707, 'beta_dpo/beta_margin_grad_mean': -0.47555938363075256, 'beta_dpo/beta_margin_grad_std': 0.030918261036276817, 'epoch': 0.51}

 51%|███████████████████████████████████████▋                                      | 347/681 [21:51<13:41,  2.46s/it]
 51%|███████████████████████████████████████▊                                      | 348/681 [21:53<13:36,  2.45s/it]
                                                                                                                     
{'loss': 1.652, 'grad_norm': 457.3243713378906, 'learning_rate': 2.858096518347179e-07, 'beta_dpo/gap_mean': 98.06617736816406, 'beta_dpo/gap_std': 117.04876708984375, 'beta_dpo/beta_used_raw': -0.1274842917919159, 'beta_dpo/beta_used': 0.11714650690555573, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4001210629940033, 'logits/rejected': -0.4025808572769165, 'beta_dpo/beta': 0.11714650690555573, 'beta_dpo/loss_margin_mean': 82.79788970947266, 'beta_dpo/beta_margin_mean': 12.065768241882324, 'beta_dpo/beta_margin_std': 22.209104537963867, 'beta_dpo/beta_margin_grad_mean': -0.3267797529697418, 'beta_dpo/beta_margin_grad_std': 0.28449147939682007, 'epoch': 0.51}

 51%|███████████████████████████████████████▊                                      | 348/681 [21:53<13:36,  2.45s/it]
 51%|███████████████████████████████████████▉                                      | 349/681 [21:56<13:46,  2.49s/it]
                                                                                                                     
{'loss': 1.3096, 'grad_norm': 7.413999080657959, 'learning_rate': 2.845390887379706e-07, 'beta_dpo/gap_mean': 95.7049331665039, 'beta_dpo/gap_std': 117.83291625976562, 'beta_dpo/beta_used_raw': -0.7904142737388611, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.354410856962204, 'logits/rejected': -0.34631115198135376, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 97.76747131347656, 'beta_dpo/beta_margin_mean': 0.09776747226715088, 'beta_dpo/beta_margin_std': 0.13501474261283875, 'beta_dpo/beta_margin_grad_mean': -0.47573983669281006, 'beta_dpo/beta_margin_grad_std': 0.03337588906288147, 'epoch': 0.51}

 51%|███████████████████████████████████████▉                                      | 349/681 [21:56<13:46,  2.49s/it]
 51%|████████████████████████████████████████                                      | 350/681 [21:58<13:58,  2.53s/it]
                                                                                                                     
{'loss': 1.6184, 'grad_norm': 363.3417663574219, 'learning_rate': 2.8326761550411346e-07, 'beta_dpo/gap_mean': 98.13190460205078, 'beta_dpo/gap_std': 121.19251251220703, 'beta_dpo/beta_used_raw': 0.18125556409358978, 'beta_dpo/beta_used': 0.3681584596633911, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39443519711494446, 'logits/rejected': -0.37324777245521545, 'beta_dpo/beta': 0.3681584596633911, 'beta_dpo/loss_margin_mean': 101.13141632080078, 'beta_dpo/beta_margin_mean': 44.03104782104492, 'beta_dpo/beta_margin_std': 82.63276672363281, 'beta_dpo/beta_margin_grad_mean': -0.2865951657295227, 'beta_dpo/beta_margin_grad_std': 0.2829616367816925, 'epoch': 0.51}

 51%|████████████████████████████████████████                                      | 350/681 [21:58<13:58,  2.53s/it]
 52%|████████████████████████████████████████▏                                     | 351/681 [22:01<14:02,  2.55s/it]
                                                                                                                     
{'loss': 1.3058, 'grad_norm': 6.668581008911133, 'learning_rate': 2.819952656376487e-07, 'beta_dpo/gap_mean': 101.26289367675781, 'beta_dpo/gap_std': 127.14557647705078, 'beta_dpo/beta_used_raw': -0.8729835748672485, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43974393606185913, 'logits/rejected': -0.4313165545463562, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 121.89144897460938, 'beta_dpo/beta_margin_mean': 0.12189145386219025, 'beta_dpo/beta_margin_std': 0.15585792064666748, 'beta_dpo/beta_margin_grad_mean': -0.46981188654899597, 'beta_dpo/beta_margin_grad_std': 0.038395486772060394, 'epoch': 0.52}

 52%|████████████████████████████████████████▏                                     | 351/681 [22:01<14:02,  2.55s/it]
 52%|████████████████████████████████████████▎                                     | 352/681 [22:03<14:03,  2.57s/it]
                                                                                                                     
{'loss': 1.3343, 'grad_norm': 6.023617267608643, 'learning_rate': 2.8072207266617854e-07, 'beta_dpo/gap_mean': 96.96006774902344, 'beta_dpo/gap_std': 127.05946350097656, 'beta_dpo/beta_used_raw': -2.4254016876220703, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4059138894081116, 'logits/rejected': -0.37293723225593567, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 61.68793487548828, 'beta_dpo/beta_margin_mean': 0.06168793886899948, 'beta_dpo/beta_margin_std': 0.12350940704345703, 'beta_dpo/beta_margin_grad_mean': -0.48466551303863525, 'beta_dpo/beta_margin_grad_std': 0.030659163370728493, 'epoch': 0.52}

 52%|████████████████████████████████████████▎                                     | 352/681 [22:03<14:03,  2.57s/it]
 52%|████████████████████████████████████████▍                                     | 353/681 [22:06<14:00,  2.56s/it]
                                                                                                                     
{'loss': 1.3195, 'grad_norm': 6.5913310050964355, 'learning_rate': 2.794480701395219e-07, 'beta_dpo/gap_mean': 95.6932373046875, 'beta_dpo/gap_std': 130.9846954345703, 'beta_dpo/beta_used_raw': -1.3700706958770752, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40948837995529175, 'logits/rejected': -0.39385730028152466, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 96.69725036621094, 'beta_dpo/beta_margin_mean': 0.09669725596904755, 'beta_dpo/beta_margin_std': 0.15294483304023743, 'beta_dpo/beta_margin_grad_mean': -0.47603118419647217, 'beta_dpo/beta_margin_grad_std': 0.037852540612220764, 'epoch': 0.52}

 52%|████████████████████████████████████████▍                                     | 353/681 [22:06<14:00,  2.56s/it]
 52%|████████████████████████████████████████▌                                     | 354/681 [22:09<14:09,  2.60s/it]
                                                                                                                     
{'loss': 1.3129, 'grad_norm': 5.958319664001465, 'learning_rate': 2.781732916288303e-07, 'beta_dpo/gap_mean': 95.46762084960938, 'beta_dpo/gap_std': 128.0501708984375, 'beta_dpo/beta_used_raw': -1.0040392875671387, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3586284816265106, 'logits/rejected': -0.34347254037857056, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 100.078369140625, 'beta_dpo/beta_margin_mean': 0.10007837414741516, 'beta_dpo/beta_margin_std': 0.10820183157920837, 'beta_dpo/beta_margin_grad_mean': -0.4750857651233673, 'beta_dpo/beta_margin_grad_std': 0.026884840801358223, 'epoch': 0.52}

 52%|████████████████████████████████████████▌                                     | 354/681 [22:09<14:09,  2.60s/it]
 52%|████████████████████████████████████████▋                                     | 355/681 [22:11<13:42,  2.52s/it]
                                                                                                                     
{'loss': 9.4138, 'grad_norm': 3436.352294921875, 'learning_rate': 2.7689777072570284e-07, 'beta_dpo/gap_mean': 98.98455810546875, 'beta_dpo/gap_std': 126.47689819335938, 'beta_dpo/beta_used_raw': 0.2829711437225342, 'beta_dpo/beta_used': 0.803097665309906, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4502210021018982, 'logits/rejected': -0.42753684520721436, 'beta_dpo/beta': 0.803097665309906, 'beta_dpo/loss_margin_mean': 113.99552917480469, 'beta_dpo/beta_margin_mean': 108.771484375, 'beta_dpo/beta_margin_std': 188.28627014160156, 'beta_dpo/beta_margin_grad_mean': -0.31661173701286316, 'beta_dpo/beta_margin_grad_std': 0.30314168334007263, 'epoch': 0.52}

 52%|████████████████████████████████████████▋                                     | 355/681 [22:11<13:42,  2.52s/it]
 52%|████████████████████████████████████████▊                                     | 356/681 [22:14<14:10,  2.62s/it]
                                                                                                                     
{'loss': 1.3335, 'grad_norm': 5.952792644500732, 'learning_rate': 2.7562154104130176e-07, 'beta_dpo/gap_mean': 92.14360046386719, 'beta_dpo/gap_std': 127.69420623779297, 'beta_dpo/beta_used_raw': -2.0601253509521484, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3653779625892639, 'logits/rejected': -0.3463535010814667, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 58.786895751953125, 'beta_dpo/beta_margin_mean': 0.05878689885139465, 'beta_dpo/beta_margin_std': 0.14823727309703827, 'beta_dpo/beta_margin_grad_mean': -0.48544058203697205, 'beta_dpo/beta_margin_grad_std': 0.03667362034320831, 'epoch': 0.52}

 52%|████████████████████████████████████████▊                                     | 356/681 [22:14<14:10,  2.62s/it]
 52%|████████████████████████████████████████▉                                     | 357/681 [22:17<14:26,  2.67s/it]
                                                                                                                     
{'loss': 1.3075, 'grad_norm': 5.877689361572266, 'learning_rate': 2.7434463620546594e-07, 'beta_dpo/gap_mean': 92.12881469726562, 'beta_dpo/gap_std': 128.6616973876953, 'beta_dpo/beta_used_raw': -0.46944957971572876, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39090579748153687, 'logits/rejected': -0.3792232275009155, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 92.58734893798828, 'beta_dpo/beta_margin_mean': 0.09258735179901123, 'beta_dpo/beta_margin_std': 0.12106671184301376, 'beta_dpo/beta_margin_grad_mean': -0.47698020935058594, 'beta_dpo/beta_margin_grad_std': 0.030018875375390053, 'epoch': 0.52}

 52%|████████████████████████████████████████▉                                     | 357/681 [22:17<14:26,  2.67s/it]
 53%|█████████████████████████████████████████                                     | 358/681 [22:19<14:41,  2.73s/it]
                                                                                                                     
{'loss': 1.3174, 'grad_norm': 5.643310070037842, 'learning_rate': 2.730670898658255e-07, 'beta_dpo/gap_mean': 91.1614990234375, 'beta_dpo/gap_std': 129.97589111328125, 'beta_dpo/beta_used_raw': -1.034654974937439, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40258651971817017, 'logits/rejected': -0.385714590549469, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 87.48451232910156, 'beta_dpo/beta_margin_mean': 0.08748451620340347, 'beta_dpo/beta_margin_std': 0.14093735814094543, 'beta_dpo/beta_margin_grad_mean': -0.4783032238483429, 'beta_dpo/beta_margin_grad_std': 0.03480137139558792, 'epoch': 0.53}

 53%|█████████████████████████████████████████                                     | 358/681 [22:19<14:41,  2.73s/it]
 53%|█████████████████████████████████████████                                     | 359/681 [22:22<14:36,  2.72s/it]
                                                                                                                     
{'loss': 1.5572, 'grad_norm': 417.1752624511719, 'learning_rate': 2.717889356869146e-07, 'beta_dpo/gap_mean': 94.33483123779297, 'beta_dpo/gap_std': 137.95599365234375, 'beta_dpo/beta_used_raw': -0.8927912712097168, 'beta_dpo/beta_used': 0.03269139304757118, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3224365711212158, 'logits/rejected': -0.2917293906211853, 'beta_dpo/beta': 0.03269139304757118, 'beta_dpo/loss_margin_mean': 116.4987564086914, 'beta_dpo/beta_margin_mean': 3.772794485092163, 'beta_dpo/beta_margin_std': 7.085198402404785, 'beta_dpo/beta_margin_grad_mean': -0.34401631355285645, 'beta_dpo/beta_margin_grad_std': 0.29530322551727295, 'epoch': 0.53}

 53%|█████████████████████████████████████████                                     | 359/681 [22:22<14:36,  2.72s/it]
 53%|█████████████████████████████████████████▏                                    | 360/681 [22:25<14:12,  2.66s/it]
                                                                                                                     
{'loss': 1.3215, 'grad_norm': 7.576156139373779, 'learning_rate': 2.7051020734928443e-07, 'beta_dpo/gap_mean': 93.76991271972656, 'beta_dpo/gap_std': 133.27197265625, 'beta_dpo/beta_used_raw': -1.4150499105453491, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33717477321624756, 'logits/rejected': -0.32376694679260254, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 83.61884307861328, 'beta_dpo/beta_margin_mean': 0.08361884206533432, 'beta_dpo/beta_margin_std': 0.10896874964237213, 'beta_dpo/beta_margin_grad_mean': -0.4791829586029053, 'beta_dpo/beta_margin_grad_std': 0.027085591107606888, 'epoch': 0.53}

 53%|█████████████████████████████████████████▏                                    | 360/681 [22:25<14:12,  2.66s/it]
 53%|█████████████████████████████████████████▎                                    | 361/681 [22:27<14:17,  2.68s/it]
                                                                                                                     
{'loss': 1.3155, 'grad_norm': 9.286351203918457, 'learning_rate': 2.6923093854861593e-07, 'beta_dpo/gap_mean': 92.4726333618164, 'beta_dpo/gap_std': 133.42208862304688, 'beta_dpo/beta_used_raw': -0.9473916888237, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3260883092880249, 'logits/rejected': -0.3336498737335205, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 90.1120834350586, 'beta_dpo/beta_margin_mean': 0.09011209011077881, 'beta_dpo/beta_margin_std': 0.13601025938987732, 'beta_dpo/beta_margin_grad_mean': -0.477610319852829, 'beta_dpo/beta_margin_grad_std': 0.03370558097958565, 'epoch': 0.53}

 53%|█████████████████████████████████████████▎                                    | 361/681 [22:27<14:17,  2.68s/it]
 53%|█████████████████████████████████████████▍                                    | 362/681 [22:30<13:38,  2.57s/it]
                                                                                                                     
{'loss': 4.7128, 'grad_norm': 3908.80322265625, 'learning_rate': 2.679511629948319e-07, 'beta_dpo/gap_mean': 101.06622314453125, 'beta_dpo/gap_std': 136.33203125, 'beta_dpo/beta_used_raw': 1.0895951986312866, 'beta_dpo/beta_used': 1.6271191835403442, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3415091633796692, 'logits/rejected': -0.3479331135749817, 'beta_dpo/beta': 1.6271191835403442, 'beta_dpo/loss_margin_mean': 147.14773559570312, 'beta_dpo/beta_margin_mean': 257.64166259765625, 'beta_dpo/beta_margin_std': 433.18182373046875, 'beta_dpo/beta_margin_grad_mean': -0.2851690351963043, 'beta_dpo/beta_margin_grad_std': 0.2767854332923889, 'epoch': 0.53}

 53%|█████████████████████████████████████████▍                                    | 362/681 [22:30<13:38,  2.57s/it]
 53%|█████████████████████████████████████████▌                                    | 363/681 [22:32<13:08,  2.48s/it]
                                                                                                                     
{'loss': 5.4489, 'grad_norm': 2845.82421875, 'learning_rate': 2.6667091441120816e-07, 'beta_dpo/gap_mean': 108.2145004272461, 'beta_dpo/gap_std': 139.0877227783203, 'beta_dpo/beta_used_raw': 0.030955523252487183, 'beta_dpo/beta_used': 0.48806485533714294, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3030551075935364, 'logits/rejected': -0.288122296333313, 'beta_dpo/beta': 0.48806485533714294, 'beta_dpo/loss_margin_mean': 144.82916259765625, 'beta_dpo/beta_margin_mean': 78.98721313476562, 'beta_dpo/beta_margin_std': 153.0666961669922, 'beta_dpo/beta_margin_grad_mean': -0.3278650641441345, 'beta_dpo/beta_margin_grad_std': 0.3104459047317505, 'epoch': 0.53}

 53%|█████████████████████████████████████████▌                                    | 363/681 [22:32<13:08,  2.48s/it]
 53%|█████████████████████████████████████████▋                                    | 364/681 [22:35<13:19,  2.52s/it]
                                                                                                                     
{'loss': 1.3205, 'grad_norm': 6.039409160614014, 'learning_rate': 2.6539022653348575e-07, 'beta_dpo/gap_mean': 107.01531982421875, 'beta_dpo/gap_std': 143.16229248046875, 'beta_dpo/beta_used_raw': -2.154345989227295, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3785761594772339, 'logits/rejected': -0.3902500867843628, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 90.85896301269531, 'beta_dpo/beta_margin_mean': 0.09085896611213684, 'beta_dpo/beta_margin_std': 0.1515338271856308, 'beta_dpo/beta_margin_grad_mean': -0.4774971008300781, 'beta_dpo/beta_margin_grad_std': 0.03736840933561325, 'epoch': 0.53}

 53%|█████████████████████████████████████████▋                                    | 364/681 [22:35<13:19,  2.52s/it]
 54%|█████████████████████████████████████████▊                                    | 365/681 [22:37<13:27,  2.56s/it]
                                                                                                                     
{'loss': 1.3158, 'grad_norm': 6.869436264038086, 'learning_rate': 2.641091331089811e-07, 'beta_dpo/gap_mean': 108.13379669189453, 'beta_dpo/gap_std': 142.005859375, 'beta_dpo/beta_used_raw': -1.951167106628418, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3123311996459961, 'logits/rejected': -0.32426539063453674, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 113.32341003417969, 'beta_dpo/beta_margin_mean': 0.11332341283559799, 'beta_dpo/beta_margin_std': 0.14188429713249207, 'beta_dpo/beta_margin_grad_mean': -0.47192299365997314, 'beta_dpo/beta_margin_grad_std': 0.03479469195008278, 'epoch': 0.54}

 54%|█████████████████████████████████████████▊                                    | 365/681 [22:37<13:27,  2.56s/it]
 54%|█████████████████████████████████████████▉                                    | 366/681 [22:40<13:29,  2.57s/it]
                                                                                                                     
{'loss': 4.1092, 'grad_norm': 2276.9384765625, 'learning_rate': 2.6282766789569736e-07, 'beta_dpo/gap_mean': 110.02189636230469, 'beta_dpo/gap_std': 146.34872436523438, 'beta_dpo/beta_used_raw': -0.3282930850982666, 'beta_dpo/beta_used': 0.5055487155914307, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2959885001182556, 'logits/rejected': -0.31161656975746155, 'beta_dpo/beta': 0.5055487155914307, 'beta_dpo/loss_margin_mean': 110.3228759765625, 'beta_dpo/beta_margin_mean': 68.90055084228516, 'beta_dpo/beta_margin_std': 133.3690948486328, 'beta_dpo/beta_margin_grad_mean': -0.31768321990966797, 'beta_dpo/beta_margin_grad_std': 0.30457475781440735, 'epoch': 0.54}

 54%|█████████████████████████████████████████▉                                    | 366/681 [22:40<13:29,  2.57s/it]
 54%|██████████████████████████████████████████                                    | 367/681 [22:43<13:44,  2.63s/it]
                                                                                                                     
{'loss': 1.9352, 'grad_norm': 524.9410400390625, 'learning_rate': 2.615458646614349e-07, 'beta_dpo/gap_mean': 106.54058837890625, 'beta_dpo/gap_std': 143.6832275390625, 'beta_dpo/beta_used_raw': -0.25230592489242554, 'beta_dpo/beta_used': 0.1259302943944931, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37701088190078735, 'logits/rejected': -0.35184770822525024, 'beta_dpo/beta': 0.1259302943944931, 'beta_dpo/loss_margin_mean': 93.8835220336914, 'beta_dpo/beta_margin_mean': 11.867181777954102, 'beta_dpo/beta_margin_std': 23.115652084350586, 'beta_dpo/beta_margin_grad_mean': -0.3177259862422943, 'beta_dpo/beta_margin_grad_std': 0.2994624972343445, 'epoch': 0.54}

 54%|██████████████████████████████████████████                                    | 367/681 [22:43<13:44,  2.63s/it]
 54%|██████████████████████████████████████████▏                                   | 368/681 [22:45<13:50,  2.65s/it]
                                                                                                                     
{'loss': 1.3764, 'grad_norm': 3995.7197265625, 'learning_rate': 2.6026375718290083e-07, 'beta_dpo/gap_mean': 109.11013793945312, 'beta_dpo/gap_std': 139.04080200195312, 'beta_dpo/beta_used_raw': 0.9328745603561401, 'beta_dpo/beta_used': 0.9328745603561401, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38272589445114136, 'logits/rejected': -0.38491058349609375, 'beta_dpo/beta': 0.9328745603561401, 'beta_dpo/loss_margin_mean': 132.6707000732422, 'beta_dpo/beta_margin_mean': 133.5645751953125, 'beta_dpo/beta_margin_std': 201.60333251953125, 'beta_dpo/beta_margin_grad_mean': -0.09676685929298401, 'beta_dpo/beta_margin_grad_std': 0.2863916754722595, 'epoch': 0.54}

 54%|██████████████████████████████████████████▏                                   | 368/681 [22:45<13:50,  2.65s/it]
 54%|██████████████████████████████████████████▎                                   | 369/681 [22:48<14:03,  2.70s/it]
                                                                                                                     
{'loss': 1.2417, 'grad_norm': 338.8497619628906, 'learning_rate': 2.589813792448196e-07, 'beta_dpo/gap_mean': 105.86335754394531, 'beta_dpo/gap_std': 138.92889404296875, 'beta_dpo/beta_used_raw': -1.1680105924606323, 'beta_dpo/beta_used': 0.09317570924758911, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40276187658309937, 'logits/rejected': -0.3842419385910034, 'beta_dpo/beta': 0.09317570924758911, 'beta_dpo/loss_margin_mean': 81.47874450683594, 'beta_dpo/beta_margin_mean': 9.50542163848877, 'beta_dpo/beta_margin_std': 21.700239181518555, 'beta_dpo/beta_margin_grad_mean': -0.3334360122680664, 'beta_dpo/beta_margin_grad_std': 0.29883116483688354, 'epoch': 0.54}

 54%|██████████████████████████████████████████▎                                   | 369/681 [22:48<14:03,  2.70s/it]
 54%|██████████████████████████████████████████▍                                   | 370/681 [22:51<14:14,  2.75s/it]
                                                                                                                     
{'loss': 5.0036, 'grad_norm': 2646.7197265625, 'learning_rate': 2.5769876463904263e-07, 'beta_dpo/gap_mean': 100.1129150390625, 'beta_dpo/gap_std': 139.25335693359375, 'beta_dpo/beta_used_raw': -0.5632827281951904, 'beta_dpo/beta_used': 0.32751452922821045, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39602580666542053, 'logits/rejected': -0.39256715774536133, 'beta_dpo/beta': 0.32751452922821045, 'beta_dpo/loss_margin_mean': 70.3260726928711, 'beta_dpo/beta_margin_mean': 26.184959411621094, 'beta_dpo/beta_margin_std': 58.59195327758789, 'beta_dpo/beta_margin_grad_mean': -0.33634528517723083, 'beta_dpo/beta_margin_grad_std': 0.31442970037460327, 'epoch': 0.54}

 54%|██████████████████████████████████████████▍                                   | 370/681 [22:51<14:14,  2.75s/it]
 54%|██████████████████████████████████████████▍                                   | 371/681 [22:54<14:20,  2.78s/it]
                                                                                                                     
{'loss': 4.2713, 'grad_norm': 1841.630859375, 'learning_rate': 2.5641594716365744e-07, 'beta_dpo/gap_mean': 97.70218658447266, 'beta_dpo/gap_std': 137.7125244140625, 'beta_dpo/beta_used_raw': -0.1922587752342224, 'beta_dpo/beta_used': 0.26400327682495117, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4191368520259857, 'logits/rejected': -0.4073137044906616, 'beta_dpo/beta': 0.26400327682495117, 'beta_dpo/loss_margin_mean': 91.76586151123047, 'beta_dpo/beta_margin_mean': 22.5057430267334, 'beta_dpo/beta_margin_std': 54.71674346923828, 'beta_dpo/beta_margin_grad_mean': -0.3500906229019165, 'beta_dpo/beta_margin_grad_std': 0.31608888506889343, 'epoch': 0.54}

 54%|██████████████████████████████████████████▍                                   | 371/681 [22:54<14:20,  2.78s/it]
 55%|██████████████████████████████████████████▌                                   | 372/681 [22:56<13:35,  2.64s/it]
                                                                                                                     
{'loss': 5.4678, 'grad_norm': 2330.501953125, 'learning_rate': 2.551329606220976e-07, 'beta_dpo/gap_mean': 98.745849609375, 'beta_dpo/gap_std': 137.76092529296875, 'beta_dpo/beta_used_raw': 0.2250063121318817, 'beta_dpo/beta_used': 0.29865550994873047, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4094877243041992, 'logits/rejected': -0.3760242462158203, 'beta_dpo/beta': 0.29865550994873047, 'beta_dpo/loss_margin_mean': 105.9774398803711, 'beta_dpo/beta_margin_mean': 30.436782836914062, 'beta_dpo/beta_margin_std': 65.03998565673828, 'beta_dpo/beta_margin_grad_mean': -0.34942829608917236, 'beta_dpo/beta_margin_grad_std': 0.3169166147708893, 'epoch': 0.55}

 55%|██████████████████████████████████████████▌                                   | 372/681 [22:56<13:35,  2.64s/it]
 55%|██████████████████████████████████████████▋                                   | 373/681 [22:59<13:17,  2.59s/it]
                                                                                                                     
{'loss': 3.7343, 'grad_norm': 2668.42236328125, 'learning_rate': 2.538498388222517e-07, 'beta_dpo/gap_mean': 98.81103515625, 'beta_dpo/gap_std': 134.30552673339844, 'beta_dpo/beta_used_raw': -0.7580370903015137, 'beta_dpo/beta_used': 0.4515746831893921, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4020259380340576, 'logits/rejected': -0.3562648296356201, 'beta_dpo/beta': 0.4515746831893921, 'beta_dpo/loss_margin_mean': 103.87548828125, 'beta_dpo/beta_margin_mean': 58.79832077026367, 'beta_dpo/beta_margin_std': 84.47066497802734, 'beta_dpo/beta_margin_grad_mean': -0.27207887172698975, 'beta_dpo/beta_margin_grad_std': 0.2706195116043091, 'epoch': 0.55}

 55%|██████████████████████████████████████████▋                                   | 373/681 [22:59<13:17,  2.59s/it]
 55%|██████████████████████████████████████████▊                                   | 374/681 [23:01<13:28,  2.63s/it]
                                                                                                                     
{'loss': 1.319, 'grad_norm': 25.06356430053711, 'learning_rate': 2.525666155755725e-07, 'beta_dpo/gap_mean': 98.51296997070312, 'beta_dpo/gap_std': 129.830322265625, 'beta_dpo/beta_used_raw': -1.5819969177246094, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.5303980112075806, 'logits/rejected': -0.5011695027351379, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 83.52459716796875, 'beta_dpo/beta_margin_mean': 0.08352459967136383, 'beta_dpo/beta_margin_std': 0.1111961379647255, 'beta_dpo/beta_margin_grad_mean': -0.4792296886444092, 'beta_dpo/beta_margin_grad_std': 0.0275330301374197, 'epoch': 0.55}

 55%|██████████████████████████████████████████▊                                   | 374/681 [23:01<13:28,  2.63s/it]
 55%|██████████████████████████████████████████▉                                   | 375/681 [23:04<13:25,  2.63s/it]
                                                                                                                     
{'loss': 1.3091, 'grad_norm': 33.27694320678711, 'learning_rate': 2.512833246961859e-07, 'beta_dpo/gap_mean': 95.07070922851562, 'beta_dpo/gap_std': 124.96221923828125, 'beta_dpo/beta_used_raw': -0.7749541997909546, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46519535779953003, 'logits/rejected': -0.4570329785346985, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 76.89561462402344, 'beta_dpo/beta_margin_mean': 0.07689561694860458, 'beta_dpo/beta_margin_std': 0.10439448803663254, 'beta_dpo/beta_margin_grad_mean': -0.48084428906440735, 'beta_dpo/beta_margin_grad_std': 0.025963004678487778, 'epoch': 0.55}

 55%|██████████████████████████████████████████▉                                   | 375/681 [23:04<13:25,  2.63s/it]
 55%|███████████████████████████████████████████                                   | 376/681 [23:07<13:29,  2.65s/it]
                                                                                                                     
{'loss': 2.4697, 'grad_norm': 1583.425048828125, 'learning_rate': 2.5e-07, 'beta_dpo/gap_mean': 94.86084747314453, 'beta_dpo/gap_std': 124.55882263183594, 'beta_dpo/beta_used_raw': -0.6300212144851685, 'beta_dpo/beta_used': 0.16056698560714722, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4400368332862854, 'logits/rejected': -0.42413341999053955, 'beta_dpo/beta': 0.16056698560714722, 'beta_dpo/loss_margin_mean': 106.193359375, 'beta_dpo/beta_margin_mean': 17.529916763305664, 'beta_dpo/beta_margin_std': 32.734588623046875, 'beta_dpo/beta_margin_grad_mean': -0.3113880455493927, 'beta_dpo/beta_margin_grad_std': 0.28589603304862976, 'epoch': 0.55}

 55%|███████████████████████████████████████████                                   | 376/681 [23:07<13:29,  2.65s/it]
 55%|███████████████████████████████████████████▏                                  | 377/681 [23:09<13:10,  2.60s/it]
                                                                                                                     
{'loss': 1.7143, 'grad_norm': 474.910400390625, 'learning_rate': 2.487166753038141e-07, 'beta_dpo/gap_mean': 94.40826416015625, 'beta_dpo/gap_std': 123.61512756347656, 'beta_dpo/beta_used_raw': -0.9513387680053711, 'beta_dpo/beta_used': 0.12274540960788727, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.43538355827331543, 'logits/rejected': -0.43877607583999634, 'beta_dpo/beta': 0.12274540960788727, 'beta_dpo/loss_margin_mean': 91.47625732421875, 'beta_dpo/beta_margin_mean': 12.869964599609375, 'beta_dpo/beta_margin_std': 25.119873046875, 'beta_dpo/beta_margin_grad_mean': -0.3400813341140747, 'beta_dpo/beta_margin_grad_std': 0.3001156449317932, 'epoch': 0.55}

 55%|███████████████████████████████████████████▏                                  | 377/681 [23:09<13:10,  2.60s/it]
 56%|███████████████████████████████████████████▎                                  | 378/681 [23:11<12:26,  2.46s/it]
                                                                                                                     
{'loss': 1.2075, 'grad_norm': 206.10948181152344, 'learning_rate': 2.4743338442442754e-07, 'beta_dpo/gap_mean': 96.25257873535156, 'beta_dpo/gap_std': 121.488525390625, 'beta_dpo/beta_used_raw': -0.05297088995575905, 'beta_dpo/beta_used': 0.055305834859609604, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.453810453414917, 'logits/rejected': -0.45135384798049927, 'beta_dpo/beta': 0.055305834859609604, 'beta_dpo/loss_margin_mean': 101.7795639038086, 'beta_dpo/beta_margin_mean': 5.2662177085876465, 'beta_dpo/beta_margin_std': 8.644315719604492, 'beta_dpo/beta_margin_grad_mean': -0.33113202452659607, 'beta_dpo/beta_margin_grad_std': 0.2857387065887451, 'epoch': 0.56}

 56%|███████████████████████████████████████████▎                                  | 378/681 [23:11<12:26,  2.46s/it]
 56%|███████████████████████████████████████████▍                                  | 379/681 [23:14<12:24,  2.47s/it]
                                                                                                                     
{'loss': 1.3086, 'grad_norm': 7.842655658721924, 'learning_rate': 2.461501611777483e-07, 'beta_dpo/gap_mean': 98.50502014160156, 'beta_dpo/gap_std': 122.33307647705078, 'beta_dpo/beta_used_raw': -0.923268735408783, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40998560190200806, 'logits/rejected': -0.43568363785743713, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 104.080322265625, 'beta_dpo/beta_margin_mean': 0.10408032685518265, 'beta_dpo/beta_margin_std': 0.13608884811401367, 'beta_dpo/beta_margin_grad_mean': -0.47414979338645935, 'beta_dpo/beta_margin_grad_std': 0.03370606154203415, 'epoch': 0.56}

 56%|███████████████████████████████████████████▍                                  | 379/681 [23:14<12:24,  2.47s/it]
 56%|███████████████████████████████████████████▌                                  | 380/681 [23:16<12:08,  2.42s/it]
                                                                                                                     
{'loss': 3.929, 'grad_norm': 1847.671142578125, 'learning_rate': 2.4486703937790243e-07, 'beta_dpo/gap_mean': 99.70042419433594, 'beta_dpo/gap_std': 122.06121063232422, 'beta_dpo/beta_used_raw': 0.49257999658584595, 'beta_dpo/beta_used': 0.49257999658584595, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4073488712310791, 'logits/rejected': -0.4285936951637268, 'beta_dpo/beta': 0.49257999658584595, 'beta_dpo/loss_margin_mean': 114.565673828125, 'beta_dpo/beta_margin_mean': 55.05702590942383, 'beta_dpo/beta_margin_std': 68.4500732421875, 'beta_dpo/beta_margin_grad_mean': -0.1504988819360733, 'beta_dpo/beta_margin_grad_std': 0.34962981939315796, 'epoch': 0.56}

 56%|███████████████████████████████████████████▌                                  | 380/681 [23:16<12:08,  2.42s/it]
 56%|███████████████████████████████████████████▋                                  | 381/681 [23:19<12:28,  2.50s/it]
                                                                                                                     
{'loss': 1.3176, 'grad_norm': 7.046865463256836, 'learning_rate': 2.435840528363426e-07, 'beta_dpo/gap_mean': 99.50776672363281, 'beta_dpo/gap_std': 124.66862487792969, 'beta_dpo/beta_used_raw': -1.517669916152954, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.44461020827293396, 'logits/rejected': -0.42805731296539307, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.09545135498047, 'beta_dpo/beta_margin_mean': 0.08609545230865479, 'beta_dpo/beta_margin_std': 0.13360077142715454, 'beta_dpo/beta_margin_grad_mean': -0.4786049425601959, 'beta_dpo/beta_margin_grad_std': 0.033149346709251404, 'epoch': 0.56}

 56%|███████████████████████████████████████████▋                                  | 381/681 [23:19<12:28,  2.50s/it]
 56%|███████████████████████████████████████████▊                                  | 382/681 [23:21<12:48,  2.57s/it]
                                                                                                                     
{'loss': 1.3066, 'grad_norm': 7.702118873596191, 'learning_rate': 2.4230123536095745e-07, 'beta_dpo/gap_mean': 98.30332946777344, 'beta_dpo/gap_std': 123.63853454589844, 'beta_dpo/beta_used_raw': -0.7904385328292847, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.482845664024353, 'logits/rejected': -0.47936874628067017, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 98.48768615722656, 'beta_dpo/beta_margin_mean': 0.09848769009113312, 'beta_dpo/beta_margin_std': 0.10959197580814362, 'beta_dpo/beta_margin_grad_mean': -0.4754858613014221, 'beta_dpo/beta_margin_grad_std': 0.0272133257240057, 'epoch': 0.56}

 56%|███████████████████████████████████████████▊                                  | 382/681 [23:22<12:48,  2.57s/it]
 56%|███████████████████████████████████████████▊                                  | 383/681 [23:24<13:04,  2.63s/it]
                                                                                                                     
{'loss': 1.3082, 'grad_norm': 7.877129077911377, 'learning_rate': 2.4101862075518037e-07, 'beta_dpo/gap_mean': 99.17279815673828, 'beta_dpo/gap_std': 122.20887756347656, 'beta_dpo/beta_used_raw': -0.9441766142845154, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4365376830101013, 'logits/rejected': -0.4394179880619049, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 101.19039154052734, 'beta_dpo/beta_margin_mean': 0.10119039565324783, 'beta_dpo/beta_margin_std': 0.1272357702255249, 'beta_dpo/beta_margin_grad_mean': -0.47483423352241516, 'beta_dpo/beta_margin_grad_std': 0.031567756086587906, 'epoch': 0.56}

 56%|███████████████████████████████████████████▊                                  | 383/681 [23:24<13:04,  2.63s/it]
 56%|███████████████████████████████████████████▉                                  | 384/681 [23:27<12:56,  2.61s/it]
                                                                                                                     
{'loss': 1.3064, 'grad_norm': 6.691796779632568, 'learning_rate': 2.397362428170992e-07, 'beta_dpo/gap_mean': 96.98212432861328, 'beta_dpo/gap_std': 120.21687316894531, 'beta_dpo/beta_used_raw': -0.6997740268707275, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4357266128063202, 'logits/rejected': -0.4359877407550812, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 91.37213897705078, 'beta_dpo/beta_margin_mean': 0.09137213975191116, 'beta_dpo/beta_margin_std': 0.10625956207513809, 'beta_dpo/beta_margin_grad_mean': -0.4772571325302124, 'beta_dpo/beta_margin_grad_std': 0.026376277208328247, 'epoch': 0.56}

 56%|███████████████████████████████████████████▉                                  | 384/681 [23:27<12:56,  2.61s/it]
 57%|████████████████████████████████████████████                                  | 385/681 [23:29<12:43,  2.58s/it]
                                                                                                                     
{'loss': 1.3072, 'grad_norm': 6.454415798187256, 'learning_rate': 2.3845413533856514e-07, 'beta_dpo/gap_mean': 95.1080322265625, 'beta_dpo/gap_std': 117.16928100585938, 'beta_dpo/beta_used_raw': -0.6672598123550415, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4430091381072998, 'logits/rejected': -0.406819224357605, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.40987396240234, 'beta_dpo/beta_margin_mean': 0.08640988171100616, 'beta_dpo/beta_margin_std': 0.09507441520690918, 'beta_dpo/beta_margin_grad_mean': -0.4784564971923828, 'beta_dpo/beta_margin_grad_std': 0.023655114695429802, 'epoch': 0.57}

 57%|████████████████████████████████████████████                                  | 385/681 [23:29<12:43,  2.58s/it]
 57%|████████████████████████████████████████████▏                                 | 386/681 [23:32<12:40,  2.58s/it]
                                                                                                                     
{'loss': 2.1028, 'grad_norm': 1257.6240234375, 'learning_rate': 2.3717233210430254e-07, 'beta_dpo/gap_mean': 95.47817993164062, 'beta_dpo/gap_std': 116.49141693115234, 'beta_dpo/beta_used_raw': -0.22976088523864746, 'beta_dpo/beta_used': 0.3350660502910614, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40499740839004517, 'logits/rejected': -0.3944457769393921, 'beta_dpo/beta': 0.3350660502910614, 'beta_dpo/loss_margin_mean': 104.02435302734375, 'beta_dpo/beta_margin_mean': 41.42173385620117, 'beta_dpo/beta_margin_std': 72.62975311279297, 'beta_dpo/beta_margin_grad_mean': -0.30638933181762695, 'beta_dpo/beta_margin_grad_std': 0.2916352152824402, 'epoch': 0.57}

 57%|████████████████████████████████████████████▏                                 | 386/681 [23:32<12:40,  2.58s/it]
 57%|████████████████████████████████████████████▎                                 | 387/681 [23:34<12:38,  2.58s/it]
                                                                                                                     
{'loss': 0.9943, 'grad_norm': 153.96595764160156, 'learning_rate': 2.3589086689101889e-07, 'beta_dpo/gap_mean': 96.32708740234375, 'beta_dpo/gap_std': 116.07279968261719, 'beta_dpo/beta_used_raw': -0.41031795740127563, 'beta_dpo/beta_used': 0.04211033880710602, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46131113171577454, 'logits/rejected': -0.4227498173713684, 'beta_dpo/beta': 0.04211033880710602, 'beta_dpo/loss_margin_mean': 86.49880981445312, 'beta_dpo/beta_margin_mean': 2.8369340896606445, 'beta_dpo/beta_margin_std': 6.981544017791748, 'beta_dpo/beta_margin_grad_mean': -0.362678587436676, 'beta_dpo/beta_margin_grad_std': 0.2757696211338043, 'epoch': 0.57}

 57%|████████████████████████████████████████████▎                                 | 387/681 [23:35<12:38,  2.58s/it]
 57%|████████████████████████████████████████████▍                                 | 388/681 [23:37<12:14,  2.51s/it]
                                                                                                                     
{'loss': 2.9347, 'grad_norm': 1019.3936767578125, 'learning_rate': 2.3460977346651428e-07, 'beta_dpo/gap_mean': 99.73340606689453, 'beta_dpo/gap_std': 122.03709411621094, 'beta_dpo/beta_used_raw': 0.2852635979652405, 'beta_dpo/beta_used': 0.2852635979652405, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34111300110816956, 'logits/rejected': -0.35984545946121216, 'beta_dpo/beta': 0.2852635979652405, 'beta_dpo/loss_margin_mean': 126.48102569580078, 'beta_dpo/beta_margin_mean': 35.86345291137695, 'beta_dpo/beta_margin_std': 41.991371154785156, 'beta_dpo/beta_margin_grad_mean': -0.1428508460521698, 'beta_dpo/beta_margin_grad_std': 0.3305058777332306, 'epoch': 0.57}

 57%|████████████████████████████████████████████▍                                 | 388/681 [23:37<12:14,  2.51s/it]
 57%|████████████████████████████████████████████▌                                 | 389/681 [23:39<12:06,  2.49s/it]
                                                                                                                     
{'loss': 1.299, 'grad_norm': 7.796079158782959, 'learning_rate': 2.3332908558879177e-07, 'beta_dpo/gap_mean': 101.11051177978516, 'beta_dpo/gap_std': 122.17589569091797, 'beta_dpo/beta_used_raw': -0.477594792842865, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3674032688140869, 'logits/rejected': -0.33893561363220215, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 102.70687103271484, 'beta_dpo/beta_margin_mean': 0.10270687937736511, 'beta_dpo/beta_margin_std': 0.1187412440776825, 'beta_dpo/beta_margin_grad_mean': -0.4744521677494049, 'beta_dpo/beta_margin_grad_std': 0.029463116079568863, 'epoch': 0.57}

 57%|████████████████████████████████████████████▌                                 | 389/681 [23:39<12:06,  2.49s/it]
 57%|████████████████████████████████████████████▋                                 | 390/681 [23:42<12:06,  2.50s/it]
                                                                                                                     
{'loss': 5.2234, 'grad_norm': 6808.29296875, 'learning_rate': 2.320488370051681e-07, 'beta_dpo/gap_mean': 100.94984436035156, 'beta_dpo/gap_std': 128.69989013671875, 'beta_dpo/beta_used_raw': 0.6466106176376343, 'beta_dpo/beta_used': 0.9373176097869873, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38758012652397156, 'logits/rejected': -0.3825533986091614, 'beta_dpo/beta': 0.9373176097869873, 'beta_dpo/loss_margin_mean': 96.0970687866211, 'beta_dpo/beta_margin_mean': 102.44970703125, 'beta_dpo/beta_margin_std': 286.3146667480469, 'beta_dpo/beta_margin_grad_mean': -0.3490453064441681, 'beta_dpo/beta_margin_grad_std': 0.32049307227134705, 'epoch': 0.57}

 57%|████████████████████████████████████████████▋                                 | 390/681 [23:42<12:06,  2.50s/it]
 57%|████████████████████████████████████████████▊                                 | 391/681 [23:44<12:02,  2.49s/it]
                                                                                                                     
{'loss': 1.3264, 'grad_norm': 7.870649814605713, 'learning_rate': 2.3076906145138405e-07, 'beta_dpo/gap_mean': 95.19480895996094, 'beta_dpo/gap_std': 125.16159057617188, 'beta_dpo/beta_used_raw': -1.8503118753433228, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4045184850692749, 'logits/rejected': -0.40096336603164673, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 70.15617370605469, 'beta_dpo/beta_margin_mean': 0.07015617936849594, 'beta_dpo/beta_margin_std': 0.1320018768310547, 'beta_dpo/beta_margin_grad_mean': -0.4825769364833832, 'beta_dpo/beta_margin_grad_std': 0.032539550215005875, 'epoch': 0.57}

 57%|████████████████████████████████████████████▊                                 | 391/681 [23:44<12:02,  2.49s/it]
 58%|████████████████████████████████████████████▉                                 | 392/681 [23:47<12:14,  2.54s/it]
                                                                                                                     
{'loss': 1.3047, 'grad_norm': 7.0149126052856445, 'learning_rate': 2.294897926507156e-07, 'beta_dpo/gap_mean': 96.84786987304688, 'beta_dpo/gap_std': 127.46624755859375, 'beta_dpo/beta_used_raw': -0.6004123687744141, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4069562554359436, 'logits/rejected': -0.4070258140563965, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 117.58483123779297, 'beta_dpo/beta_margin_mean': 0.11758483201265335, 'beta_dpo/beta_margin_std': 0.13041386008262634, 'beta_dpo/beta_margin_grad_mean': -0.4708142578601837, 'beta_dpo/beta_margin_grad_std': 0.03216283768415451, 'epoch': 0.58}

 58%|████████████████████████████████████████████▉                                 | 392/681 [23:47<12:14,  2.54s/it]
 58%|█████████████████████████████████████████████                                 | 393/681 [23:49<12:00,  2.50s/it]
                                                                                                                     
{'loss': 1.3203, 'grad_norm': 5.620955944061279, 'learning_rate': 2.2821106431308543e-07, 'beta_dpo/gap_mean': 97.63465881347656, 'beta_dpo/gap_std': 131.28060913085938, 'beta_dpo/beta_used_raw': -1.5364588499069214, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.36222386360168457, 'logits/rejected': -0.35495465993881226, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 87.04754638671875, 'beta_dpo/beta_margin_mean': 0.08704755455255508, 'beta_dpo/beta_margin_std': 0.1434432864189148, 'beta_dpo/beta_margin_grad_mean': -0.47842276096343994, 'beta_dpo/beta_margin_grad_std': 0.035466983914375305, 'epoch': 0.58}

 58%|█████████████████████████████████████████████                                 | 393/681 [23:49<12:00,  2.50s/it]
 58%|█████████████████████████████████████████████▏                                | 394/681 [23:52<12:12,  2.55s/it]
                                                                                                                     
{'loss': 1.311, 'grad_norm': 6.00560998916626, 'learning_rate': 2.2693291013417452e-07, 'beta_dpo/gap_mean': 98.78483581542969, 'beta_dpo/gap_std': 134.528564453125, 'beta_dpo/beta_used_raw': -1.0046627521514893, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38290512561798096, 'logits/rejected': -0.37921932339668274, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 110.56187438964844, 'beta_dpo/beta_margin_mean': 0.11056187748908997, 'beta_dpo/beta_margin_std': 0.1556539684534073, 'beta_dpo/beta_margin_grad_mean': -0.47261518239974976, 'beta_dpo/beta_margin_grad_std': 0.03843296319246292, 'epoch': 0.58}

 58%|█████████████████████████████████████████████▏                                | 394/681 [23:52<12:12,  2.55s/it]
 58%|█████████████████████████████████████████████▏                                | 395/681 [23:55<12:21,  2.59s/it]
                                                                                                                     
{'loss': 4.0929, 'grad_norm': 1960.75048828125, 'learning_rate': 2.2565536379453404e-07, 'beta_dpo/gap_mean': 101.26589965820312, 'beta_dpo/gap_std': 135.43722534179688, 'beta_dpo/beta_used_raw': -0.2869706153869629, 'beta_dpo/beta_used': 0.2388431876897812, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.41427770256996155, 'logits/rejected': -0.4001610577106476, 'beta_dpo/beta': 0.2388431876897812, 'beta_dpo/loss_margin_mean': 112.6613540649414, 'beta_dpo/beta_margin_mean': 26.790372848510742, 'beta_dpo/beta_margin_std': 53.6635856628418, 'beta_dpo/beta_margin_grad_mean': -0.36290186643600464, 'beta_dpo/beta_margin_grad_std': 0.3192496597766876, 'epoch': 0.58}

 58%|█████████████████████████████████████████████▏                                | 395/681 [23:55<12:21,  2.59s/it]
 58%|█████████████████████████████████████████████▎                                | 396/681 [23:57<12:24,  2.61s/it]
                                                                                                                     
{'loss': 0.7611, 'grad_norm': 261.0092468261719, 'learning_rate': 2.2437845895869825e-07, 'beta_dpo/gap_mean': 100.85454559326172, 'beta_dpo/gap_std': 133.6050262451172, 'beta_dpo/beta_used_raw': -0.8138464689254761, 'beta_dpo/beta_used': 0.04714573919773102, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.45682457089424133, 'logits/rejected': -0.4294641613960266, 'beta_dpo/beta': 0.04714573919773102, 'beta_dpo/loss_margin_mean': 92.83641815185547, 'beta_dpo/beta_margin_mean': 4.048221588134766, 'beta_dpo/beta_margin_std': 9.408126831054688, 'beta_dpo/beta_margin_grad_mean': -0.32316020131111145, 'beta_dpo/beta_margin_grad_std': 0.29187336564064026, 'epoch': 0.58}

 58%|█████████████████████████████████████████████▎                                | 396/681 [23:57<12:24,  2.61s/it]
 58%|█████████████████████████████████████████████▍                                | 397/681 [24:00<12:12,  2.58s/it]
                                                                                                                     
{'loss': 1.2987, 'grad_norm': 9.609397888183594, 'learning_rate': 2.2310222927429716e-07, 'beta_dpo/gap_mean': 104.96504211425781, 'beta_dpo/gap_std': 135.63267517089844, 'beta_dpo/beta_used_raw': -0.7097823619842529, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37662869691848755, 'logits/rejected': -0.3610289692878723, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 134.23080444335938, 'beta_dpo/beta_margin_mean': 0.1342308074235916, 'beta_dpo/beta_margin_std': 0.14559264481067657, 'beta_dpo/beta_margin_grad_mean': -0.4667245149612427, 'beta_dpo/beta_margin_grad_std': 0.03587669879198074, 'epoch': 0.58}

 58%|█████████████████████████████████████████████▍                                | 397/681 [24:00<12:12,  2.58s/it]
 58%|█████████████████████████████████████████████▌                                | 398/681 [24:02<11:48,  2.50s/it]
                                                                                                                     
{'loss': 1.3013, 'grad_norm': 7.986485481262207, 'learning_rate': 2.2182670837116972e-07, 'beta_dpo/gap_mean': 108.35206604003906, 'beta_dpo/gap_std': 138.2628631591797, 'beta_dpo/beta_used_raw': -0.9772100448608398, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4529736638069153, 'logits/rejected': -0.4409021735191345, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 118.11903381347656, 'beta_dpo/beta_margin_mean': 0.11811903864145279, 'beta_dpo/beta_margin_std': 0.14565932750701904, 'beta_dpo/beta_margin_grad_mean': -0.4707203805446625, 'beta_dpo/beta_margin_grad_std': 0.03591061383485794, 'epoch': 0.58}

 58%|█████████████████████████████████████████████▌                                | 398/681 [24:02<11:48,  2.50s/it]
 59%|█████████████████████████████████████████████▋                                | 399/681 [24:04<11:26,  2.43s/it]
                                                                                                                     
{'loss': 3.271, 'grad_norm': 1133.5469970703125, 'learning_rate': 2.2055192986047804e-07, 'beta_dpo/gap_mean': 109.07110595703125, 'beta_dpo/gap_std': 139.66268920898438, 'beta_dpo/beta_used_raw': -0.7041253447532654, 'beta_dpo/beta_used': 0.10209912061691284, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3726699948310852, 'logits/rejected': -0.31704509258270264, 'beta_dpo/beta': 0.10209912061691284, 'beta_dpo/loss_margin_mean': 107.10200500488281, 'beta_dpo/beta_margin_mean': 12.228537559509277, 'beta_dpo/beta_margin_std': 24.178831100463867, 'beta_dpo/beta_margin_grad_mean': -0.3368144929409027, 'beta_dpo/beta_margin_grad_std': 0.3037874400615692, 'epoch': 0.59}

 59%|█████████████████████████████████████████████▋                                | 399/681 [24:04<11:26,  2.43s/it]
 59%|█████████████████████████████████████████████▊                                | 400/681 [24:07<11:24,  2.44s/it]
                                                                                                                     
{'loss': 18.5063, 'grad_norm': 9287.4912109375, 'learning_rate': 2.192779273338215e-07, 'beta_dpo/gap_mean': 115.11041259765625, 'beta_dpo/gap_std': 142.930419921875, 'beta_dpo/beta_used_raw': 1.6487863063812256, 'beta_dpo/beta_used': 1.6487863063812256, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4059417247772217, 'logits/rejected': -0.40355077385902405, 'beta_dpo/beta': 1.6487863063812256, 'beta_dpo/loss_margin_mean': 150.7600555419922, 'beta_dpo/beta_margin_mean': 249.3288116455078, 'beta_dpo/beta_margin_std': 262.01593017578125, 'beta_dpo/beta_margin_grad_mean': -0.1875, 'beta_dpo/beta_margin_grad_std': 0.3903123736381531, 'epoch': 0.59}

 59%|█████████████████████████████████████████████▊                                | 400/681 [24:07<11:24,  2.44s/it][INFO|trainer.py:4307] 2026-04-17 23:47:39,407 >>
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-17 23:47:39,407 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-17 23:47:39,407 >>   Batch size = 8


  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A

  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.65it/s][A

  4%|███▎                                                                             | 3/73 [00:01<00:26,  2.60it/s][A

  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.26it/s][A

  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.11it/s][A

  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.00it/s][A

 10%|███████▊                                                                         | 7/73 [00:03<00:32,  2.06it/s][A

 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.92it/s][A

 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.87it/s][A

 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.84it/s][A

 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A

 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.80it/s][A

 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.84it/s][A

 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.80it/s][A

 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.82it/s][A

 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.74it/s][A

 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.73it/s][A

 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.72it/s][A

 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.70it/s][A

 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.69it/s][A

 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.69it/s][A

 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.68it/s][A

 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:29,  1.72it/s][A

 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.73it/s][A

 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:27,  1.72it/s][A

 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.74it/s][A

 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.94it/s][A

 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.90it/s][A

 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:22,  1.92it/s][A

 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.93it/s][A

 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.85it/s][A

 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s][A

 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:21,  1.90it/s][A

 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.87it/s][A

 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.81it/s][A

 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.82it/s][A

 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s][A

 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.87it/s][A

 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:19,  1.79it/s][A

 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.81it/s][A

 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.87it/s][A

 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:17,  1.82it/s][A

 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s][A

 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.84it/s][A

 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s][A

 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.84it/s][A

 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s][A

 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:25<00:13,  1.79it/s][A

 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.78it/s][A

 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.81it/s][A

 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.79it/s][A

 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.74it/s][A

 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s][A

 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.81it/s][A

 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.80it/s][A

 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.84it/s][A

 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.77it/s][A

 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s][A

 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.85it/s][A

 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.82it/s][A

 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A

 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.77it/s][A

 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s][A

 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.95it/s][A

 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.92it/s][A

 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.84it/s][A

 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.88it/s][A

 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.83it/s][A

 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s][A

 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A

 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.80it/s][A

 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.80it/s][A

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A

                                                                                                                     
[A{'eval_loss': 0.7606868147850037, 'eval_runtime': 40.2132, 'eval_samples_per_second': 58.165, 'eval_steps_per_second': 1.84, 'eval_beta_dpo/beta': 0.0093453424051404, 'eval_beta_dpo/loss_margin_mean': 66.89200592041016, 'eval_beta_dpo/beta_margin_mean': 1.0762052536010742, 'eval_beta_dpo/beta_margin_std': 1.4304980039596558, 'eval_beta_dpo/beta_margin_grad_mean': -0.4752621054649353, 'eval_beta_dpo/beta_margin_grad_std': 0.04468919709324837, 'eval_beta_dpo/gap_mean': 116.2162094116211, 'eval_beta_dpo/gap_std': 143.88238525390625, 'eval_beta_dpo/beta_used_raw': -2.859452724456787, 'eval_beta_dpo/beta_used': 0.0093453424051404, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.4157075881958008, 'eval_logits/rejected': -0.39382484555244446, 'epoch': 0.59}

 59%|█████████████████████████████████████████████▊                                | 400/681 [24:47<11:24,  2.44s/it]

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.94it/s][A

                                                                                                                     [A[INFO|trainer.py:3984] 2026-04-17 23:48:34,546 >> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400
[INFO|configuration_utils.py:419] 2026-04-17 23:48:34,554 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400/config.json
[INFO|configuration_utils.py:911] 2026-04-17 23:48:34,560 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-17 23:49:23,208 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-17 23:49:23,279 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-17 23:49:23,338 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400/special_tokens_map.json

 59%|████████████████████████████████████████████▏                              | 401/681 [29:39<7:53:02, 101.36s/it]
                                                                                                                     
{'loss': 1.303, 'grad_norm': 6.7877278327941895, 'learning_rate': 2.1800473436235136e-07, 'beta_dpo/gap_mean': 113.66698455810547, 'beta_dpo/gap_std': 148.7388916015625, 'beta_dpo/beta_used_raw': -1.313326358795166, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35054802894592285, 'logits/rejected': -0.3441402316093445, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 94.4480209350586, 'beta_dpo/beta_margin_mean': 0.094448022544384, 'beta_dpo/beta_margin_std': 0.17364467680454254, 'beta_dpo/beta_margin_grad_mean': -0.4766118824481964, 'beta_dpo/beta_margin_grad_std': 0.042866192758083344, 'epoch': 0.59}

 59%|████████████████████████████████████████████▏                              | 401/681 [29:39<7:53:02, 101.36s/it]
 59%|████████████████████████████████████████████▊                               | 402/681 [29:41<5:33:04, 71.63s/it]
                                                                                                                     
{'loss': 5.1878, 'grad_norm': 2755.770263671875, 'learning_rate': 2.1673238449588665e-07, 'beta_dpo/gap_mean': 119.07506561279297, 'beta_dpo/gap_std': 149.63043212890625, 'beta_dpo/beta_used_raw': 0.6786636710166931, 'beta_dpo/beta_used': 0.6786636710166931, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3783169388771057, 'logits/rejected': -0.3567967414855957, 'beta_dpo/beta': 0.6786636710166931, 'beta_dpo/loss_margin_mean': 158.593994140625, 'beta_dpo/beta_margin_mean': 108.07469177246094, 'beta_dpo/beta_margin_std': 99.87371826171875, 'beta_dpo/beta_margin_grad_mean': -0.10659972578287125, 'beta_dpo/beta_margin_grad_std': 0.3003370761871338, 'epoch': 0.59}

 59%|████████████████████████████████████████████▊                               | 402/681 [29:41<5:33:04, 71.63s/it]
 59%|████████████████████████████████████████████▉                               | 403/681 [29:44<3:55:41, 50.87s/it]
                                                                                                                     
{'loss': 1.2773, 'grad_norm': 6.965160369873047, 'learning_rate': 2.154609112620295e-07, 'beta_dpo/gap_mean': 120.31027221679688, 'beta_dpo/gap_std': 146.5064697265625, 'beta_dpo/beta_used_raw': -0.16943010687828064, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38709545135498047, 'logits/rejected': -0.3838120698928833, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 119.02156829833984, 'beta_dpo/beta_margin_mean': 0.11902157217264175, 'beta_dpo/beta_margin_std': 0.13397535681724548, 'beta_dpo/beta_margin_grad_mean': -0.4704398214817047, 'beta_dpo/beta_margin_grad_std': 0.03317659720778465, 'epoch': 0.59}

 59%|████████████████████████████████████████████▉                               | 403/681 [29:44<3:55:41, 50.87s/it]
 59%|█████████████████████████████████████████████                               | 404/681 [29:46<2:47:48, 36.35s/it]
                                                                                                                     
{'loss': 1.2817, 'grad_norm': 7.6397705078125, 'learning_rate': 2.1419034816528218e-07, 'beta_dpo/gap_mean': 120.10807800292969, 'beta_dpo/gap_std': 150.40188598632812, 'beta_dpo/beta_used_raw': -0.3914072513580322, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32211601734161377, 'logits/rejected': -0.3063517212867737, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 116.9678955078125, 'beta_dpo/beta_margin_mean': 0.11696790158748627, 'beta_dpo/beta_margin_std': 0.16781915724277496, 'beta_dpo/beta_margin_grad_mean': -0.4710405468940735, 'beta_dpo/beta_margin_grad_std': 0.04145493730902672, 'epoch': 0.59}

 59%|█████████████████████████████████████████████                               | 404/681 [29:46<2:47:48, 36.35s/it]
 59%|█████████████████████████████████████████████▏                              | 405/681 [29:49<2:00:16, 26.15s/it]
                                                                                                                     
{'loss': 1.3212, 'grad_norm': 7.145941257476807, 'learning_rate': 2.129207286861638e-07, 'beta_dpo/gap_mean': 115.75703430175781, 'beta_dpo/gap_std': 156.31784057617188, 'beta_dpo/beta_used_raw': -2.5856375694274902, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3783246874809265, 'logits/rejected': -0.35847070813179016, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 101.84107971191406, 'beta_dpo/beta_margin_mean': 0.10184108465909958, 'beta_dpo/beta_margin_std': 0.19063597917556763, 'beta_dpo/beta_margin_grad_mean': -0.4748651087284088, 'beta_dpo/beta_margin_grad_std': 0.0469396598637104, 'epoch': 0.59}

 59%|█████████████████████████████████████████████▏                              | 405/681 [29:49<2:00:16, 26.15s/it]
 60%|█████████████████████████████████████████████▎                              | 406/681 [29:51<1:27:18, 19.05s/it]
                                                                                                                     
{'loss': 1.2817, 'grad_norm': 7.6379899978637695, 'learning_rate': 2.1165208628032861e-07, 'beta_dpo/gap_mean': 117.24635314941406, 'beta_dpo/gap_std': 158.91787719726562, 'beta_dpo/beta_used_raw': -0.2788747549057007, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3630604147911072, 'logits/rejected': -0.35475897789001465, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 132.46351623535156, 'beta_dpo/beta_margin_mean': 0.13246352970600128, 'beta_dpo/beta_margin_std': 0.16599087417125702, 'beta_dpo/beta_margin_grad_mean': -0.46724018454551697, 'beta_dpo/beta_margin_grad_std': 0.04072672128677368, 'epoch': 0.6}

 60%|█████████████████████████████████████████████▎                              | 406/681 [29:51<1:27:18, 19.05s/it]
 60%|█████████████████████████████████████████████▍                              | 407/681 [29:54<1:04:22, 14.10s/it]
                                                                                                                     
{'loss': 10.9265, 'grad_norm': 4827.95361328125, 'learning_rate': 2.1038445437768375e-07, 'beta_dpo/gap_mean': 115.60337829589844, 'beta_dpo/gap_std': 158.64419555664062, 'beta_dpo/beta_used_raw': -0.8416473865509033, 'beta_dpo/beta_used': 0.9161151051521301, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.377028226852417, 'logits/rejected': -0.3416253924369812, 'beta_dpo/beta': 0.9161151051521301, 'beta_dpo/loss_margin_mean': 100.3062515258789, 'beta_dpo/beta_margin_mean': 123.79098510742188, 'beta_dpo/beta_margin_std': 235.88023376464844, 'beta_dpo/beta_margin_grad_mean': -0.3084886372089386, 'beta_dpo/beta_margin_grad_std': 0.2934010624885559, 'epoch': 0.6}

 60%|█████████████████████████████████████████████▍                              | 407/681 [29:54<1:04:22, 14.10s/it]
 60%|██████████████████████████████████████████████▋                               | 408/681 [29:57<48:52, 10.74s/it]
                                                                                                                     
{'loss': 1.3143, 'grad_norm': 7.195991516113281, 'learning_rate': 2.0911786638150872e-07, 'beta_dpo/gap_mean': 111.73031616210938, 'beta_dpo/gap_std': 154.44381713867188, 'beta_dpo/beta_used_raw': -2.016765594482422, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40478670597076416, 'logits/rejected': -0.37068575620651245, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 79.95922088623047, 'beta_dpo/beta_margin_mean': 0.07995922118425369, 'beta_dpo/beta_margin_std': 0.13016226887702942, 'beta_dpo/beta_margin_grad_mean': -0.4801346957683563, 'beta_dpo/beta_margin_grad_std': 0.03229653090238571, 'epoch': 0.6}

 60%|██████████████████████████████████████████████▋                               | 408/681 [29:57<48:52, 10.74s/it]
 60%|██████████████████████████████████████████████▊                               | 409/681 [29:59<37:42,  8.32s/it]
                                                                                                                     
{'loss': 1.3136, 'grad_norm': 7.589075565338135, 'learning_rate': 2.0785235566757517e-07, 'beta_dpo/gap_mean': 109.16544342041016, 'beta_dpo/gap_std': 155.03025817871094, 'beta_dpo/beta_used_raw': -1.8204164505004883, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34394949674606323, 'logits/rejected': -0.3319231867790222, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 111.70116424560547, 'beta_dpo/beta_margin_mean': 0.11170117557048798, 'beta_dpo/beta_margin_std': 0.15871573984622955, 'beta_dpo/beta_margin_grad_mean': -0.4723385274410248, 'beta_dpo/beta_margin_grad_std': 0.03917807340621948, 'epoch': 0.6}

 60%|██████████████████████████████████████████████▊                               | 409/681 [29:59<37:42,  8.32s/it]
 60%|██████████████████████████████████████████████▉                               | 410/681 [30:02<29:45,  6.59s/it]
                                                                                                                     
{'loss': 1.3845, 'grad_norm': 1850.3192138671875, 'learning_rate': 2.065879555832674e-07, 'beta_dpo/gap_mean': 112.37252044677734, 'beta_dpo/gap_std': 154.6945343017578, 'beta_dpo/beta_used_raw': -0.16834038496017456, 'beta_dpo/beta_used': 0.5207417011260986, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3558204472064972, 'logits/rejected': -0.34983137249946594, 'beta_dpo/beta': 0.5207417011260986, 'beta_dpo/loss_margin_mean': 121.03668975830078, 'beta_dpo/beta_margin_mean': 55.4542121887207, 'beta_dpo/beta_margin_std': 125.90103912353516, 'beta_dpo/beta_margin_grad_mean': -0.3113498389720917, 'beta_dpo/beta_margin_grad_std': 0.3010904788970947, 'epoch': 0.6}

 60%|██████████████████████████████████████████████▉                               | 410/681 [30:02<29:45,  6.59s/it]
 60%|███████████████████████████████████████████████                               | 411/681 [30:04<23:44,  5.28s/it]
                                                                                                                     
{'loss': 1.3083, 'grad_norm': 10.161256790161133, 'learning_rate': 2.0532469944670343e-07, 'beta_dpo/gap_mean': 113.07457733154297, 'beta_dpo/gap_std': 160.96011352539062, 'beta_dpo/beta_used_raw': -1.678023338317871, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.293745219707489, 'logits/rejected': -0.2922123670578003, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 106.50434112548828, 'beta_dpo/beta_margin_mean': 0.10650434345006943, 'beta_dpo/beta_margin_std': 0.19019237160682678, 'beta_dpo/beta_margin_grad_mean': -0.4737773537635803, 'beta_dpo/beta_margin_grad_std': 0.046403612941503525, 'epoch': 0.6}

 60%|███████████████████████████████████████████████                               | 411/681 [30:04<23:44,  5.28s/it]
 60%|███████████████████████████████████████████████▏                              | 412/681 [30:06<19:40,  4.39s/it]
                                                                                                                     
{'loss': 1.3101, 'grad_norm': 7.504628658294678, 'learning_rate': 2.0406262054585738e-07, 'beta_dpo/gap_mean': 111.26490783691406, 'beta_dpo/gap_std': 163.46185302734375, 'beta_dpo/beta_used_raw': -1.7123887538909912, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3158118724822998, 'logits/rejected': -0.32687675952911377, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 115.88773345947266, 'beta_dpo/beta_margin_mean': 0.11588773876428604, 'beta_dpo/beta_margin_std': 0.17700567841529846, 'beta_dpo/beta_margin_grad_mean': -0.4713696539402008, 'beta_dpo/beta_margin_grad_std': 0.04353627562522888, 'epoch': 0.6}

 60%|███████████████████████████████████████████████▏                              | 412/681 [30:06<19:40,  4.39s/it]
 61%|███████████████████████████████████████████████▎                              | 413/681 [30:09<17:20,  3.88s/it]
                                                                                                                     
{'loss': 1.2993, 'grad_norm': 10.111505508422852, 'learning_rate': 2.0280175213768205e-07, 'beta_dpo/gap_mean': 110.88575744628906, 'beta_dpo/gap_std': 163.36767578125, 'beta_dpo/beta_used_raw': -0.9482701420783997, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33399781584739685, 'logits/rejected': -0.3200353980064392, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 115.44949340820312, 'beta_dpo/beta_margin_mean': 0.11544950306415558, 'beta_dpo/beta_margin_std': 0.16624687612056732, 'beta_dpo/beta_margin_grad_mean': -0.4713848829269409, 'beta_dpo/beta_margin_grad_std': 0.04106110334396362, 'epoch': 0.61}

 61%|███████████████████████████████████████████████▎                              | 413/681 [30:09<17:20,  3.88s/it]
 61%|███████████████████████████████████████████████▍                              | 414/681 [30:11<15:27,  3.47s/it]
                                                                                                                     
{'loss': 18.094, 'grad_norm': 10158.8984375, 'learning_rate': 2.0154212744723247e-07, 'beta_dpo/gap_mean': 114.5771484375, 'beta_dpo/gap_std': 164.32669067382812, 'beta_dpo/beta_used_raw': 0.5759499669075012, 'beta_dpo/beta_used': 1.1125692129135132, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29129675030708313, 'logits/rejected': -0.28304004669189453, 'beta_dpo/beta': 1.1125692129135132, 'beta_dpo/loss_margin_mean': 140.61228942871094, 'beta_dpo/beta_margin_mean': 208.84002685546875, 'beta_dpo/beta_margin_std': 342.9871826171875, 'beta_dpo/beta_margin_grad_mean': -0.3008454442024231, 'beta_dpo/beta_margin_grad_std': 0.29388001561164856, 'epoch': 0.61}

 61%|███████████████████████████████████████████████▍                              | 414/681 [30:12<15:27,  3.47s/it]
 61%|███████████████████████████████████████████████▌                              | 415/681 [30:14<14:27,  3.26s/it]
                                                                                                                     
{'loss': 1.3127, 'grad_norm': 7.246009826660156, 'learning_rate': 2.002837796667909e-07, 'beta_dpo/gap_mean': 116.05256652832031, 'beta_dpo/gap_std': 165.4222412109375, 'beta_dpo/beta_used_raw': -2.1535353660583496, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3636121153831482, 'logits/rejected': -0.35459795594215393, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 95.04881286621094, 'beta_dpo/beta_margin_mean': 0.09504882246255875, 'beta_dpo/beta_margin_std': 0.1632952094078064, 'beta_dpo/beta_margin_grad_mean': -0.47645503282546997, 'beta_dpo/beta_margin_grad_std': 0.04023678973317146, 'epoch': 0.61}

 61%|███████████████████████████████████████████████▌                              | 415/681 [30:14<14:27,  3.26s/it]
 61%|███████████████████████████████████████████████▋                              | 416/681 [30:17<13:25,  3.04s/it]
                                                                                                                     
{'loss': 7.9484, 'grad_norm': 9633.19921875, 'learning_rate': 1.990267419549914e-07, 'beta_dpo/gap_mean': 118.31330108642578, 'beta_dpo/gap_std': 161.25177001953125, 'beta_dpo/beta_used_raw': 0.8338208198547363, 'beta_dpo/beta_used': 0.8338208198547363, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3395143449306488, 'logits/rejected': -0.32628241181373596, 'beta_dpo/beta': 0.8338208198547363, 'beta_dpo/loss_margin_mean': 147.69627380371094, 'beta_dpo/beta_margin_mean': 129.33334350585938, 'beta_dpo/beta_margin_std': 189.8321990966797, 'beta_dpo/beta_margin_grad_mean': -0.17009158432483673, 'beta_dpo/beta_margin_grad_std': 0.35257911682128906, 'epoch': 0.61}

 61%|███████████████████████████████████████████████▋                              | 416/681 [30:17<13:25,  3.04s/it]
 61%|███████████████████████████████████████████████▊                              | 417/681 [30:19<12:26,  2.83s/it]
                                                                                                                     
{'loss': 6.8179, 'grad_norm': 3923.328857421875, 'learning_rate': 1.9777104743594686e-07, 'beta_dpo/gap_mean': 119.18829345703125, 'beta_dpo/gap_std': 156.21324157714844, 'beta_dpo/beta_used_raw': 0.1691010594367981, 'beta_dpo/beta_used': 0.3650580644607544, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.27080368995666504, 'logits/rejected': -0.22706595063209534, 'beta_dpo/beta': 0.3650580644607544, 'beta_dpo/loss_margin_mean': 115.47030639648438, 'beta_dpo/beta_margin_mean': 45.415931701660156, 'beta_dpo/beta_margin_std': 81.82047271728516, 'beta_dpo/beta_margin_grad_mean': -0.3305802643299103, 'beta_dpo/beta_margin_grad_std': 0.3116385340690613, 'epoch': 0.61}

 61%|███████████████████████████████████████████████▊                              | 417/681 [30:19<12:26,  2.83s/it]
 61%|███████████████████████████████████████████████▉                              | 418/681 [30:22<12:19,  2.81s/it]
                                                                                                                     
{'loss': 2.2555, 'grad_norm': 956.6565551757812, 'learning_rate': 1.965167291983757e-07, 'beta_dpo/gap_mean': 119.43331909179688, 'beta_dpo/gap_std': 159.44818115234375, 'beta_dpo/beta_used_raw': -0.4067423641681671, 'beta_dpo/beta_used': 0.1472662091255188, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38150128722190857, 'logits/rejected': -0.33936968445777893, 'beta_dpo/beta': 0.1472662091255188, 'beta_dpo/loss_margin_mean': 129.963623046875, 'beta_dpo/beta_margin_mean': 24.18821907043457, 'beta_dpo/beta_margin_std': 42.399009704589844, 'beta_dpo/beta_margin_grad_mean': -0.31466129422187805, 'beta_dpo/beta_margin_grad_std': 0.29242756962776184, 'epoch': 0.61}

 61%|███████████████████████████████████████████████▉                              | 418/681 [30:22<12:19,  2.81s/it]
 62%|███████████████████████████████████████████████▉                              | 419/681 [30:25<12:03,  2.76s/it]
                                                                                                                     
{'loss': 1.3448, 'grad_norm': 406.3208312988281, 'learning_rate': 1.9526382029472988e-07, 'beta_dpo/gap_mean': 123.40135192871094, 'beta_dpo/gap_std': 159.61978149414062, 'beta_dpo/beta_used_raw': -0.6058524250984192, 'beta_dpo/beta_used': 0.04090619087219238, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3685181736946106, 'logits/rejected': -0.35807985067367554, 'beta_dpo/beta': 0.04090619087219238, 'beta_dpo/loss_margin_mean': 131.7987060546875, 'beta_dpo/beta_margin_mean': 5.522484302520752, 'beta_dpo/beta_margin_std': 10.368701934814453, 'beta_dpo/beta_margin_grad_mean': -0.3300994336605072, 'beta_dpo/beta_margin_grad_std': 0.2953225076198578, 'epoch': 0.62}

 62%|███████████████████████████████████████████████▉                              | 419/681 [30:25<12:03,  2.76s/it]
 62%|████████████████████████████████████████████████                              | 420/681 [30:27<11:42,  2.69s/it]
                                                                                                                     
{'loss': 1.2911, 'grad_norm': 8.381654739379883, 'learning_rate': 1.9401235374032425e-07, 'beta_dpo/gap_mean': 117.49530029296875, 'beta_dpo/gap_std': 161.63946533203125, 'beta_dpo/beta_used_raw': -0.7748525738716125, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34530162811279297, 'logits/rejected': -0.2882389426231384, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 84.27227783203125, 'beta_dpo/beta_margin_mean': 0.08427228033542633, 'beta_dpo/beta_margin_std': 0.17619559168815613, 'beta_dpo/beta_margin_grad_mean': -0.479174941778183, 'beta_dpo/beta_margin_grad_std': 0.043484870344400406, 'epoch': 0.62}

 62%|████████████████████████████████████████████████                              | 420/681 [30:27<11:42,  2.69s/it]
 62%|████████████████████████████████████████████████▏                             | 421/681 [30:30<11:43,  2.70s/it]
                                                                                                                     
{'loss': 1.2975, 'grad_norm': 6.698497772216797, 'learning_rate': 1.9276236251246653e-07, 'beta_dpo/gap_mean': 111.70301818847656, 'beta_dpo/gap_std': 160.45973205566406, 'beta_dpo/beta_used_raw': -0.9457611441612244, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3635827600955963, 'logits/rejected': -0.3487810492515564, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 89.76795959472656, 'beta_dpo/beta_margin_mean': 0.08976796269416809, 'beta_dpo/beta_margin_std': 0.1381371021270752, 'beta_dpo/beta_margin_grad_mean': -0.4776723086833954, 'beta_dpo/beta_margin_grad_std': 0.03428473323583603, 'epoch': 0.62}

 62%|████████████████████████████████████████████████▏                             | 421/681 [30:30<11:43,  2.70s/it]
 62%|████████████████████████████████████████████████▎                             | 422/681 [30:33<11:48,  2.74s/it]
                                                                                                                     
{'loss': 1.3, 'grad_norm': 7.295708179473877, 'learning_rate': 1.9151387954958792e-07, 'beta_dpo/gap_mean': 108.79386901855469, 'beta_dpo/gap_std': 155.77139282226562, 'beta_dpo/beta_used_raw': -0.9157909154891968, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.323574960231781, 'logits/rejected': -0.3058650493621826, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 94.8263168334961, 'beta_dpo/beta_margin_mean': 0.09482631832361221, 'beta_dpo/beta_margin_std': 0.14304772019386292, 'beta_dpo/beta_margin_grad_mean': -0.476465106010437, 'beta_dpo/beta_margin_grad_std': 0.03539099171757698, 'epoch': 0.62}

 62%|████████████████████████████████████████████████▎                             | 422/681 [30:33<11:48,  2.74s/it]
 62%|████████████████████████████████████████████████▍                             | 423/681 [30:35<11:17,  2.63s/it]
                                                                                                                     
{'loss': 5.8705, 'grad_norm': 2952.7294921875, 'learning_rate': 1.902669377503756e-07, 'beta_dpo/gap_mean': 111.04264831542969, 'beta_dpo/gap_std': 153.08340454101562, 'beta_dpo/beta_used_raw': 0.5498670339584351, 'beta_dpo/beta_used': 0.5498670339584351, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29522740840911865, 'logits/rejected': -0.2932446002960205, 'beta_dpo/beta': 0.5498670339584351, 'beta_dpo/loss_margin_mean': 124.84105682373047, 'beta_dpo/beta_margin_mean': 67.63153839111328, 'beta_dpo/beta_margin_std': 82.61705017089844, 'beta_dpo/beta_margin_grad_mean': -0.19201448559761047, 'beta_dpo/beta_margin_grad_std': 0.38938337564468384, 'epoch': 0.62}

 62%|████████████████████████████████████████████████▍                             | 423/681 [30:35<11:17,  2.63s/it]
 62%|████████████████████████████████████████████████▌                             | 424/681 [30:38<11:17,  2.64s/it]
                                                                                                                     
{'loss': 0.9681, 'grad_norm': 137.83319091796875, 'learning_rate': 1.890215699729057e-07, 'beta_dpo/gap_mean': 112.22328186035156, 'beta_dpo/gap_std': 152.5062255859375, 'beta_dpo/beta_used_raw': -1.4149752855300903, 'beta_dpo/beta_used': 0.027477234601974487, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3986721932888031, 'logits/rejected': -0.3727181553840637, 'beta_dpo/beta': 0.027477234601974487, 'beta_dpo/loss_margin_mean': 109.46617126464844, 'beta_dpo/beta_margin_mean': 3.6695759296417236, 'beta_dpo/beta_margin_std': 6.411843299865723, 'beta_dpo/beta_margin_grad_mean': -0.31576114892959595, 'beta_dpo/beta_margin_grad_std': 0.28133726119995117, 'epoch': 0.62}

 62%|████████████████████████████████████████████████▌                             | 424/681 [30:38<11:17,  2.64s/it]
 62%|████████████████████████████████████████████████▋                             | 425/681 [30:40<11:05,  2.60s/it]
                                                                                                                     
{'loss': 6.1878, 'grad_norm': 6124.79150390625, 'learning_rate': 1.8777780903377732e-07, 'beta_dpo/gap_mean': 109.38998413085938, 'beta_dpo/gap_std': 150.577880859375, 'beta_dpo/beta_used_raw': 0.4376869797706604, 'beta_dpo/beta_used': 0.5835731625556946, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3280683159828186, 'logits/rejected': -0.32920628786087036, 'beta_dpo/beta': 0.5835731625556946, 'beta_dpo/loss_margin_mean': 106.90679168701172, 'beta_dpo/beta_margin_mean': 72.92134857177734, 'beta_dpo/beta_margin_std': 129.18519592285156, 'beta_dpo/beta_margin_grad_mean': -0.3327001929283142, 'beta_dpo/beta_margin_grad_std': 0.312762588262558, 'epoch': 0.62}

 62%|████████████████████████████████████████████████▋                             | 425/681 [30:40<11:05,  2.60s/it]
 63%|████████████████████████████████████████████████▊                             | 426/681 [30:43<11:09,  2.63s/it]
                                                                                                                     
{'loss': 8.4638, 'grad_norm': 5486.13525390625, 'learning_rate': 1.8653568770724803e-07, 'beta_dpo/gap_mean': 111.31645965576172, 'beta_dpo/gap_std': 149.850341796875, 'beta_dpo/beta_used_raw': -0.7809062600135803, 'beta_dpo/beta_used': 0.8895680904388428, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37183499336242676, 'logits/rejected': -0.31186115741729736, 'beta_dpo/beta': 0.8895680904388428, 'beta_dpo/loss_margin_mean': 127.76013946533203, 'beta_dpo/beta_margin_mean': 142.06744384765625, 'beta_dpo/beta_margin_std': 253.59666442871094, 'beta_dpo/beta_margin_grad_mean': -0.30061760544776917, 'beta_dpo/beta_margin_grad_std': 0.29346781969070435, 'epoch': 0.63}

 63%|████████████████████████████████████████████████▊                             | 426/681 [30:43<11:09,  2.63s/it]
 63%|████████████████████████████████████████████████▉                             | 427/681 [30:45<11:05,  2.62s/it]
                                                                                                                     
{'loss': 1.306, 'grad_norm': 6.825258731842041, 'learning_rate': 1.8529523872436977e-07, 'beta_dpo/gap_mean': 109.63316345214844, 'beta_dpo/gap_std': 148.7486572265625, 'beta_dpo/beta_used_raw': -1.4412474632263184, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3810279965400696, 'logits/rejected': -0.35081952810287476, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 81.17052459716797, 'beta_dpo/beta_margin_mean': 0.08117052912712097, 'beta_dpo/beta_margin_std': 0.13242076337337494, 'beta_dpo/beta_margin_grad_mean': -0.4798411726951599, 'beta_dpo/beta_margin_grad_std': 0.03274958208203316, 'epoch': 0.63}

 63%|████████████████████████████████████████████████▉                             | 427/681 [30:45<11:05,  2.62s/it]
 63%|█████████████████████████████████████████████████                             | 428/681 [30:48<11:12,  2.66s/it]
                                                                                                                     
{'loss': 3.3058, 'grad_norm': 3710.728271484375, 'learning_rate': 1.8405649477212697e-07, 'beta_dpo/gap_mean': 109.1749267578125, 'beta_dpo/gap_std': 149.90882873535156, 'beta_dpo/beta_used_raw': -0.37105491757392883, 'beta_dpo/beta_used': 0.41161054372787476, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37873727083206177, 'logits/rejected': -0.37077072262763977, 'beta_dpo/beta': 0.41161054372787476, 'beta_dpo/loss_margin_mean': 120.1363296508789, 'beta_dpo/beta_margin_mean': 47.70144271850586, 'beta_dpo/beta_margin_std': 109.32994842529297, 'beta_dpo/beta_margin_grad_mean': -0.32943397760391235, 'beta_dpo/beta_margin_grad_std': 0.30981266498565674, 'epoch': 0.63}

 63%|█████████████████████████████████████████████████                             | 428/681 [30:48<11:12,  2.66s/it]
 63%|█████████████████████████████████████████████████▏                            | 429/681 [30:51<11:14,  2.68s/it]
                                                                                                                     
{'loss': 7.8201, 'grad_norm': 3259.48974609375, 'learning_rate': 1.828194884925749e-07, 'beta_dpo/gap_mean': 107.56082916259766, 'beta_dpo/gap_std': 150.14230346679688, 'beta_dpo/beta_used_raw': 0.4344549775123596, 'beta_dpo/beta_used': 0.4344549775123596, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38967394828796387, 'logits/rejected': -0.33787745237350464, 'beta_dpo/beta': 0.4344549775123596, 'beta_dpo/loss_margin_mean': 103.24775695800781, 'beta_dpo/beta_margin_mean': 48.72703552246094, 'beta_dpo/beta_margin_std': 64.88159942626953, 'beta_dpo/beta_margin_grad_mean': -0.2335137575864792, 'beta_dpo/beta_margin_grad_std': 0.4133719801902771, 'epoch': 0.63}

 63%|█████████████████████████████████████████████████▏                            | 429/681 [30:51<11:14,  2.68s/it]
 63%|█████████████████████████████████████████████████▎                            | 430/681 [30:54<11:43,  2.80s/it]
                                                                                                                     
{'loss': 1.3051, 'grad_norm': 7.614285945892334, 'learning_rate': 1.8158425248197928e-07, 'beta_dpo/gap_mean': 109.13970947265625, 'beta_dpo/gap_std': 147.79107666015625, 'beta_dpo/beta_used_raw': -1.2862778902053833, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4028991460800171, 'logits/rejected': -0.40245670080184937, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 112.42671203613281, 'beta_dpo/beta_margin_mean': 0.11242672055959702, 'beta_dpo/beta_margin_std': 0.14071322977542877, 'beta_dpo/beta_margin_grad_mean': -0.4721178114414215, 'beta_dpo/beta_margin_grad_std': 0.03465087339282036, 'epoch': 0.63}

 63%|█████████████████████████████████████████████████▎                            | 430/681 [30:54<11:43,  2.80s/it]
 63%|█████████████████████████████████████████████████▎                            | 431/681 [30:57<11:33,  2.77s/it]
                                                                                                                     
{'loss': 1.2936, 'grad_norm': 6.900725841522217, 'learning_rate': 1.8035081928995788e-07, 'beta_dpo/gap_mean': 113.27009582519531, 'beta_dpo/gap_std': 150.56829833984375, 'beta_dpo/beta_used_raw': -0.7770711183547974, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33334821462631226, 'logits/rejected': -0.32843929529190063, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 130.09228515625, 'beta_dpo/beta_margin_mean': 0.1300922930240631, 'beta_dpo/beta_margin_std': 0.15987038612365723, 'beta_dpo/beta_margin_grad_mean': -0.4677823781967163, 'beta_dpo/beta_margin_grad_std': 0.03935808688402176, 'epoch': 0.63}

 63%|█████████████████████████████████████████████████▎                            | 431/681 [30:57<11:33,  2.77s/it]
 63%|█████████████████████████████████████████████████▍                            | 432/681 [30:59<11:29,  2.77s/it]
                                                                                                                     
{'loss': 2.6038, 'grad_norm': 871.7344970703125, 'learning_rate': 1.791192214186223e-07, 'beta_dpo/gap_mean': 113.14790344238281, 'beta_dpo/gap_std': 143.69342041015625, 'beta_dpo/beta_used_raw': -0.6099668145179749, 'beta_dpo/beta_used': 0.10785573720932007, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4066033363342285, 'logits/rejected': -0.37539827823638916, 'beta_dpo/beta': 0.10785573720932007, 'beta_dpo/loss_margin_mean': 124.32618713378906, 'beta_dpo/beta_margin_mean': 17.94474220275879, 'beta_dpo/beta_margin_std': 30.068361282348633, 'beta_dpo/beta_margin_grad_mean': -0.31203174591064453, 'beta_dpo/beta_margin_grad_std': 0.2826971411705017, 'epoch': 0.63}

 63%|█████████████████████████████████████████████████▍                            | 432/681 [30:59<11:29,  2.77s/it]
 64%|█████████████████████████████████████████████████▌                            | 433/681 [31:02<11:11,  2.71s/it]
                                                                                                                     
{'loss': 0.6547, 'grad_norm': 21.230777740478516, 'learning_rate': 1.7788949132172193e-07, 'beta_dpo/gap_mean': 112.42630767822266, 'beta_dpo/gap_std': 144.95359802246094, 'beta_dpo/beta_used_raw': -0.3640483319759369, 'beta_dpo/beta_used': 0.2765732407569885, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.358863890171051, 'logits/rejected': -0.34688135981559753, 'beta_dpo/beta': 0.2765732407569885, 'beta_dpo/loss_margin_mean': 93.55750274658203, 'beta_dpo/beta_margin_mean': 27.676023483276367, 'beta_dpo/beta_margin_std': 58.62560272216797, 'beta_dpo/beta_margin_grad_mean': -0.31871679425239563, 'beta_dpo/beta_margin_grad_std': 0.3027940094470978, 'epoch': 0.64}

 64%|█████████████████████████████████████████████████▌                            | 433/681 [31:02<11:11,  2.71s/it]
 64%|█████████████████████████████████████████████████▋                            | 434/681 [31:05<10:59,  2.67s/it]
                                                                                                                     
{'loss': 1.3143, 'grad_norm': 6.974902629852295, 'learning_rate': 1.7666166140378853e-07, 'beta_dpo/gap_mean': 108.65299987792969, 'beta_dpo/gap_std': 142.203125, 'beta_dpo/beta_used_raw': -1.8638619184494019, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39474016427993774, 'logits/rejected': -0.36454617977142334, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.80241394042969, 'beta_dpo/beta_margin_mean': 0.0868024155497551, 'beta_dpo/beta_margin_std': 0.12513087689876556, 'beta_dpo/beta_margin_grad_mean': -0.47845569252967834, 'beta_dpo/beta_margin_grad_std': 0.030826503410935402, 'epoch': 0.64}

 64%|█████████████████████████████████████████████████▋                            | 434/681 [31:05<10:59,  2.67s/it]
 64%|█████████████████████████████████████████████████▊                            | 435/681 [31:07<10:25,  2.54s/it]
                                                                                                                     
{'loss': 2.6214, 'grad_norm': 1543.473388671875, 'learning_rate': 1.7543576401928218e-07, 'beta_dpo/gap_mean': 108.19963073730469, 'beta_dpo/gap_std': 141.86123657226562, 'beta_dpo/beta_used_raw': 0.4795774221420288, 'beta_dpo/beta_used': 0.4795774221420288, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3778401017189026, 'logits/rejected': -0.35977697372436523, 'beta_dpo/beta': 0.4795774221420288, 'beta_dpo/loss_margin_mean': 114.60810089111328, 'beta_dpo/beta_margin_mean': 54.45040512084961, 'beta_dpo/beta_margin_std': 62.09480285644531, 'beta_dpo/beta_margin_grad_mean': -0.12648658454418182, 'beta_dpo/beta_margin_grad_std': 0.3134034276008606, 'epoch': 0.64}

 64%|█████████████████████████████████████████████████▊                            | 435/681 [31:07<10:25,  2.54s/it]
 64%|█████████████████████████████████████████████████▉                            | 436/681 [31:09<10:28,  2.56s/it]
                                                                                                                     
{'loss': 1.3673, 'grad_norm': 229.00344848632812, 'learning_rate': 1.742118314717391e-07, 'beta_dpo/gap_mean': 106.91453552246094, 'beta_dpo/gap_std': 138.24383544921875, 'beta_dpo/beta_used_raw': -1.441216230392456, 'beta_dpo/beta_used': 0.055185671895742416, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40563905239105225, 'logits/rejected': -0.3649734854698181, 'beta_dpo/beta': 0.055185671895742416, 'beta_dpo/loss_margin_mean': 96.44285583496094, 'beta_dpo/beta_margin_mean': 5.6773810386657715, 'beta_dpo/beta_margin_std': 10.930699348449707, 'beta_dpo/beta_margin_grad_mean': -0.30519527196884155, 'beta_dpo/beta_margin_grad_std': 0.2901572585105896, 'epoch': 0.64}

 64%|█████████████████████████████████████████████████▉                            | 436/681 [31:09<10:28,  2.56s/it]
 64%|██████████████████████████████████████████████████                            | 437/681 [31:12<10:37,  2.61s/it]
                                                                                                                     
{'loss': 5.1701, 'grad_norm': 1593.89501953125, 'learning_rate': 1.7298989601292036e-07, 'beta_dpo/gap_mean': 104.29106140136719, 'beta_dpo/gap_std': 136.22210693359375, 'beta_dpo/beta_used_raw': -0.26632630825042725, 'beta_dpo/beta_used': 0.44650039076805115, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3833288848400116, 'logits/rejected': -0.3413906693458557, 'beta_dpo/beta': 0.44650039076805115, 'beta_dpo/loss_margin_mean': 96.21728515625, 'beta_dpo/beta_margin_mean': 45.99268341064453, 'beta_dpo/beta_margin_std': 82.80380249023438, 'beta_dpo/beta_margin_grad_mean': -0.31715255975723267, 'beta_dpo/beta_margin_grad_std': 0.30363377928733826, 'epoch': 0.64}

 64%|██████████████████████████████████████████████████                            | 437/681 [31:12<10:37,  2.61s/it]
 64%|██████████████████████████████████████████████████▏                           | 438/681 [31:15<10:17,  2.54s/it]
                                                                                                                     
{'loss': 8.9122, 'grad_norm': 7641.5771484375, 'learning_rate': 1.7176998984196144e-07, 'beta_dpo/gap_mean': 107.95907592773438, 'beta_dpo/gap_std': 133.67709350585938, 'beta_dpo/beta_used_raw': 1.1907906532287598, 'beta_dpo/beta_used': 1.1907906532287598, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37084126472473145, 'logits/rejected': -0.3320963382720947, 'beta_dpo/beta': 1.1907906532287598, 'beta_dpo/loss_margin_mean': 126.7836685180664, 'beta_dpo/beta_margin_mean': 154.26736450195312, 'beta_dpo/beta_margin_std': 161.1520538330078, 'beta_dpo/beta_margin_grad_mean': -0.1750006526708603, 'beta_dpo/beta_margin_grad_std': 0.37429773807525635, 'epoch': 0.64}

 64%|██████████████████████████████████████████████████▏                           | 438/681 [31:15<10:17,  2.54s/it]
 64%|██████████████████████████████████████████████████▎                           | 439/681 [31:17<10:06,  2.51s/it]
                                                                                                                     
{'loss': 1.4163, 'grad_norm': 512.3974609375, 'learning_rate': 1.7055214510452458e-07, 'beta_dpo/gap_mean': 107.83575439453125, 'beta_dpo/gap_std': 133.11056518554688, 'beta_dpo/beta_used_raw': -1.7231221199035645, 'beta_dpo/beta_used': 0.07319752871990204, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40375328063964844, 'logits/rejected': -0.4028066396713257, 'beta_dpo/beta': 0.07319752871990204, 'beta_dpo/loss_margin_mean': 90.30883026123047, 'beta_dpo/beta_margin_mean': 9.903467178344727, 'beta_dpo/beta_margin_std': 17.277389526367188, 'beta_dpo/beta_margin_grad_mean': -0.32128748297691345, 'beta_dpo/beta_margin_grad_std': 0.2859705984592438, 'epoch': 0.64}

 64%|██████████████████████████████████████████████████▎                           | 439/681 [31:17<10:06,  2.51s/it]
 65%|██████████████████████████████████████████████████▍                           | 440/681 [31:19<09:55,  2.47s/it]
                                                                                                                     
{'loss': 1.3123, 'grad_norm': 11.201451301574707, 'learning_rate': 1.6933639389195134e-07, 'beta_dpo/gap_mean': 100.31968688964844, 'beta_dpo/gap_std': 130.88662719726562, 'beta_dpo/beta_used_raw': -1.205794334411621, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.48015761375427246, 'logits/rejected': -0.44124317169189453, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 76.77810668945312, 'beta_dpo/beta_margin_mean': 0.0767781138420105, 'beta_dpo/beta_margin_std': 0.1251077651977539, 'beta_dpo/beta_margin_grad_mean': -0.4809180796146393, 'beta_dpo/beta_margin_grad_std': 0.031033983454108238, 'epoch': 0.65}

 65%|██████████████████████████████████████████████████▍                           | 440/681 [31:19<09:55,  2.47s/it]
 65%|██████████████████████████████████████████████████▌                           | 441/681 [31:22<10:28,  2.62s/it]
                                                                                                                     
{'loss': 1.3149, 'grad_norm': 12.307683944702148, 'learning_rate': 1.681227682404166e-07, 'beta_dpo/gap_mean': 99.0499267578125, 'beta_dpo/gap_std': 131.88418579101562, 'beta_dpo/beta_used_raw': -1.326048493385315, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4150615930557251, 'logits/rejected': -0.4018522799015045, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 98.94155883789062, 'beta_dpo/beta_margin_mean': 0.09894155710935593, 'beta_dpo/beta_margin_std': 0.1482171267271042, 'beta_dpo/beta_margin_grad_mean': -0.4754822850227356, 'beta_dpo/beta_margin_grad_std': 0.036441490054130554, 'epoch': 0.65}

 65%|██████████████████████████████████████████████████▌                           | 441/681 [31:22<10:28,  2.62s/it]
 65%|██████████████████████████████████████████████████▋                           | 442/681 [31:25<10:21,  2.60s/it]
                                                                                                                     
{'loss': 1.2978, 'grad_norm': 920.883056640625, 'learning_rate': 1.669113001300851e-07, 'beta_dpo/gap_mean': 101.88089752197266, 'beta_dpo/gap_std': 133.10354614257812, 'beta_dpo/beta_used_raw': -0.9432244896888733, 'beta_dpo/beta_used': 0.19351361691951752, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42568036913871765, 'logits/rejected': -0.4096643924713135, 'beta_dpo/beta': 0.19351361691951752, 'beta_dpo/loss_margin_mean': 124.86181640625, 'beta_dpo/beta_margin_mean': 28.820743560791016, 'beta_dpo/beta_margin_std': 45.040016174316406, 'beta_dpo/beta_margin_grad_mean': -0.2922385334968567, 'beta_dpo/beta_margin_grad_std': 0.2803710997104645, 'epoch': 0.65}

 65%|██████████████████████████████████████████████████▋                           | 442/681 [31:25<10:21,  2.60s/it]
 65%|██████████████████████████████████████████████████▋                           | 443/681 [31:28<10:23,  2.62s/it]
                                                                                                                     
{'loss': 1.3075, 'grad_norm': 8.173919677734375, 'learning_rate': 1.6570202148426815e-07, 'beta_dpo/gap_mean': 100.70872497558594, 'beta_dpo/gap_std': 131.86151123046875, 'beta_dpo/beta_used_raw': -0.9595794677734375, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4086863398551941, 'logits/rejected': -0.38320356607437134, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 73.91852569580078, 'beta_dpo/beta_margin_mean': 0.07391852885484695, 'beta_dpo/beta_margin_std': 0.12798674404621124, 'beta_dpo/beta_margin_grad_mean': -0.48161694407463074, 'beta_dpo/beta_margin_grad_std': 0.03176787868142128, 'epoch': 0.65}

 65%|██████████████████████████████████████████████████▋                           | 443/681 [31:28<10:23,  2.62s/it]
 65%|██████████████████████████████████████████████████▊                           | 444/681 [31:30<10:19,  2.61s/it]
                                                                                                                     
{'loss': 2.6417, 'grad_norm': 1877.506103515625, 'learning_rate': 1.6449496416858282e-07, 'beta_dpo/gap_mean': 102.39837646484375, 'beta_dpo/gap_std': 133.09300231933594, 'beta_dpo/beta_used_raw': -0.6297559142112732, 'beta_dpo/beta_used': 0.13834300637245178, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38396507501602173, 'logits/rejected': -0.3728168308734894, 'beta_dpo/beta': 0.13834300637245178, 'beta_dpo/loss_margin_mean': 126.64820861816406, 'beta_dpo/beta_margin_mean': 17.195384979248047, 'beta_dpo/beta_margin_std': 30.380125045776367, 'beta_dpo/beta_margin_grad_mean': -0.29932746291160583, 'beta_dpo/beta_margin_grad_std': 0.28772518038749695, 'epoch': 0.65}

 65%|██████████████████████████████████████████████████▊                           | 444/681 [31:30<10:19,  2.61s/it]
 65%|██████████████████████████████████████████████████▉                           | 445/681 [31:33<10:14,  2.60s/it]
                                                                                                                     
{'loss': 1.3019, 'grad_norm': 15.09030818939209, 'learning_rate': 1.6329015999011182e-07, 'beta_dpo/gap_mean': 103.6148681640625, 'beta_dpo/gap_std': 134.420654296875, 'beta_dpo/beta_used_raw': -0.7490635514259338, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4086730480194092, 'logits/rejected': -0.3865576982498169, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 102.85830688476562, 'beta_dpo/beta_margin_mean': 0.10285831242799759, 'beta_dpo/beta_margin_std': 0.14040379226207733, 'beta_dpo/beta_margin_grad_mean': -0.4744797348976135, 'beta_dpo/beta_margin_grad_std': 0.03470303490757942, 'epoch': 0.65}

 65%|██████████████████████████████████████████████████▉                           | 445/681 [31:33<10:14,  2.60s/it]
 65%|███████████████████████████████████████████████████                           | 446/681 [31:35<10:13,  2.61s/it]
                                                                                                                     
{'loss': 1.0661, 'grad_norm': 680.3995971679688, 'learning_rate': 1.6208764069656578e-07, 'beta_dpo/gap_mean': 104.75509643554688, 'beta_dpo/gap_std': 132.56423950195312, 'beta_dpo/beta_used_raw': -0.14518234133720398, 'beta_dpo/beta_used': 0.28921666741371155, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.42230162024497986, 'logits/rejected': -0.42033088207244873, 'beta_dpo/beta': 0.28921666741371155, 'beta_dpo/loss_margin_mean': 121.7738265991211, 'beta_dpo/beta_margin_mean': 44.87013626098633, 'beta_dpo/beta_margin_std': 70.5100326538086, 'beta_dpo/beta_margin_grad_mean': -0.27025842666625977, 'beta_dpo/beta_margin_grad_std': 0.26976633071899414, 'epoch': 0.65}

 65%|███████████████████████████████████████████████████                           | 446/681 [31:35<10:13,  2.61s/it]
 66%|███████████████████████████████████████████████████▏                          | 447/681 [31:38<09:51,  2.53s/it]
                                                                                                                     
{'loss': 1.2871, 'grad_norm': 12.893980026245117, 'learning_rate': 1.608874379754465e-07, 'beta_dpo/gap_mean': 110.31854248046875, 'beta_dpo/gap_std': 135.51388549804688, 'beta_dpo/beta_used_raw': -0.2607978880405426, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4422151446342468, 'logits/rejected': -0.45059633255004883, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 122.02387237548828, 'beta_dpo/beta_margin_mean': 0.12202388048171997, 'beta_dpo/beta_margin_std': 0.14478100836277008, 'beta_dpo/beta_margin_grad_mean': -0.4698044955730438, 'beta_dpo/beta_margin_grad_std': 0.03518033027648926, 'epoch': 0.66}

 66%|███████████████████████████████████████████████████▏                          | 447/681 [31:38<09:51,  2.53s/it]
 66%|███████████████████████████████████████████████████▎                          | 448/681 [31:40<09:52,  2.54s/it]
                                                                                                                     
{'loss': 0.6614, 'grad_norm': 4.838625907897949, 'learning_rate': 1.5968958345321177e-07, 'beta_dpo/gap_mean': 111.61314392089844, 'beta_dpo/gap_std': 135.30453491210938, 'beta_dpo/beta_used_raw': -0.4037218689918518, 'beta_dpo/beta_used': 0.8242188692092896, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3758270740509033, 'logits/rejected': -0.3679637312889099, 'beta_dpo/beta': 0.8242188692092896, 'beta_dpo/loss_margin_mean': 128.5632781982422, 'beta_dpo/beta_margin_mean': 125.9197998046875, 'beta_dpo/beta_margin_std': 187.5569305419922, 'beta_dpo/beta_margin_grad_mean': -0.2527080774307251, 'beta_dpo/beta_margin_grad_std': 0.254643052816391, 'epoch': 0.66}

 66%|███████████████████████████████████████████████████▎                          | 448/681 [31:40<09:52,  2.54s/it]
 66%|███████████████████████████████████████████████████▍                          | 449/681 [31:43<09:45,  2.53s/it]
                                                                                                                     
{'loss': 1.2892, 'grad_norm': 8.870427131652832, 'learning_rate': 1.584941086944423e-07, 'beta_dpo/gap_mean': 113.01295471191406, 'beta_dpo/gap_std': 139.9627685546875, 'beta_dpo/beta_used_raw': -0.4290629029273987, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4272603690624237, 'logits/rejected': -0.40170085430145264, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 108.83658599853516, 'beta_dpo/beta_margin_mean': 0.1088365912437439, 'beta_dpo/beta_margin_std': 0.17029906809329987, 'beta_dpo/beta_margin_grad_mean': -0.4730731248855591, 'beta_dpo/beta_margin_grad_std': 0.04196110740303993, 'epoch': 0.66}

 66%|███████████████████████████████████████████████████▍                          | 449/681 [31:43<09:45,  2.53s/it]
 66%|███████████████████████████████████████████████████▌                          | 450/681 [31:45<09:42,  2.52s/it]
                                                                                                                     
{'loss': 1.2847, 'grad_norm': 9.47729206085205, 'learning_rate': 1.573010452010098e-07, 'beta_dpo/gap_mean': 113.51698303222656, 'beta_dpo/gap_std': 141.5602264404297, 'beta_dpo/beta_used_raw': -0.313100129365921, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3865205645561218, 'logits/rejected': -0.38359227776527405, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 121.2069091796875, 'beta_dpo/beta_margin_mean': 0.12120691686868668, 'beta_dpo/beta_margin_std': 0.13755354285240173, 'beta_dpo/beta_margin_grad_mean': -0.46986889839172363, 'beta_dpo/beta_margin_grad_std': 0.0339692123234272, 'epoch': 0.66}

 66%|███████████████████████████████████████████████████▌                          | 450/681 [31:45<09:42,  2.52s/it]
 66%|███████████████████████████████████████████████████▋                          | 451/681 [31:47<09:19,  2.43s/it]
                                                                                                                     
{'loss': 7.5031, 'grad_norm': 3518.580078125, 'learning_rate': 1.5611042441124687e-07, 'beta_dpo/gap_mean': 110.95838928222656, 'beta_dpo/gap_std': 140.57334899902344, 'beta_dpo/beta_used_raw': -0.24944308400154114, 'beta_dpo/beta_used': 0.3940798044204712, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3372274339199066, 'logits/rejected': -0.3046179413795471, 'beta_dpo/beta': 0.3940798044204712, 'beta_dpo/loss_margin_mean': 94.27608489990234, 'beta_dpo/beta_margin_mean': 42.9352912902832, 'beta_dpo/beta_margin_std': 87.50625610351562, 'beta_dpo/beta_margin_grad_mean': -0.33411669731140137, 'beta_dpo/beta_margin_grad_std': 0.31294018030166626, 'epoch': 0.66}

 66%|███████████████████████████████████████████████████▋                          | 451/681 [31:48<09:19,  2.43s/it]
 66%|███████████████████████████████████████████████████▊                          | 452/681 [31:50<09:26,  2.47s/it]
                                                                                                                     
{'loss': 12.507, 'grad_norm': 4123.4677734375, 'learning_rate': 1.549222776991186e-07, 'beta_dpo/gap_mean': 111.77011108398438, 'beta_dpo/gap_std': 139.58013916015625, 'beta_dpo/beta_used_raw': 0.7567883729934692, 'beta_dpo/beta_used': 0.7567883729934692, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3441423773765564, 'logits/rejected': -0.35753265023231506, 'beta_dpo/beta': 0.7567883729934692, 'beta_dpo/loss_margin_mean': 117.5452651977539, 'beta_dpo/beta_margin_mean': 89.04338073730469, 'beta_dpo/beta_margin_std': 102.09488677978516, 'beta_dpo/beta_margin_grad_mean': -0.17167411744594574, 'beta_dpo/beta_margin_grad_std': 0.37626853585243225, 'epoch': 0.66}

 66%|███████████████████████████████████████████████████▊                          | 452/681 [31:50<09:26,  2.47s/it]
 67%|███████████████████████████████████████████████████▉                          | 453/681 [31:52<09:19,  2.46s/it]
                                                                                                                     
{'loss': 1.2991, 'grad_norm': 8.228669166564941, 'learning_rate': 1.5373663637339584e-07, 'beta_dpo/gap_mean': 111.07215881347656, 'beta_dpo/gap_std': 140.66952514648438, 'beta_dpo/beta_used_raw': -1.122417688369751, 'beta_dpo/beta_used': 0.0010159736266359687, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.4157373905181885, 'logits/rejected': -0.38169363141059875, 'beta_dpo/beta': 0.0010159736266359687, 'beta_dpo/loss_margin_mean': 99.66301727294922, 'beta_dpo/beta_margin_mean': 0.10151873528957367, 'beta_dpo/beta_margin_std': 0.14481480419635773, 'beta_dpo/beta_margin_grad_mean': -0.47485530376434326, 'beta_dpo/beta_margin_grad_std': 0.03558202460408211, 'epoch': 0.67}

 67%|███████████████████████████████████████████████████▉                          | 453/681 [31:53<09:19,  2.46s/it]
 67%|████████████████████████████████████████████████████                          | 454/681 [31:55<09:29,  2.51s/it]
                                                                                                                     
{'loss': 1.2903, 'grad_norm': 7.617781162261963, 'learning_rate': 1.5255353167683017e-07, 'beta_dpo/gap_mean': 112.77023315429688, 'beta_dpo/gap_std': 141.88412475585938, 'beta_dpo/beta_used_raw': -0.6103986501693726, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3238060176372528, 'logits/rejected': -0.2969810962677002, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 128.04446411132812, 'beta_dpo/beta_margin_mean': 0.1280444711446762, 'beta_dpo/beta_margin_std': 0.15373089909553528, 'beta_dpo/beta_margin_grad_mean': -0.46827903389930725, 'beta_dpo/beta_margin_grad_std': 0.03779821842908859, 'epoch': 0.67}

 67%|████████████████████████████████████████████████████                          | 454/681 [31:55<09:29,  2.51s/it]
 67%|████████████████████████████████████████████████████                          | 455/681 [31:58<09:27,  2.51s/it]
                                                                                                                     
{'loss': 0.7604, 'grad_norm': 257.9051208496094, 'learning_rate': 1.5137299478533064e-07, 'beta_dpo/gap_mean': 119.1419677734375, 'beta_dpo/gap_std': 145.837158203125, 'beta_dpo/beta_used_raw': 0.23084740340709686, 'beta_dpo/beta_used': 0.23283345997333527, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3444521725177765, 'logits/rejected': -0.35367467999458313, 'beta_dpo/beta': 0.23283345997333527, 'beta_dpo/loss_margin_mean': 164.03538513183594, 'beta_dpo/beta_margin_mean': 31.724552154541016, 'beta_dpo/beta_margin_std': 55.67319107055664, 'beta_dpo/beta_margin_grad_mean': -0.27318888902664185, 'beta_dpo/beta_margin_grad_std': 0.2729749083518982, 'epoch': 0.67}

 67%|████████████████████████████████████████████████████                          | 455/681 [31:58<09:27,  2.51s/it]
 67%|████████████████████████████████████████████████████▏                         | 456/681 [32:00<09:34,  2.55s/it]
                                                                                                                     
{'loss': 0.9313, 'grad_norm': 182.11668395996094, 'learning_rate': 1.5019505680714232e-07, 'beta_dpo/gap_mean': 127.31085205078125, 'beta_dpo/gap_std': 151.3060302734375, 'beta_dpo/beta_used_raw': -0.5959498286247253, 'beta_dpo/beta_used': 0.028770416975021362, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.36195001006126404, 'logits/rejected': -0.3621336817741394, 'beta_dpo/beta': 0.028770416975021362, 'beta_dpo/loss_margin_mean': 154.75982666015625, 'beta_dpo/beta_margin_mean': 4.620020866394043, 'beta_dpo/beta_margin_std': 7.49506950378418, 'beta_dpo/beta_margin_grad_mean': -0.30041444301605225, 'beta_dpo/beta_margin_grad_std': 0.25256428122520447, 'epoch': 0.67}

 67%|████████████████████████████████████████████████████▏                         | 456/681 [32:00<09:34,  2.55s/it]
 67%|████████████████████████████████████████████████████▎                         | 457/681 [32:03<09:33,  2.56s/it]
                                                                                                                     
{'loss': 1.9311, 'grad_norm': 2250.94482421875, 'learning_rate': 1.4901974878202627e-07, 'beta_dpo/gap_mean': 128.869873046875, 'beta_dpo/gap_std': 148.14273071289062, 'beta_dpo/beta_used_raw': 0.25765174627304077, 'beta_dpo/beta_used': 0.9050564765930176, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35765865445137024, 'logits/rejected': -0.3306649625301361, 'beta_dpo/beta': 0.9050564765930176, 'beta_dpo/loss_margin_mean': 125.5430908203125, 'beta_dpo/beta_margin_mean': 119.8252182006836, 'beta_dpo/beta_margin_std': 193.12596130371094, 'beta_dpo/beta_margin_grad_mean': -0.3133964538574219, 'beta_dpo/beta_margin_grad_std': 0.30206099152565, 'epoch': 0.67}

 67%|████████████████████████████████████████████████████▎                         | 457/681 [32:03<09:33,  2.56s/it]
 67%|████████████████████████████████████████████████████▍                         | 458/681 [32:05<09:20,  2.51s/it]
                                                                                                                     
{'loss': 1.2669, 'grad_norm': 7.672088146209717, 'learning_rate': 1.4784710168044212e-07, 'beta_dpo/gap_mean': 133.1038818359375, 'beta_dpo/gap_std': 151.08180236816406, 'beta_dpo/beta_used_raw': -0.31320202350616455, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3376292586326599, 'logits/rejected': -0.31968408823013306, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 156.4623565673828, 'beta_dpo/beta_margin_mean': 0.15646237134933472, 'beta_dpo/beta_margin_std': 0.1608007401227951, 'beta_dpo/beta_margin_grad_mean': -0.46133655309677124, 'beta_dpo/beta_margin_grad_std': 0.03900197148323059, 'epoch': 0.67}

 67%|████████████████████████████████████████████████████▍                         | 458/681 [32:05<09:20,  2.51s/it]
 67%|████████████████████████████████████████████████████▌                         | 459/681 [32:08<09:24,  2.54s/it]
                                                                                                                     
{'loss': 1.2765, 'grad_norm': 7.513828754425049, 'learning_rate': 1.466771464027316e-07, 'beta_dpo/gap_mean': 132.22055053710938, 'beta_dpo/gap_std': 149.7262420654297, 'beta_dpo/beta_used_raw': -0.7991423606872559, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3106893301010132, 'logits/rejected': -0.30481159687042236, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 125.19963073730469, 'beta_dpo/beta_margin_mean': 0.12519963085651398, 'beta_dpo/beta_margin_std': 0.14195367693901062, 'beta_dpo/beta_margin_grad_mean': -0.46891355514526367, 'beta_dpo/beta_margin_grad_std': 0.03510946035385132, 'epoch': 0.67}

 67%|████████████████████████████████████████████████████▌                         | 459/681 [32:08<09:24,  2.54s/it]
 68%|████████████████████████████████████████████████████▋                         | 460/681 [32:11<09:30,  2.58s/it]
                                                                                                                     
{'loss': 1.2756, 'grad_norm': 9.385546684265137, 'learning_rate': 1.4550991377830423e-07, 'beta_dpo/gap_mean': 132.47604370117188, 'beta_dpo/gap_std': 149.71617126464844, 'beta_dpo/beta_used_raw': -0.736950159072876, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35042130947113037, 'logits/rejected': -0.36293381452560425, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 135.55874633789062, 'beta_dpo/beta_margin_mean': 0.13555875420570374, 'beta_dpo/beta_margin_std': 0.15229398012161255, 'beta_dpo/beta_margin_grad_mean': -0.46639198064804077, 'beta_dpo/beta_margin_grad_std': 0.03753071278333664, 'epoch': 0.68}

 68%|████████████████████████████████████████████████████▋                         | 460/681 [32:11<09:30,  2.58s/it]
 68%|████████████████████████████████████████████████████▊                         | 461/681 [32:13<09:33,  2.61s/it]
                                                                                                                     
{'loss': 1.2997, 'grad_norm': 9.00002670288086, 'learning_rate': 1.4434543456482518e-07, 'beta_dpo/gap_mean': 128.8672637939453, 'beta_dpo/gap_std': 150.39163208007812, 'beta_dpo/beta_used_raw': -2.1008927822113037, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3559180200099945, 'logits/rejected': -0.3427043855190277, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 114.12368774414062, 'beta_dpo/beta_margin_mean': 0.11412369459867477, 'beta_dpo/beta_margin_std': 0.15732567012310028, 'beta_dpo/beta_margin_grad_mean': -0.4717380404472351, 'beta_dpo/beta_margin_grad_std': 0.03876164183020592, 'epoch': 0.68}

 68%|████████████████████████████████████████████████████▊                         | 461/681 [32:13<09:33,  2.61s/it]
 68%|████████████████████████████████████████████████████▉                         | 462/681 [32:16<09:24,  2.58s/it]
                                                                                                                     
{'loss': 1.3102, 'grad_norm': 9.362037658691406, 'learning_rate': 1.4318373944740484e-07, 'beta_dpo/gap_mean': 123.946533203125, 'beta_dpo/gap_std': 149.71881103515625, 'beta_dpo/beta_used_raw': -2.4599204063415527, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3212631940841675, 'logits/rejected': -0.29980742931365967, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 86.9663314819336, 'beta_dpo/beta_margin_mean': 0.08696634322404861, 'beta_dpo/beta_margin_std': 0.1362220048904419, 'beta_dpo/beta_margin_grad_mean': -0.4784083962440491, 'beta_dpo/beta_margin_grad_std': 0.03373510017991066, 'epoch': 0.68}

 68%|████████████████████████████████████████████████████▉                         | 462/681 [32:16<09:24,  2.58s/it]
 68%|█████████████████████████████████████████████████████                         | 463/681 [32:18<09:12,  2.54s/it]
                                                                                                                     
{'loss': 7.63, 'grad_norm': 3597.947021484375, 'learning_rate': 1.4202485903778976e-07, 'beta_dpo/gap_mean': 119.78553771972656, 'beta_dpo/gap_std': 151.25320434570312, 'beta_dpo/beta_used_raw': -0.2606269419193268, 'beta_dpo/beta_used': 0.2805536985397339, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3247862458229065, 'logits/rejected': -0.3129928708076477, 'beta_dpo/beta': 0.2805536985397339, 'beta_dpo/loss_margin_mean': 117.82292938232422, 'beta_dpo/beta_margin_mean': 38.56230926513672, 'beta_dpo/beta_margin_std': 81.53507232666016, 'beta_dpo/beta_margin_grad_mean': -0.3316049575805664, 'beta_dpo/beta_margin_grad_std': 0.31257641315460205, 'epoch': 0.68}

 68%|█████████████████████████████████████████████████████                         | 463/681 [32:18<09:12,  2.54s/it]
 68%|█████████████████████████████████████████████████████▏                        | 464/681 [32:20<08:53,  2.46s/it]
                                                                                                                     
{'loss': 29.0936, 'grad_norm': 10341.1005859375, 'learning_rate': 1.4086882387355658e-07, 'beta_dpo/gap_mean': 131.84754943847656, 'beta_dpo/gap_std': 157.7271728515625, 'beta_dpo/beta_used_raw': 2.1228408813476562, 'beta_dpo/beta_used': 2.1228408813476562, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3156416118144989, 'logits/rejected': -0.3281491696834564, 'beta_dpo/beta': 2.1228408813476562, 'beta_dpo/loss_margin_mean': 192.6825714111328, 'beta_dpo/beta_margin_mean': 394.66033935546875, 'beta_dpo/beta_margin_std': 431.92449951171875, 'beta_dpo/beta_margin_grad_mean': -0.12389523535966873, 'beta_dpo/beta_margin_grad_std': 0.3279002010822296, 'epoch': 0.68}

 68%|█████████████████████████████████████████████████████▏                        | 464/681 [32:20<08:53,  2.46s/it]
 68%|█████████████████████████████████████████████████████▎                        | 465/681 [32:23<09:09,  2.55s/it]
                                                                                                                     
{'loss': 8.3958, 'grad_norm': 4897.61328125, 'learning_rate': 1.3971566441730714e-07, 'beta_dpo/gap_mean': 137.17782592773438, 'beta_dpo/gap_std': 158.68795776367188, 'beta_dpo/beta_used_raw': 0.4801773428916931, 'beta_dpo/beta_used': 0.4801773428916931, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.31099051237106323, 'logits/rejected': -0.305058091878891, 'beta_dpo/beta': 0.4801773428916931, 'beta_dpo/loss_margin_mean': 162.17996215820312, 'beta_dpo/beta_margin_mean': 81.35899353027344, 'beta_dpo/beta_margin_std': 94.96959686279297, 'beta_dpo/beta_margin_grad_mean': -0.16912737488746643, 'beta_dpo/beta_margin_grad_std': 0.37140730023384094, 'epoch': 0.68}

 68%|█████████████████████████████████████████████████████▎                        | 465/681 [32:23<09:09,  2.55s/it]
 68%|█████████████████████████████████████████████████████▎                        | 466/681 [32:26<09:27,  2.64s/it]
                                                                                                                     
{'loss': 1.2206, 'grad_norm': 1151.1441650390625, 'learning_rate': 1.3856541105586545e-07, 'beta_dpo/gap_mean': 139.38119506835938, 'beta_dpo/gap_std': 160.36859130859375, 'beta_dpo/beta_used_raw': -0.26916056871414185, 'beta_dpo/beta_used': 0.22260768711566925, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3135194778442383, 'logits/rejected': -0.3104793429374695, 'beta_dpo/beta': 0.22260768711566925, 'beta_dpo/loss_margin_mean': 131.21505737304688, 'beta_dpo/beta_margin_mean': 33.30300521850586, 'beta_dpo/beta_margin_std': 57.53418731689453, 'beta_dpo/beta_margin_grad_mean': -0.2829422950744629, 'beta_dpo/beta_margin_grad_std': 0.2813977301120758, 'epoch': 0.68}

 68%|█████████████████████████████████████████████████████▎                        | 466/681 [32:26<09:27,  2.64s/it]
 69%|█████████████████████████████████████████████████████▍                        | 467/681 [32:29<09:26,  2.65s/it]
                                                                                                                     
{'loss': 1.292, 'grad_norm': 9.571708679199219, 'learning_rate': 1.3741809409947729e-07, 'beta_dpo/gap_mean': 137.7141571044922, 'beta_dpo/gap_std': 169.05447387695312, 'beta_dpo/beta_used_raw': -1.9833605289459229, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.31644725799560547, 'logits/rejected': -0.29425540566444397, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 125.64309692382812, 'beta_dpo/beta_margin_mean': 0.12564310431480408, 'beta_dpo/beta_margin_std': 0.21079717576503754, 'beta_dpo/beta_margin_grad_mean': -0.4690595865249634, 'beta_dpo/beta_margin_grad_std': 0.05179882049560547, 'epoch': 0.69}

 69%|█████████████████████████████████████████████████████▍                        | 467/681 [32:29<09:26,  2.65s/it]
 69%|█████████████████████████████████████████████████████▌                        | 468/681 [32:31<09:24,  2.65s/it]
                                                                                                                     
{'loss': 1.9544, 'grad_norm': 2363.861083984375, 'learning_rate': 1.362737437810114e-07, 'beta_dpo/gap_mean': 136.60678100585938, 'beta_dpo/gap_std': 168.23411560058594, 'beta_dpo/beta_used_raw': 0.5442880988121033, 'beta_dpo/beta_used': 0.5442880988121033, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3771149516105652, 'logits/rejected': -0.3516891598701477, 'beta_dpo/beta': 0.5442880988121033, 'beta_dpo/loss_margin_mean': 139.57421875, 'beta_dpo/beta_margin_mean': 83.84257507324219, 'beta_dpo/beta_margin_std': 139.0602569580078, 'beta_dpo/beta_margin_grad_mean': -0.17244772613048553, 'beta_dpo/beta_margin_grad_std': 0.3269096910953522, 'epoch': 0.69}

 69%|█████████████████████████████████████████████████████▌                        | 468/681 [32:31<09:24,  2.65s/it]
 69%|█████████████████████████████████████████████████████▋                        | 469/681 [32:34<09:29,  2.69s/it]
                                                                                                                     
{'loss': 5.6201, 'grad_norm': 4023.0234375, 'learning_rate': 1.351323902551631e-07, 'beta_dpo/gap_mean': 139.35459899902344, 'beta_dpo/gap_std': 167.7623291015625, 'beta_dpo/beta_used_raw': 0.13212749361991882, 'beta_dpo/beta_used': 0.5691275596618652, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3229216933250427, 'logits/rejected': -0.2937919497489929, 'beta_dpo/beta': 0.5691275596618652, 'beta_dpo/loss_margin_mean': 148.57752990722656, 'beta_dpo/beta_margin_mean': 104.36015319824219, 'beta_dpo/beta_margin_std': 166.2760467529297, 'beta_dpo/beta_margin_grad_mean': -0.2979428172111511, 'beta_dpo/beta_margin_grad_std': 0.2913264036178589, 'epoch': 0.69}

 69%|█████████████████████████████████████████████████████▋                        | 469/681 [32:34<09:29,  2.69s/it]
 69%|█████████████████████████████████████████████████████▊                        | 470/681 [32:37<09:07,  2.60s/it]
                                                                                                                     
{'loss': 1.8137, 'grad_norm': 635.5731201171875, 'learning_rate': 1.339940635976592e-07, 'beta_dpo/gap_mean': 140.06040954589844, 'beta_dpo/gap_std': 169.35638427734375, 'beta_dpo/beta_used_raw': -0.260947585105896, 'beta_dpo/beta_used': 0.058329131454229355, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2994263470172882, 'logits/rejected': -0.2865986227989197, 'beta_dpo/beta': 0.058329131454229355, 'beta_dpo/loss_margin_mean': 151.863525390625, 'beta_dpo/beta_margin_mean': 8.915841102600098, 'beta_dpo/beta_margin_std': 17.628265380859375, 'beta_dpo/beta_margin_grad_mean': -0.30150657892227173, 'beta_dpo/beta_margin_grad_std': 0.2844862639904022, 'epoch': 0.69}

 69%|█████████████████████████████████████████████████████▊                        | 470/681 [32:37<09:07,  2.60s/it]
 69%|█████████████████████████████████████████████████████▉                        | 471/681 [32:39<08:50,  2.52s/it]
                                                                                                                     
{'loss': 1.5718, 'grad_norm': 660.4382934570312, 'learning_rate': 1.3285879380446563e-07, 'beta_dpo/gap_mean': 141.4301300048828, 'beta_dpo/gap_std': 166.99551391601562, 'beta_dpo/beta_used_raw': -1.259301781654358, 'beta_dpo/beta_used': 0.14344525337219238, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3323206603527069, 'logits/rejected': -0.301265686750412, 'beta_dpo/beta': 0.14344525337219238, 'beta_dpo/loss_margin_mean': 137.1492462158203, 'beta_dpo/beta_margin_mean': 23.80760955810547, 'beta_dpo/beta_margin_std': 40.966461181640625, 'beta_dpo/beta_margin_grad_mean': -0.32090723514556885, 'beta_dpo/beta_margin_grad_std': 0.296132355928421, 'epoch': 0.69}

 69%|█████████████████████████████████████████████████████▉                        | 471/681 [32:39<08:50,  2.52s/it]
 69%|██████████████████████████████████████████████████████                        | 472/681 [32:42<09:08,  2.62s/it]
                                                                                                                     
{'loss': 1.2787, 'grad_norm': 9.515340805053711, 'learning_rate': 1.317266107909975e-07, 'beta_dpo/gap_mean': 141.42642211914062, 'beta_dpo/gap_std': 171.97683715820312, 'beta_dpo/beta_used_raw': -1.5177662372589111, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.46395474672317505, 'logits/rejected': -0.4258913993835449, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 153.0021514892578, 'beta_dpo/beta_margin_mean': 0.15300215780735016, 'beta_dpo/beta_margin_std': 0.2004023641347885, 'beta_dpo/beta_margin_grad_mean': -0.46238476037979126, 'beta_dpo/beta_margin_grad_std': 0.048712510615587234, 'epoch': 0.69}

 69%|██████████████████████████████████████████████████████                        | 472/681 [32:42<09:08,  2.62s/it]
 69%|██████████████████████████████████████████████████████▏                       | 473/681 [32:44<09:10,  2.65s/it]
                                                                                                                     
{'loss': 2.9427, 'grad_norm': 874.2503051757812, 'learning_rate': 1.3059754439133002e-07, 'beta_dpo/gap_mean': 136.3826141357422, 'beta_dpo/gap_std': 172.83595275878906, 'beta_dpo/beta_used_raw': -2.1221091747283936, 'beta_dpo/beta_used': 0.12622235715389252, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3121126890182495, 'logits/rejected': -0.27456527948379517, 'beta_dpo/beta': 0.12622235715389252, 'beta_dpo/loss_margin_mean': 98.95618438720703, 'beta_dpo/beta_margin_mean': 11.348122596740723, 'beta_dpo/beta_margin_std': 32.52213668823242, 'beta_dpo/beta_margin_grad_mean': -0.3606536090373993, 'beta_dpo/beta_margin_grad_std': 0.32541587948799133, 'epoch': 0.69}

 69%|██████████████████████████████████████████████████████▏                       | 473/681 [32:44<09:10,  2.65s/it]
 70%|██████████████████████████████████████████████████████▎                       | 474/681 [32:47<09:14,  2.68s/it]
                                                                                                                     
{'loss': 1.019, 'grad_norm': 241.4309539794922, 'learning_rate': 1.2947162435741277e-07, 'beta_dpo/gap_mean': 128.73321533203125, 'beta_dpo/gap_std': 170.72265625, 'beta_dpo/beta_used_raw': -1.1924772262573242, 'beta_dpo/beta_used': 0.03025379776954651, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3187577426433563, 'logits/rejected': -0.31267520785331726, 'beta_dpo/beta': 0.03025379776954651, 'beta_dpo/loss_margin_mean': 102.19025421142578, 'beta_dpo/beta_margin_mean': 3.4796054363250732, 'beta_dpo/beta_margin_std': 7.700491428375244, 'beta_dpo/beta_margin_grad_mean': -0.3477736711502075, 'beta_dpo/beta_margin_grad_std': 0.26919984817504883, 'epoch': 0.7}

 70%|██████████████████████████████████████████████████████▎                       | 474/681 [32:47<09:14,  2.68s/it]
 70%|██████████████████████████████████████████████████████▍                       | 475/681 [32:50<08:58,  2.62s/it]
                                                                                                                     
{'loss': 1.2878, 'grad_norm': 7.302783966064453, 'learning_rate': 1.2834888035828596e-07, 'beta_dpo/gap_mean': 130.75253295898438, 'beta_dpo/gap_std': 168.95263671875, 'beta_dpo/beta_used_raw': -1.4561372995376587, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3118668496608734, 'logits/rejected': -0.32232552766799927, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 145.15594482421875, 'beta_dpo/beta_margin_mean': 0.14515595138072968, 'beta_dpo/beta_margin_std': 0.1593308448791504, 'beta_dpo/beta_margin_grad_mean': -0.4640824496746063, 'beta_dpo/beta_margin_grad_std': 0.03909669071435928, 'epoch': 0.7}

 70%|██████████████████████████████████████████████████████▍                       | 475/681 [32:50<08:58,  2.62s/it]
 70%|██████████████████████████████████████████████████████▌                       | 476/681 [32:52<08:52,  2.60s/it]
                                                                                                                     
{'loss': 1.2757, 'grad_norm': 10.900651931762695, 'learning_rate': 1.2722934197929802e-07, 'beta_dpo/gap_mean': 130.04847717285156, 'beta_dpo/gap_std': 165.11314392089844, 'beta_dpo/beta_used_raw': -0.6184031367301941, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32981306314468384, 'logits/rejected': -0.3277033567428589, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 123.46017456054688, 'beta_dpo/beta_margin_mean': 0.12346017360687256, 'beta_dpo/beta_margin_std': 0.13980108499526978, 'beta_dpo/beta_margin_grad_mean': -0.4693569839000702, 'beta_dpo/beta_margin_grad_std': 0.03457416966557503, 'epoch': 0.7}

 70%|██████████████████████████████████████████████████████▌                       | 476/681 [32:52<08:52,  2.60s/it]
 70%|██████████████████████████████████████████████████████▋                       | 477/681 [32:55<08:47,  2.59s/it]
                                                                                                                     
{'loss': 1.9278, 'grad_norm': 881.2789306640625, 'learning_rate': 1.2611303872132631e-07, 'beta_dpo/gap_mean': 129.47628784179688, 'beta_dpo/gap_std': 165.23104858398438, 'beta_dpo/beta_used_raw': -0.9268441200256348, 'beta_dpo/beta_used': 0.08377163857221603, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34101468324661255, 'logits/rejected': -0.27440470457077026, 'beta_dpo/beta': 0.08377163857221603, 'beta_dpo/loss_margin_mean': 131.6189727783203, 'beta_dpo/beta_margin_mean': 9.991097450256348, 'beta_dpo/beta_margin_std': 23.768993377685547, 'beta_dpo/beta_margin_grad_mean': -0.3329217731952667, 'beta_dpo/beta_margin_grad_std': 0.2996887266635895, 'epoch': 0.7}

 70%|██████████████████████████████████████████████████████▋                       | 477/681 [32:55<08:47,  2.59s/it]
 70%|██████████████████████████████████████████████████████▋                       | 478/681 [32:58<09:10,  2.71s/it]
                                                                                                                     
{'loss': 1.2777, 'grad_norm': 8.391778945922852, 'learning_rate': 1.2500000000000005e-07, 'beta_dpo/gap_mean': 131.2724609375, 'beta_dpo/gap_std': 162.33258056640625, 'beta_dpo/beta_used_raw': -0.9066869616508484, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3239785432815552, 'logits/rejected': -0.3198069930076599, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 147.8665771484375, 'beta_dpo/beta_margin_mean': 0.14786657691001892, 'beta_dpo/beta_margin_std': 0.16245287656784058, 'beta_dpo/beta_margin_grad_mean': -0.46343475580215454, 'beta_dpo/beta_margin_grad_std': 0.039767127484083176, 'epoch': 0.7}

 70%|██████████████████████████████████████████████████████▋                       | 478/681 [32:58<09:10,  2.71s/it]
 70%|██████████████████████████████████████████████████████▊                       | 479/681 [33:00<08:59,  2.67s/it]
                                                                                                                     
{'loss': 1.2909, 'grad_norm': 9.221752166748047, 'learning_rate': 1.2389025514492456e-07, 'beta_dpo/gap_mean': 130.87498474121094, 'beta_dpo/gap_std': 161.7484893798828, 'beta_dpo/beta_used_raw': -1.6241159439086914, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3099960684776306, 'logits/rejected': -0.3118622601032257, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 130.71371459960938, 'beta_dpo/beta_margin_mean': 0.13071373105049133, 'beta_dpo/beta_margin_std': 0.16454558074474335, 'beta_dpo/beta_margin_grad_mean': -0.4676341712474823, 'beta_dpo/beta_margin_grad_std': 0.04058250039815903, 'epoch': 0.7}

 70%|██████████████████████████████████████████████████████▊                       | 479/681 [33:00<08:59,  2.67s/it]
 70%|██████████████████████████████████████████████████████▉                       | 480/681 [33:03<08:48,  2.63s/it]
                                                                                                                     
{'loss': 4.3921, 'grad_norm': 1865.645751953125, 'learning_rate': 1.227838333989088e-07, 'beta_dpo/gap_mean': 128.6205596923828, 'beta_dpo/gap_std': 162.02749633789062, 'beta_dpo/beta_used_raw': -1.191691517829895, 'beta_dpo/beta_used': 0.13506542146205902, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2958667278289795, 'logits/rejected': -0.261913537979126, 'beta_dpo/beta': 0.13506542146205902, 'beta_dpo/loss_margin_mean': 111.26964569091797, 'beta_dpo/beta_margin_mean': 20.978227615356445, 'beta_dpo/beta_margin_std': 46.153724670410156, 'beta_dpo/beta_margin_grad_mean': -0.3352108895778656, 'beta_dpo/beta_margin_grad_std': 0.31329280138015747, 'epoch': 0.7}

 70%|██████████████████████████████████████████████████████▉                       | 480/681 [33:03<08:48,  2.63s/it]
 71%|███████████████████████████████████████████████████████                       | 481/681 [33:05<08:37,  2.59s/it]
                                                                                                                     
{'loss': 10.966, 'grad_norm': 6225.22705078125, 'learning_rate': 1.2168076391719489e-07, 'beta_dpo/gap_mean': 132.35614013671875, 'beta_dpo/gap_std': 165.59747314453125, 'beta_dpo/beta_used_raw': -0.41111305356025696, 'beta_dpo/beta_used': 0.4420124888420105, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29309454560279846, 'logits/rejected': -0.2821449935436249, 'beta_dpo/beta': 0.4420124888420105, 'beta_dpo/loss_margin_mean': 140.51625061035156, 'beta_dpo/beta_margin_mean': 69.89620208740234, 'beta_dpo/beta_margin_std': 127.26205444335938, 'beta_dpo/beta_margin_grad_mean': -0.32656970620155334, 'beta_dpo/beta_margin_grad_std': 0.3070107102394104, 'epoch': 0.71}

 71%|███████████████████████████████████████████████████████                       | 481/681 [33:05<08:37,  2.59s/it]
 71%|███████████████████████████████████████████████████████▏                      | 482/681 [33:08<08:40,  2.61s/it]
                                                                                                                     
{'loss': 1.2958, 'grad_norm': 7.6943440437316895, 'learning_rate': 1.2058107576668938e-07, 'beta_dpo/gap_mean': 127.62977600097656, 'beta_dpo/gap_std': 167.57472229003906, 'beta_dpo/beta_used_raw': -1.7888857126235962, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33630889654159546, 'logits/rejected': -0.3210619390010834, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 99.38764190673828, 'beta_dpo/beta_margin_mean': 0.09938764572143555, 'beta_dpo/beta_margin_std': 0.172020822763443, 'beta_dpo/beta_margin_grad_mean': -0.47538548707962036, 'beta_dpo/beta_margin_grad_std': 0.0424528568983078, 'epoch': 0.71}

 71%|███████████████████████████████████████████████████████▏                      | 482/681 [33:08<08:40,  2.61s/it]
 71%|███████████████████████████████████████████████████████▎                      | 483/681 [33:11<08:31,  2.58s/it]
                                                                                                                     
{'loss': 1.3205, 'grad_norm': 1278.6922607421875, 'learning_rate': 1.194847979251979e-07, 'beta_dpo/gap_mean': 130.0849151611328, 'beta_dpo/gap_std': 171.31443786621094, 'beta_dpo/beta_used_raw': 0.08599334955215454, 'beta_dpo/beta_used': 0.26435208320617676, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3326480984687805, 'logits/rejected': -0.2999170124530792, 'beta_dpo/beta': 0.26435208320617676, 'beta_dpo/loss_margin_mean': 154.75323486328125, 'beta_dpo/beta_margin_mean': 39.302825927734375, 'beta_dpo/beta_margin_std': 61.75477981567383, 'beta_dpo/beta_margin_grad_mean': -0.2773337662220001, 'beta_dpo/beta_margin_grad_std': 0.2783583700656891, 'epoch': 0.71}

 71%|███████████████████████████████████████████████████████▎                      | 483/681 [33:11<08:31,  2.58s/it]
 71%|███████████████████████████████████████████████████████▍                      | 484/681 [33:13<08:12,  2.50s/it]
                                                                                                                     
{'loss': 1.2859, 'grad_norm': 10.355823516845703, 'learning_rate': 1.1839195928066101e-07, 'beta_dpo/gap_mean': 129.75552368164062, 'beta_dpo/gap_std': 164.25143432617188, 'beta_dpo/beta_used_raw': -1.3041430711746216, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3226221203804016, 'logits/rejected': -0.2984588146209717, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 130.5736541748047, 'beta_dpo/beta_margin_mean': 0.13057366013526917, 'beta_dpo/beta_margin_std': 0.1456281840801239, 'beta_dpo/beta_margin_grad_mean': -0.46763938665390015, 'beta_dpo/beta_margin_grad_std': 0.035770609974861145, 'epoch': 0.71}

 71%|███████████████████████████████████████████████████████▍                      | 484/681 [33:13<08:12,  2.50s/it]
 71%|███████████████████████████████████████████████████████▌                      | 485/681 [33:15<08:10,  2.50s/it]
                                                                                                                     
{'loss': 17.9925, 'grad_norm': 9029.59765625, 'learning_rate': 1.1730258863039347e-07, 'beta_dpo/gap_mean': 135.1558837890625, 'beta_dpo/gap_std': 167.03604125976562, 'beta_dpo/beta_used_raw': 0.09787964820861816, 'beta_dpo/beta_used': 0.5772560238838196, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3165690302848816, 'logits/rejected': -0.30851900577545166, 'beta_dpo/beta': 0.5772560238838196, 'beta_dpo/loss_margin_mean': 159.67459106445312, 'beta_dpo/beta_margin_mean': 89.47730255126953, 'beta_dpo/beta_margin_std': 172.3997344970703, 'beta_dpo/beta_margin_grad_mean': -0.33905330300331116, 'beta_dpo/beta_margin_grad_std': 0.3175105154514313, 'epoch': 0.71}

 71%|███████████████████████████████████████████████████████▌                      | 485/681 [33:15<08:10,  2.50s/it]
 71%|███████████████████████████████████████████████████████▋                      | 486/681 [33:17<07:42,  2.37s/it]
                                                                                                                     
{'loss': 24.9742, 'grad_norm': 8708.306640625, 'learning_rate': 1.1621671468032493e-07, 'beta_dpo/gap_mean': 137.73037719726562, 'beta_dpo/gap_std': 171.21456909179688, 'beta_dpo/beta_used_raw': 0.35201627016067505, 'beta_dpo/beta_used': 0.5253121852874756, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3039623498916626, 'logits/rejected': -0.28515172004699707, 'beta_dpo/beta': 0.5253121852874756, 'beta_dpo/loss_margin_mean': 145.63682556152344, 'beta_dpo/beta_margin_mean': 79.52362823486328, 'beta_dpo/beta_margin_std': 165.96304321289062, 'beta_dpo/beta_margin_grad_mean': -0.3582148551940918, 'beta_dpo/beta_margin_grad_std': 0.32531389594078064, 'epoch': 0.71}

 71%|███████████████████████████████████████████████████████▋                      | 486/681 [33:17<07:42,  2.37s/it]
 72%|███████████████████████████████████████████████████████▊                      | 487/681 [33:20<07:54,  2.45s/it]
                                                                                                                     
{'loss': 7.4951, 'grad_norm': 4539.7001953125, 'learning_rate': 1.1513436604424378e-07, 'beta_dpo/gap_mean': 138.84857177734375, 'beta_dpo/gap_std': 166.0025634765625, 'beta_dpo/beta_used_raw': 0.6316623091697693, 'beta_dpo/beta_used': 0.6316623091697693, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3175516128540039, 'logits/rejected': -0.30147281289100647, 'beta_dpo/beta': 0.6316623091697693, 'beta_dpo/loss_margin_mean': 136.31451416015625, 'beta_dpo/beta_margin_mean': 86.09791564941406, 'beta_dpo/beta_margin_std': 80.9069595336914, 'beta_dpo/beta_margin_grad_mean': -0.15689758956432343, 'beta_dpo/beta_margin_grad_std': 0.36151018738746643, 'epoch': 0.72}

 72%|███████████████████████████████████████████████████████▊                      | 487/681 [33:20<07:54,  2.45s/it]
 72%|███████████████████████████████████████████████████████▉                      | 488/681 [33:23<08:02,  2.50s/it]
                                                                                                                     
{'loss': 1.2797, 'grad_norm': 10.171424865722656, 'learning_rate': 1.1405557124304335e-07, 'beta_dpo/gap_mean': 134.59036254882812, 'beta_dpo/gap_std': 155.66152954101562, 'beta_dpo/beta_used_raw': -1.245683193206787, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3197871446609497, 'logits/rejected': -0.2931329607963562, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 118.42108917236328, 'beta_dpo/beta_margin_mean': 0.11842110008001328, 'beta_dpo/beta_margin_std': 0.10160267353057861, 'beta_dpo/beta_margin_grad_mean': -0.4705146551132202, 'beta_dpo/beta_margin_grad_std': 0.025216443464159966, 'epoch': 0.72}

 72%|███████████████████████████████████████████████████████▉                      | 488/681 [33:23<08:02,  2.50s/it]
 72%|████████████████████████████████████████████████████████                      | 489/681 [33:25<07:58,  2.49s/it]
                                                                                                                     
{'loss': 1.3069, 'grad_norm': 7.416528701782227, 'learning_rate': 1.1298035870396985e-07, 'beta_dpo/gap_mean': 132.25436401367188, 'beta_dpo/gap_std': 150.97909545898438, 'beta_dpo/beta_used_raw': -2.862081527709961, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.39010077714920044, 'logits/rejected': -0.36551567912101746, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 118.88796997070312, 'beta_dpo/beta_margin_mean': 0.11888797581195831, 'beta_dpo/beta_margin_std': 0.13958628475666046, 'beta_dpo/beta_margin_grad_mean': -0.47052738070487976, 'beta_dpo/beta_margin_grad_std': 0.03435816988348961, 'epoch': 0.72}

 72%|████████████████████████████████████████████████████████                      | 489/681 [33:25<07:58,  2.49s/it]
 72%|████████████████████████████████████████████████████████                      | 490/681 [33:28<08:19,  2.62s/it]
                                                                                                                     
{'loss': 2.6273, 'grad_norm': 638.021728515625, 'learning_rate': 1.1190875675987355e-07, 'beta_dpo/gap_mean': 131.10269165039062, 'beta_dpo/gap_std': 152.6240692138672, 'beta_dpo/beta_used_raw': -0.9930161833763123, 'beta_dpo/beta_used': 0.058361634612083435, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.40140801668167114, 'logits/rejected': -0.4072290062904358, 'beta_dpo/beta': 0.058361634612083435, 'beta_dpo/loss_margin_mean': 133.6477813720703, 'beta_dpo/beta_margin_mean': 8.510327339172363, 'beta_dpo/beta_margin_std': 16.38105583190918, 'beta_dpo/beta_margin_grad_mean': -0.35114118456840515, 'beta_dpo/beta_margin_grad_std': 0.3123593032360077, 'epoch': 0.72}

 72%|████████████████████████████████████████████████████████                      | 490/681 [33:28<08:19,  2.62s/it]
 72%|████████████████████████████████████████████████████████▏                     | 491/681 [33:31<08:20,  2.64s/it]
                                                                                                                     
{'loss': 1.2841, 'grad_norm': 8.015692710876465, 'learning_rate': 1.1084079364846241e-07, 'beta_dpo/gap_mean': 128.78497314453125, 'beta_dpo/gap_std': 152.2926025390625, 'beta_dpo/beta_used_raw': -1.122982144355774, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3382050395011902, 'logits/rejected': -0.30560484528541565, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 108.52165985107422, 'beta_dpo/beta_margin_mean': 0.10852167010307312, 'beta_dpo/beta_margin_std': 0.14018140733242035, 'beta_dpo/beta_margin_grad_mean': -0.47306498885154724, 'beta_dpo/beta_margin_grad_std': 0.03465822711586952, 'epoch': 0.72}

 72%|████████████████████████████████████████████████████████▏                     | 491/681 [33:31<08:20,  2.64s/it]
 72%|████████████████████████████████████████████████████████▎                     | 492/681 [33:33<08:21,  2.66s/it]
                                                                                                                     
{'loss': 1.3048, 'grad_norm': 7.962594509124756, 'learning_rate': 1.097764975115576e-07, 'beta_dpo/gap_mean': 120.65419006347656, 'beta_dpo/gap_std': 151.2496337890625, 'beta_dpo/beta_used_raw': -1.9428200721740723, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32057705521583557, 'logits/rejected': -0.30018332600593567, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 79.98442840576172, 'beta_dpo/beta_margin_mean': 0.07998443394899368, 'beta_dpo/beta_margin_std': 0.14913584291934967, 'beta_dpo/beta_margin_grad_mean': -0.4801286458969116, 'beta_dpo/beta_margin_grad_std': 0.03697565570473671, 'epoch': 0.72}

 72%|████████████████████████████████████████████████████████▎                     | 492/681 [33:33<08:21,  2.66s/it]
 72%|████████████████████████████████████████████████████████▍                     | 493/681 [33:36<08:24,  2.68s/it]
                                                                                                                     
{'loss': 1.3088, 'grad_norm': 8.332205772399902, 'learning_rate': 1.0871589639435203e-07, 'beta_dpo/gap_mean': 116.27113342285156, 'beta_dpo/gap_std': 149.367431640625, 'beta_dpo/beta_used_raw': -1.9641090631484985, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3866749703884125, 'logits/rejected': -0.3490540385246277, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 98.75540924072266, 'beta_dpo/beta_margin_mean': 0.09875541180372238, 'beta_dpo/beta_margin_std': 0.13388586044311523, 'beta_dpo/beta_margin_grad_mean': -0.4754677712917328, 'beta_dpo/beta_margin_grad_std': 0.03316526114940643, 'epoch': 0.72}

 72%|████████████████████████████████████████████████████████▍                     | 493/681 [33:36<08:24,  2.68s/it]
 73%|████████████████████████████████████████████████████████▌                     | 494/681 [33:39<08:10,  2.62s/it]
                                                                                                                     
{'loss': 4.6034, 'grad_norm': 6623.4462890625, 'learning_rate': 1.0765901824467166e-07, 'beta_dpo/gap_mean': 119.46544647216797, 'beta_dpo/gap_std': 148.60195922851562, 'beta_dpo/beta_used_raw': 1.4735260009765625, 'beta_dpo/beta_used': 1.4735260009765625, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2984636425971985, 'logits/rejected': -0.31005731225013733, 'beta_dpo/beta': 1.4735260009765625, 'beta_dpo/loss_margin_mean': 145.59498596191406, 'beta_dpo/beta_margin_mean': 210.98004150390625, 'beta_dpo/beta_margin_std': 204.13458251953125, 'beta_dpo/beta_margin_grad_mean': -0.15571968257427216, 'beta_dpo/beta_margin_grad_std': 0.3583217263221741, 'epoch': 0.73}

 73%|████████████████████████████████████████████████████████▌                     | 494/681 [33:39<08:10,  2.62s/it]
 73%|████████████████████████████████████████████████████████▋                     | 495/681 [33:41<08:06,  2.62s/it]
                                                                                                                     
{'loss': 0.6957, 'grad_norm': 1850.2857666015625, 'learning_rate': 1.0660589091223854e-07, 'beta_dpo/gap_mean': 119.32475280761719, 'beta_dpo/gap_std': 148.88406372070312, 'beta_dpo/beta_used_raw': -0.09175539016723633, 'beta_dpo/beta_used': 0.5986773371696472, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3925628662109375, 'logits/rejected': -0.37049469351768494, 'beta_dpo/beta': 0.5986773371696472, 'beta_dpo/loss_margin_mean': 118.74334716796875, 'beta_dpo/beta_margin_mean': 80.61207580566406, 'beta_dpo/beta_margin_std': 141.1808624267578, 'beta_dpo/beta_margin_grad_mean': -0.2792108356952667, 'beta_dpo/beta_margin_grad_std': 0.2721221148967743, 'epoch': 0.73}

 73%|████████████████████████████████████████████████████████▋                     | 495/681 [33:41<08:06,  2.62s/it]
 73%|████████████████████████████████████████████████████████▊                     | 496/681 [33:44<08:05,  2.63s/it]
                                                                                                                     
{'loss': 1.3074, 'grad_norm': 7.529769420623779, 'learning_rate': 1.0555654214793722e-07, 'beta_dpo/gap_mean': 116.95680236816406, 'beta_dpo/gap_std': 145.31634521484375, 'beta_dpo/beta_used_raw': -1.945371389389038, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3815876245498657, 'logits/rejected': -0.34360769391059875, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 97.60633850097656, 'beta_dpo/beta_margin_mean': 0.09760633856058121, 'beta_dpo/beta_margin_std': 0.12117937952280045, 'beta_dpo/beta_margin_grad_mean': -0.4757267236709595, 'beta_dpo/beta_margin_grad_std': 0.030057376250624657, 'epoch': 0.73}

 73%|████████████████████████████████████████████████████████▊                     | 496/681 [33:44<08:05,  2.63s/it]
 73%|████████████████████████████████████████████████████████▉                     | 497/681 [33:47<08:03,  2.63s/it]
                                                                                                                     
{'loss': 2.3877, 'grad_norm': 2982.553955078125, 'learning_rate': 1.0451099960308374e-07, 'beta_dpo/gap_mean': 115.927490234375, 'beta_dpo/gap_std': 140.37762451171875, 'beta_dpo/beta_used_raw': -0.907131552696228, 'beta_dpo/beta_used': 0.8181713223457336, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3127893805503845, 'logits/rejected': -0.2815262973308563, 'beta_dpo/beta': 0.8181713223457336, 'beta_dpo/loss_margin_mean': 105.21829986572266, 'beta_dpo/beta_margin_mean': 115.75753021240234, 'beta_dpo/beta_margin_std': 177.8175506591797, 'beta_dpo/beta_margin_grad_mean': -0.27269458770751953, 'beta_dpo/beta_margin_grad_std': 0.2720523774623871, 'epoch': 0.73}

 73%|████████████████████████████████████████████████████████▉                     | 497/681 [33:47<08:03,  2.63s/it]
 73%|█████████████████████████████████████████████████████████                     | 498/681 [33:49<08:06,  2.66s/it]
                                                                                                                     
{'loss': 1.2907, 'grad_norm': 8.269208908081055, 'learning_rate': 1.0346929082869641e-07, 'beta_dpo/gap_mean': 111.99593353271484, 'beta_dpo/gap_std': 142.203369140625, 'beta_dpo/beta_used_raw': -0.5454678535461426, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3560227155685425, 'logits/rejected': -0.323871910572052, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 105.87074279785156, 'beta_dpo/beta_margin_mean': 0.10587074607610703, 'beta_dpo/beta_margin_std': 0.15012362599372864, 'beta_dpo/beta_margin_grad_mean': -0.4737287759780884, 'beta_dpo/beta_margin_grad_std': 0.037132780998945236, 'epoch': 0.73}

 73%|█████████████████████████████████████████████████████████                     | 498/681 [33:49<08:06,  2.66s/it]
 73%|█████████████████████████████████████████████████████████▏                    | 499/681 [33:52<07:54,  2.61s/it]
                                                                                                                     
{'loss': 1.0329, 'grad_norm': 825.9117431640625, 'learning_rate': 1.0243144327477013e-07, 'beta_dpo/gap_mean': 114.74722290039062, 'beta_dpo/gap_std': 141.5767822265625, 'beta_dpo/beta_used_raw': 0.6870215535163879, 'beta_dpo/beta_used': 0.6870215535163879, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30797550082206726, 'logits/rejected': -0.313708633184433, 'beta_dpo/beta': 0.6870215535163879, 'beta_dpo/loss_margin_mean': 125.64728546142578, 'beta_dpo/beta_margin_mean': 93.55929565429688, 'beta_dpo/beta_margin_std': 131.30792236328125, 'beta_dpo/beta_margin_grad_mean': -0.1571728140115738, 'beta_dpo/beta_margin_grad_std': 0.35055309534072876, 'epoch': 0.73}

 73%|█████████████████████████████████████████████████████████▏                    | 499/681 [33:52<07:54,  2.61s/it]
 73%|█████████████████████████████████████████████████████████▎                    | 500/681 [33:54<07:43,  2.56s/it]
                                                                                                                     
{'loss': 1.1587, 'grad_norm': 940.185546875, 'learning_rate': 1.0139748428955333e-07, 'beta_dpo/gap_mean': 117.69755554199219, 'beta_dpo/gap_std': 142.67498779296875, 'beta_dpo/beta_used_raw': 0.49765706062316895, 'beta_dpo/beta_used': 0.7255595922470093, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30566155910491943, 'logits/rejected': -0.30621030926704407, 'beta_dpo/beta': 0.7255595922470093, 'beta_dpo/loss_margin_mean': 134.94979858398438, 'beta_dpo/beta_margin_mean': 94.36482238769531, 'beta_dpo/beta_margin_std': 166.26669311523438, 'beta_dpo/beta_margin_grad_mean': -0.3108097314834595, 'beta_dpo/beta_margin_grad_std': 0.3008542060852051, 'epoch': 0.73}

 73%|█████████████████████████████████████████████████████████▎                    | 500/681 [33:54<07:43,  2.56s/it][INFO|trainer.py:4307] 2026-04-17 23:57:26,744 >>
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-17 23:57:26,744 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-17 23:57:26,744 >>   Batch size = 8


  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A

  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.64it/s][A

  4%|███▎                                                                             | 3/73 [00:01<00:27,  2.57it/s][A

  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.26it/s][A

  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.11it/s][A

  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.00it/s][A

 10%|███████▊                                                                         | 7/73 [00:03<00:31,  2.07it/s][A

 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.93it/s][A

 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.87it/s][A

 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.85it/s][A

 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A

 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.81it/s][A

 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.86it/s][A

 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.82it/s][A

 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.82it/s][A

 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.75it/s][A

 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.74it/s][A

 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.72it/s][A

 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.70it/s][A

 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.69it/s][A

 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.69it/s][A

 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.69it/s][A

 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:28,  1.73it/s][A

 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.74it/s][A

 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:27,  1.73it/s][A

 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.74it/s][A

 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s][A

 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.90it/s][A

 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:23,  1.91it/s][A

 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.93it/s][A

 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.85it/s][A

 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s][A

 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:20,  1.91it/s][A

 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.88it/s][A

 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.81it/s][A

 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.82it/s][A

 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.80it/s][A

 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.88it/s][A

 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:18,  1.79it/s][A

 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.81it/s][A

 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.87it/s][A

 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:17,  1.82it/s][A

 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s][A

 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.84it/s][A

 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s][A

 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.85it/s][A

 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s][A

 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:25<00:13,  1.80it/s][A

 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.78it/s][A

 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.80it/s][A

 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.78it/s][A

 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.74it/s][A

 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s][A

 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.81it/s][A

 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.81it/s][A

 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.84it/s][A

 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.76it/s][A

 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s][A

 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.85it/s][A

 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s][A

 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A

 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.76it/s][A

 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s][A

 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.95it/s][A

 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.92it/s][A

 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.84it/s][A

 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.88it/s][A

 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.83it/s][A

 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s][A

 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A

 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.80it/s][A

 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.79it/s][A

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.93it/s][A

                                                                                                                     
[A{'eval_loss': 1.3023549318313599, 'eval_runtime': 40.1743, 'eval_samples_per_second': 58.221, 'eval_steps_per_second': 1.842, 'eval_beta_dpo/beta': 0.0540650337934494, 'eval_beta_dpo/loss_margin_mean': 78.1020736694336, 'eval_beta_dpo/beta_margin_mean': 7.248837947845459, 'eval_beta_dpo/beta_margin_std': 9.07664680480957, 'eval_beta_dpo/beta_margin_grad_mean': -0.4557286202907562, 'eval_beta_dpo/beta_margin_grad_std': 0.06789226830005646, 'eval_beta_dpo/gap_mean': 118.34776306152344, 'eval_beta_dpo/gap_std': 142.3097686767578, 'eval_beta_dpo/beta_used_raw': -2.3147406578063965, 'eval_beta_dpo/beta_used': 0.0540650337934494, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.35900095105171204, 'eval_logits/rejected': -0.3353206515312195, 'epoch': 0.73}

 73%|█████████████████████████████████████████████████████████▎                    | 500/681 [34:34<07:43,  2.56s/it]

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.93it/s][A

                                                                                                                     [A
 74%|█████████████████████████████████████████████████████████▍                    | 501/681 [34:37<43:54, 14.64s/it]
                                                                                                                     
{'loss': 1.1495, 'grad_norm': 516.4696044921875, 'learning_rate': 1.0036744111882672e-07, 'beta_dpo/gap_mean': 119.19757843017578, 'beta_dpo/gap_std': 144.50363159179688, 'beta_dpo/beta_used_raw': -1.208457112312317, 'beta_dpo/beta_used': 0.08518475294113159, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2940847873687744, 'logits/rejected': -0.2648616433143616, 'beta_dpo/beta': 0.08518475294113159, 'beta_dpo/loss_margin_mean': 131.8070068359375, 'beta_dpo/beta_margin_mean': 13.289090156555176, 'beta_dpo/beta_margin_std': 21.948522567749023, 'beta_dpo/beta_margin_grad_mean': -0.31711265444755554, 'beta_dpo/beta_margin_grad_std': 0.289605975151062, 'epoch': 0.74}

 74%|█████████████████████████████████████████████████████████▍                    | 501/681 [34:37<43:54, 14.64s/it]
 74%|█████████████████████████████████████████████████████████▍                    | 502/681 [34:40<33:02, 11.08s/it]
                                                                                                                     
{'loss': 0.6492, 'grad_norm': 124.2741928100586, 'learning_rate': 9.934134090518592e-08, 'beta_dpo/gap_mean': 120.6997299194336, 'beta_dpo/gap_std': 140.1085205078125, 'beta_dpo/beta_used_raw': -0.02544143795967102, 'beta_dpo/beta_used': 0.3071337640285492, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34868794679641724, 'logits/rejected': -0.3092746138572693, 'beta_dpo/beta': 0.3071337640285492, 'beta_dpo/loss_margin_mean': 124.3865966796875, 'beta_dpo/beta_margin_mean': 44.45820617675781, 'beta_dpo/beta_margin_std': 64.65328979492188, 'beta_dpo/beta_margin_grad_mean': -0.239473357796669, 'beta_dpo/beta_margin_grad_std': 0.23620876669883728, 'epoch': 0.74}

 74%|█████████████████████████████████████████████████████████▍                    | 502/681 [34:40<33:02, 11.08s/it]
 74%|█████████████████████████████████████████████████████████▌                    | 503/681 [34:43<25:24,  8.57s/it]
                                                                                                                     
{'loss': 1.7133, 'grad_norm': 1218.5517578125, 'learning_rate': 9.831921068732571e-08, 'beta_dpo/gap_mean': 121.5184326171875, 'beta_dpo/gap_std': 136.5009765625, 'beta_dpo/beta_used_raw': -0.3279840648174286, 'beta_dpo/beta_used': 0.408588171005249, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2874418795108795, 'logits/rejected': -0.2468714714050293, 'beta_dpo/beta': 0.408588171005249, 'beta_dpo/loss_margin_mean': 114.87471008300781, 'beta_dpo/beta_margin_mean': 52.1716423034668, 'beta_dpo/beta_margin_std': 84.77537536621094, 'beta_dpo/beta_margin_grad_mean': -0.28420010209083557, 'beta_dpo/beta_margin_grad_std': 0.28162574768066406, 'epoch': 0.74}

 74%|█████████████████████████████████████████████████████████▌                    | 503/681 [34:43<25:24,  8.57s/it]
 74%|█████████████████████████████████████████████████████████▋                    | 504/681 [34:45<20:11,  6.85s/it]
                                                                                                                     
{'loss': 3.7457, 'grad_norm': 6307.01123046875, 'learning_rate': 9.730107739932805e-08, 'beta_dpo/gap_mean': 126.13829040527344, 'beta_dpo/gap_std': 136.19711303710938, 'beta_dpo/beta_used_raw': 0.7455565929412842, 'beta_dpo/beta_used': 1.1715275049209595, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.31520044803619385, 'logits/rejected': -0.31102991104125977, 'beta_dpo/beta': 1.1715275049209595, 'beta_dpo/loss_margin_mean': 154.6195526123047, 'beta_dpo/beta_margin_mean': 199.27561950683594, 'beta_dpo/beta_margin_std': 273.30157470703125, 'beta_dpo/beta_margin_grad_mean': -0.27964290976524353, 'beta_dpo/beta_margin_grad_std': 0.27907973527908325, 'epoch': 0.74}

 74%|█████████████████████████████████████████████████████████▋                    | 504/681 [34:45<20:11,  6.85s/it]
 74%|█████████████████████████████████████████████████████████▊                    | 505/681 [34:48<16:20,  5.57s/it]
                                                                                                                     
{'loss': 1.3002, 'grad_norm': 8.723043441772461, 'learning_rate': 9.628696786995188e-08, 'beta_dpo/gap_mean': 122.90274047851562, 'beta_dpo/gap_std': 139.72247314453125, 'beta_dpo/beta_used_raw': -1.7212300300598145, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3765321969985962, 'logits/rejected': -0.3430270552635193, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 99.25924682617188, 'beta_dpo/beta_margin_mean': 0.09925924986600876, 'beta_dpo/beta_margin_std': 0.1482783406972885, 'beta_dpo/beta_margin_grad_mean': -0.47535502910614014, 'beta_dpo/beta_margin_grad_std': 0.03676827251911163, 'epoch': 0.74}

 74%|█████████████████████████████████████████████████████████▊                    | 505/681 [34:48<16:20,  5.57s/it]
 74%|█████████████████████████████████████████████████████████▉                    | 506/681 [34:50<13:28,  4.62s/it]
                                                                                                                     
{'loss': 4.1001, 'grad_norm': 916.702880859375, 'learning_rate': 9.527690882192635e-08, 'beta_dpo/gap_mean': 124.59944915771484, 'beta_dpo/gap_std': 140.55581665039062, 'beta_dpo/beta_used_raw': 0.20597346127033234, 'beta_dpo/beta_used': 0.41072434186935425, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3146125376224518, 'logits/rejected': -0.2966008186340332, 'beta_dpo/beta': 0.41072434186935425, 'beta_dpo/loss_margin_mean': 139.48028564453125, 'beta_dpo/beta_margin_mean': 61.24283218383789, 'beta_dpo/beta_margin_std': 103.88602447509766, 'beta_dpo/beta_margin_grad_mean': -0.2921498417854309, 'beta_dpo/beta_margin_grad_std': 0.27914443612098694, 'epoch': 0.74}

 74%|█████████████████████████████████████████████████████████▉                    | 506/681 [34:50<13:28,  4.62s/it]
 74%|██████████████████████████████████████████████████████████                    | 507/681 [34:53<11:32,  3.98s/it]
                                                                                                                     
{'loss': 1.2946, 'grad_norm': 11.176294326782227, 'learning_rate': 9.427092687124691e-08, 'beta_dpo/gap_mean': 123.23077392578125, 'beta_dpo/gap_std': 141.94122314453125, 'beta_dpo/beta_used_raw': -1.4757391214370728, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3175603449344635, 'logits/rejected': -0.2914998531341553, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 110.91170501708984, 'beta_dpo/beta_margin_mean': 0.11091171205043793, 'beta_dpo/beta_margin_std': 0.14667391777038574, 'beta_dpo/beta_margin_grad_mean': -0.47250908613204956, 'beta_dpo/beta_margin_grad_std': 0.03613479807972908, 'epoch': 0.74}

 74%|██████████████████████████████████████████████████████████                    | 507/681 [34:53<11:32,  3.98s/it]
 75%|██████████████████████████████████████████████████████████▏                   | 508/681 [34:56<10:21,  3.59s/it]
                                                                                                                     
{'loss': 1.3101, 'grad_norm': 8.980006217956543, 'learning_rate': 9.326904852647344e-08, 'beta_dpo/gap_mean': 119.46562957763672, 'beta_dpo/gap_std': 144.94464111328125, 'beta_dpo/beta_used_raw': -2.256690502166748, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3461516499519348, 'logits/rejected': -0.3254041373729706, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 106.15621948242188, 'beta_dpo/beta_margin_mean': 0.10615622252225876, 'beta_dpo/beta_margin_std': 0.15725988149642944, 'beta_dpo/beta_margin_grad_mean': -0.4737025201320648, 'beta_dpo/beta_margin_grad_std': 0.038725487887859344, 'epoch': 0.75}

 75%|██████████████████████████████████████████████████████████▏                   | 508/681 [34:56<10:21,  3.59s/it]
 75%|██████████████████████████████████████████████████████████▎                   | 509/681 [34:58<09:31,  3.32s/it]
                                                                                                                     
{'loss': 0.8276, 'grad_norm': 281.12945556640625, 'learning_rate': 9.227130018803195e-08, 'beta_dpo/gap_mean': 117.4862060546875, 'beta_dpo/gap_std': 143.86575317382812, 'beta_dpo/beta_used_raw': -0.7437249422073364, 'beta_dpo/beta_used': 0.034919556230306625, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3934116065502167, 'logits/rejected': -0.3660675883293152, 'beta_dpo/beta': 0.034919556230306625, 'beta_dpo/loss_margin_mean': 112.33943176269531, 'beta_dpo/beta_margin_mean': 4.45152473449707, 'beta_dpo/beta_margin_std': 6.8051252365112305, 'beta_dpo/beta_margin_grad_mean': -0.29076310992240906, 'beta_dpo/beta_margin_grad_std': 0.26489248871803284, 'epoch': 0.75}

 75%|██████████████████████████████████████████████████████████▎                   | 509/681 [34:58<09:31,  3.32s/it]
 75%|██████████████████████████████████████████████████████████▍                   | 510/681 [35:01<08:54,  3.12s/it]
                                                                                                                     
{'loss': 5.2172, 'grad_norm': 7391.86083984375, 'learning_rate': 9.127770814751932e-08, 'beta_dpo/gap_mean': 120.94603729248047, 'beta_dpo/gap_std': 143.10879516601562, 'beta_dpo/beta_used_raw': 0.5919451713562012, 'beta_dpo/beta_used': 0.6322641372680664, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3361413776874542, 'logits/rejected': -0.3392980992794037, 'beta_dpo/beta': 0.6322641372680664, 'beta_dpo/loss_margin_mean': 138.92527770996094, 'beta_dpo/beta_margin_mean': 86.17361450195312, 'beta_dpo/beta_margin_std': 161.67727661132812, 'beta_dpo/beta_margin_grad_mean': -0.32574018836021423, 'beta_dpo/beta_margin_grad_std': 0.3087122440338135, 'epoch': 0.75}

 75%|██████████████████████████████████████████████████████████▍                   | 510/681 [35:01<08:54,  3.12s/it]
 75%|██████████████████████████████████████████████████████████▌                   | 511/681 [35:03<08:24,  2.97s/it]
                                                                                                                     
{'loss': 1.287, 'grad_norm': 14.153034210205078, 'learning_rate': 9.028829858700973e-08, 'beta_dpo/gap_mean': 122.11959838867188, 'beta_dpo/gap_std': 146.7066192626953, 'beta_dpo/beta_used_raw': -0.9141647815704346, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3057625889778137, 'logits/rejected': -0.2901447117328644, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 125.42748260498047, 'beta_dpo/beta_margin_mean': 0.1254274845123291, 'beta_dpo/beta_margin_std': 0.16929617524147034, 'beta_dpo/beta_margin_grad_mean': -0.4689362347126007, 'beta_dpo/beta_margin_grad_std': 0.041758738458156586, 'epoch': 0.75}

 75%|██████████████████████████████████████████████████████████▌                   | 511/681 [35:04<08:24,  2.97s/it]
 75%|██████████████████████████████████████████████████████████▋                   | 512/681 [35:06<07:44,  2.75s/it]
                                                                                                                     
{'loss': 2.0045, 'grad_norm': 1204.3978271484375, 'learning_rate': 8.930309757836516e-08, 'beta_dpo/gap_mean': 125.70597839355469, 'beta_dpo/gap_std': 147.9683837890625, 'beta_dpo/beta_used_raw': -0.11738580465316772, 'beta_dpo/beta_used': 0.12954731285572052, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2575787305831909, 'logits/rejected': -0.2278975248336792, 'beta_dpo/beta': 0.12954731285572052, 'beta_dpo/loss_margin_mean': 142.68536376953125, 'beta_dpo/beta_margin_mean': 18.631834030151367, 'beta_dpo/beta_margin_std': 31.87902069091797, 'beta_dpo/beta_margin_grad_mean': -0.32700619101524353, 'beta_dpo/beta_margin_grad_std': 0.3073154091835022, 'epoch': 0.75}

 75%|██████████████████████████████████████████████████████████▋                   | 512/681 [35:06<07:44,  2.75s/it]
 75%|██████████████████████████████████████████████████████████▊                   | 513/681 [35:08<07:39,  2.74s/it]
                                                                                                                     
{'loss': 1.4199, 'grad_norm': 278.9576416015625, 'learning_rate': 8.832213108254863e-08, 'beta_dpo/gap_mean': 124.45533752441406, 'beta_dpo/gap_std': 146.31292724609375, 'beta_dpo/beta_used_raw': -1.4216735363006592, 'beta_dpo/beta_used': 0.044924668967723846, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.28937166929244995, 'logits/rejected': -0.23899608850479126, 'beta_dpo/beta': 0.044924668967723846, 'beta_dpo/loss_margin_mean': 99.97219848632812, 'beta_dpo/beta_margin_mean': 6.217226982116699, 'beta_dpo/beta_margin_std': 10.354048728942871, 'beta_dpo/beta_margin_grad_mean': -0.32202252745628357, 'beta_dpo/beta_margin_grad_std': 0.2846587002277374, 'epoch': 0.75}

 75%|██████████████████████████████████████████████████████████▊                   | 513/681 [35:08<07:39,  2.74s/it]
 75%|██████████████████████████████████████████████████████████▊                   | 514/681 [35:11<07:39,  2.75s/it]
                                                                                                                     
{'loss': 1.2968, 'grad_norm': 8.001137733459473, 'learning_rate': 8.734542494893954e-08, 'beta_dpo/gap_mean': 119.46575927734375, 'beta_dpo/gap_std': 149.45828247070312, 'beta_dpo/beta_used_raw': -1.3583461046218872, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33942490816116333, 'logits/rejected': -0.3081890940666199, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 109.18538665771484, 'beta_dpo/beta_margin_mean': 0.10918539017438889, 'beta_dpo/beta_margin_std': 0.1675841063261032, 'beta_dpo/beta_margin_grad_mean': -0.47301986813545227, 'beta_dpo/beta_margin_grad_std': 0.04115281254053116, 'epoch': 0.75}

 75%|██████████████████████████████████████████████████████████▊                   | 514/681 [35:11<07:39,  2.75s/it]
 76%|██████████████████████████████████████████████████████████▉                   | 515/681 [35:14<07:34,  2.74s/it]
                                                                                                                     
{'loss': 2.2661, 'grad_norm': 2712.74951171875, 'learning_rate': 8.637300491465272e-08, 'beta_dpo/gap_mean': 117.94536590576172, 'beta_dpo/gap_std': 149.05044555664062, 'beta_dpo/beta_used_raw': 0.6376501321792603, 'beta_dpo/beta_used': 0.7366660833358765, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33565250039100647, 'logits/rejected': -0.32709378004074097, 'beta_dpo/beta': 0.7366660833358765, 'beta_dpo/loss_margin_mean': 110.93781280517578, 'beta_dpo/beta_margin_mean': 86.19298553466797, 'beta_dpo/beta_margin_std': 163.50563049316406, 'beta_dpo/beta_margin_grad_mean': -0.2994893789291382, 'beta_dpo/beta_margin_grad_std': 0.2928798794746399, 'epoch': 0.76}

 76%|██████████████████████████████████████████████████████████▉                   | 515/681 [35:14<07:34,  2.74s/it]
 76%|███████████████████████████████████████████████████████████                   | 516/681 [35:16<07:11,  2.62s/it]
                                                                                                                     
{'loss': 3.9909, 'grad_norm': 2482.775634765625, 'learning_rate': 8.540489660386064e-08, 'beta_dpo/gap_mean': 120.83750915527344, 'beta_dpo/gap_std': 148.33566284179688, 'beta_dpo/beta_used_raw': 0.3256189227104187, 'beta_dpo/beta_used': 0.3256189227104187, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30348920822143555, 'logits/rejected': -0.30661916732788086, 'beta_dpo/beta': 0.3256189227104187, 'beta_dpo/loss_margin_mean': 144.36268615722656, 'beta_dpo/beta_margin_mean': 44.762569427490234, 'beta_dpo/beta_margin_std': 72.75740814208984, 'beta_dpo/beta_margin_grad_mean': -0.17041105031967163, 'beta_dpo/beta_margin_grad_std': 0.32598721981048584, 'epoch': 0.76}

 76%|███████████████████████████████████████████████████████████                   | 516/681 [35:16<07:11,  2.62s/it]
 76%|███████████████████████████████████████████████████████████▏                  | 517/681 [35:19<07:08,  2.61s/it]
                                                                                                                     
{'loss': 9.232, 'grad_norm': 4063.2880859375, 'learning_rate': 8.444112552711752e-08, 'beta_dpo/gap_mean': 124.02101135253906, 'beta_dpo/gap_std': 147.56996154785156, 'beta_dpo/beta_used_raw': -0.8146347403526306, 'beta_dpo/beta_used': 0.3787996470928192, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34874552488327026, 'logits/rejected': -0.3211863934993744, 'beta_dpo/beta': 0.3787996470928192, 'beta_dpo/loss_margin_mean': 129.0400848388672, 'beta_dpo/beta_margin_mean': 53.798763275146484, 'beta_dpo/beta_margin_std': 91.0955581665039, 'beta_dpo/beta_margin_grad_mean': -0.3142106235027313, 'beta_dpo/beta_margin_grad_std': 0.3018515706062317, 'epoch': 0.76}

 76%|███████████████████████████████████████████████████████████▏                  | 517/681 [35:19<07:08,  2.61s/it]
 76%|███████████████████████████████████████████████████████████▎                  | 518/681 [35:22<07:13,  2.66s/it]
                                                                                                                     
{'loss': 1.2903, 'grad_norm': 9.67983627319336, 'learning_rate': 8.348171708068747e-08, 'beta_dpo/gap_mean': 123.86222839355469, 'beta_dpo/gap_std': 149.8852081298828, 'beta_dpo/beta_used_raw': -1.2156920433044434, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.33817270398139954, 'logits/rejected': -0.3306800425052643, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 119.89690399169922, 'beta_dpo/beta_margin_mean': 0.11989691108465195, 'beta_dpo/beta_margin_std': 0.16114358603954315, 'beta_dpo/beta_margin_grad_mean': -0.47028571367263794, 'beta_dpo/beta_margin_grad_std': 0.03980425372719765, 'epoch': 0.76}

 76%|███████████████████████████████████████████████████████████▎                  | 518/681 [35:22<07:13,  2.66s/it]
 76%|███████████████████████████████████████████████████████████▍                  | 519/681 [35:24<07:12,  2.67s/it]
                                                                                                                     
{'loss': 1.3054, 'grad_norm': 11.328512191772461, 'learning_rate': 8.25266965458755e-08, 'beta_dpo/gap_mean': 120.50178527832031, 'beta_dpo/gap_std': 149.90951538085938, 'beta_dpo/beta_used_raw': -1.990078091621399, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.38129687309265137, 'logits/rejected': -0.3619292974472046, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 110.23342895507812, 'beta_dpo/beta_margin_mean': 0.11023343354463577, 'beta_dpo/beta_margin_std': 0.14520837366580963, 'beta_dpo/beta_margin_grad_mean': -0.4726635813713074, 'beta_dpo/beta_margin_grad_std': 0.035860326141119, 'epoch': 0.76}

 76%|███████████████████████████████████████████████████████████▍                  | 519/681 [35:24<07:12,  2.67s/it]
 76%|███████████████████████████████████████████████████████████▌                  | 520/681 [35:27<07:08,  2.66s/it]
                                                                                                                     
{'loss': 3.5396, 'grad_norm': 3035.5087890625, 'learning_rate': 8.15760890883607e-08, 'beta_dpo/gap_mean': 121.2685775756836, 'beta_dpo/gap_std': 148.63670349121094, 'beta_dpo/beta_used_raw': -1.0785763263702393, 'beta_dpo/beta_used': 0.3380447328090668, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3086138069629669, 'logits/rejected': -0.29337257146835327, 'beta_dpo/beta': 0.3380447328090668, 'beta_dpo/loss_margin_mean': 116.98388671875, 'beta_dpo/beta_margin_mean': 49.52477264404297, 'beta_dpo/beta_margin_std': 87.04480743408203, 'beta_dpo/beta_margin_grad_mean': -0.2715797424316406, 'beta_dpo/beta_margin_grad_std': 0.26895225048065186, 'epoch': 0.76}

 76%|███████████████████████████████████████████████████████████▌                  | 520/681 [35:27<07:08,  2.66s/it]
 77%|███████████████████████████████████████████████████████████▋                  | 521/681 [35:30<07:03,  2.65s/it]
                                                                                                                     
{'loss': 5.6064, 'grad_norm': 2916.091552734375, 'learning_rate': 8.062991975753378e-08, 'beta_dpo/gap_mean': 117.24072265625, 'beta_dpo/gap_std': 145.8902587890625, 'beta_dpo/beta_used_raw': -0.11128360033035278, 'beta_dpo/beta_used': 0.7759643793106079, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26582300662994385, 'logits/rejected': -0.24365702271461487, 'beta_dpo/beta': 0.7759643793106079, 'beta_dpo/loss_margin_mean': 116.25064086914062, 'beta_dpo/beta_margin_mean': 120.77637481689453, 'beta_dpo/beta_margin_std': 199.4180450439453, 'beta_dpo/beta_margin_grad_mean': -0.30295756459236145, 'beta_dpo/beta_margin_grad_std': 0.2947865128517151, 'epoch': 0.77}

 77%|███████████████████████████████████████████████████████████▋                  | 521/681 [35:30<07:03,  2.65s/it]
 77%|███████████████████████████████████████████████████████████▊                  | 522/681 [35:32<06:58,  2.63s/it]
                                                                                                                     
{'loss': 1.2971, 'grad_norm': 11.408084869384766, 'learning_rate': 7.968821348583643e-08, 'beta_dpo/gap_mean': 115.89306640625, 'beta_dpo/gap_std': 145.66278076171875, 'beta_dpo/beta_used_raw': -1.123004674911499, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26223623752593994, 'logits/rejected': -0.2491573542356491, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 99.80866241455078, 'beta_dpo/beta_margin_mean': 0.09980867058038712, 'beta_dpo/beta_margin_std': 0.1410750299692154, 'beta_dpo/beta_margin_grad_mean': -0.4751797318458557, 'beta_dpo/beta_margin_grad_std': 0.03499903902411461, 'epoch': 0.77}

 77%|███████████████████████████████████████████████████████████▊                  | 522/681 [35:32<06:58,  2.63s/it]
 77%|███████████████████████████████████████████████████████████▉                  | 523/681 [35:35<07:02,  2.68s/it]
                                                                                                                     
{'loss': 1.2905, 'grad_norm': 12.761443138122559, 'learning_rate': 7.875099508810484e-08, 'beta_dpo/gap_mean': 114.94084167480469, 'beta_dpo/gap_std': 144.96939086914062, 'beta_dpo/beta_used_raw': -0.7056801319122314, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.35182422399520874, 'logits/rejected': -0.3160788416862488, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 110.72482299804688, 'beta_dpo/beta_margin_mean': 0.11072482913732529, 'beta_dpo/beta_margin_std': 0.13797280192375183, 'beta_dpo/beta_margin_grad_mean': -0.4724850058555603, 'beta_dpo/beta_margin_grad_std': 0.03419146686792374, 'epoch': 0.77}

 77%|███████████████████████████████████████████████████████████▉                  | 523/681 [35:35<07:02,  2.68s/it]
 77%|████████████████████████████████████████████████████████████                  | 524/681 [35:38<06:57,  2.66s/it]
                                                                                                                     
{'loss': 0.7133, 'grad_norm': 1415.0672607421875, 'learning_rate': 7.781828926091535e-08, 'beta_dpo/gap_mean': 113.64476013183594, 'beta_dpo/gap_std': 142.83682250976562, 'beta_dpo/beta_used_raw': -0.35857832431793213, 'beta_dpo/beta_used': 0.34091123938560486, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3773775100708008, 'logits/rejected': -0.3307211399078369, 'beta_dpo/beta': 0.34091123938560486, 'beta_dpo/loss_margin_mean': 103.63865661621094, 'beta_dpo/beta_margin_mean': 39.1301383972168, 'beta_dpo/beta_margin_std': 78.40217590332031, 'beta_dpo/beta_margin_grad_mean': -0.28588905930519104, 'beta_dpo/beta_margin_grad_std': 0.26944512128829956, 'epoch': 0.77}

 77%|████████████████████████████████████████████████████████████                  | 524/681 [35:38<06:57,  2.66s/it]
 77%|████████████████████████████████████████████████████████████▏                 | 525/681 [35:40<06:59,  2.69s/it]
                                                                                                                     
{'loss': 1.2884, 'grad_norm': 11.353320121765137, 'learning_rate': 7.689012058193384e-08, 'beta_dpo/gap_mean': 116.8314208984375, 'beta_dpo/gap_std': 139.02029418945312, 'beta_dpo/beta_used_raw': -0.7509552240371704, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29079174995422363, 'logits/rejected': -0.29601868987083435, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 136.83470153808594, 'beta_dpo/beta_margin_mean': 0.13683471083641052, 'beta_dpo/beta_margin_std': 0.12389042973518372, 'beta_dpo/beta_margin_grad_mean': -0.46599993109703064, 'beta_dpo/beta_margin_grad_std': 0.03062298335134983, 'epoch': 0.77}

 77%|████████████████████████████████████████████████████████████▏                 | 525/681 [35:40<06:59,  2.69s/it]
 77%|████████████████████████████████████████████████████████████▏                 | 526/681 [35:43<06:53,  2.67s/it]
                                                                                                                     
{'loss': 4.632, 'grad_norm': 10179.40234375, 'learning_rate': 7.596651350926836e-08, 'beta_dpo/gap_mean': 118.87196350097656, 'beta_dpo/gap_std': 137.54379272460938, 'beta_dpo/beta_used_raw': 0.724345326423645, 'beta_dpo/beta_used': 1.2091269493103027, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.37073665857315063, 'logits/rejected': -0.33339107036590576, 'beta_dpo/beta': 1.2091269493103027, 'beta_dpo/loss_margin_mean': 136.27288818359375, 'beta_dpo/beta_margin_mean': 188.9692840576172, 'beta_dpo/beta_margin_std': 288.71917724609375, 'beta_dpo/beta_margin_grad_mean': -0.2980670630931854, 'beta_dpo/beta_margin_grad_std': 0.2918414771556854, 'epoch': 0.77}

 77%|████████████████████████████████████████████████████████████▏                 | 526/681 [35:43<06:53,  2.67s/it]
 77%|████████████████████████████████████████████████████████████▎                 | 527/681 [35:46<06:55,  2.70s/it]
                                                                                                                     
{'loss': 0.8418, 'grad_norm': 997.8250122070312, 'learning_rate': 7.504749238082414e-08, 'beta_dpo/gap_mean': 119.21248626708984, 'beta_dpo/gap_std': 135.69989013671875, 'beta_dpo/beta_used_raw': -0.9867266416549683, 'beta_dpo/beta_used': 0.31047749519348145, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32467547059059143, 'logits/rejected': -0.28431421518325806, 'beta_dpo/beta': 0.31047749519348145, 'beta_dpo/loss_margin_mean': 104.62269592285156, 'beta_dpo/beta_margin_mean': 37.45048522949219, 'beta_dpo/beta_margin_std': 69.46243286132812, 'beta_dpo/beta_margin_grad_mean': -0.31394025683403015, 'beta_dpo/beta_margin_grad_std': 0.2968938946723938, 'epoch': 0.77}

 77%|████████████████████████████████████████████████████████████▎                 | 527/681 [35:46<06:55,  2.70s/it]
 78%|████████████████████████████████████████████████████████████▍                 | 528/681 [35:48<06:53,  2.70s/it]
                                                                                                                     
{'loss': 1.2992, 'grad_norm': 9.15918254852295, 'learning_rate': 7.413308141366254e-08, 'beta_dpo/gap_mean': 117.36293029785156, 'beta_dpo/gap_std': 136.00509643554688, 'beta_dpo/beta_used_raw': -1.420975685119629, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34611016511917114, 'logits/rejected': -0.3225988745689392, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 112.28987121582031, 'beta_dpo/beta_margin_mean': 0.11228987574577332, 'beta_dpo/beta_margin_std': 0.1448754370212555, 'beta_dpo/beta_margin_grad_mean': -0.47215956449508667, 'beta_dpo/beta_margin_grad_std': 0.03576524555683136, 'epoch': 0.78}

 78%|████████████████████████████████████████████████████████████▍                 | 528/681 [35:48<06:53,  2.70s/it]
 78%|████████████████████████████████████████████████████████████▌                 | 529/681 [35:51<06:49,  2.70s/it]
                                                                                                                     
{'loss': 1.3025, 'grad_norm': 8.978301048278809, 'learning_rate': 7.322330470336313e-08, 'beta_dpo/gap_mean': 112.62429809570312, 'beta_dpo/gap_std': 133.21206665039062, 'beta_dpo/beta_used_raw': -1.3918501138687134, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29925012588500977, 'logits/rejected': -0.2968965470790863, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 88.21768951416016, 'beta_dpo/beta_margin_mean': 0.08821769058704376, 'beta_dpo/beta_margin_std': 0.12073423713445663, 'beta_dpo/beta_margin_grad_mean': -0.47805625200271606, 'beta_dpo/beta_margin_grad_std': 0.02993660233914852, 'epoch': 0.78}

 78%|████████████████████████████████████████████████████████████▌                 | 529/681 [35:51<06:49,  2.70s/it]
 78%|████████████████████████████████████████████████████████████▋                 | 530/681 [35:54<06:47,  2.70s/it]
                                                                                                                     
{'loss': 6.8965, 'grad_norm': 5670.451171875, 'learning_rate': 7.231818622338822e-08, 'beta_dpo/gap_mean': 116.62379455566406, 'beta_dpo/gap_std': 139.05780029296875, 'beta_dpo/beta_used_raw': 0.8118060231208801, 'beta_dpo/beta_used': 0.8380435109138489, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29417866468429565, 'logits/rejected': -0.28473860025405884, 'beta_dpo/beta': 0.8380435109138489, 'beta_dpo/loss_margin_mean': 146.89210510253906, 'beta_dpo/beta_margin_mean': 130.1285858154297, 'beta_dpo/beta_margin_std': 249.0910186767578, 'beta_dpo/beta_margin_grad_mean': -0.29539409279823303, 'beta_dpo/beta_margin_grad_std': 0.29032719135284424, 'epoch': 0.78}

 78%|████████████████████████████████████████████████████████████▋                 | 530/681 [35:54<06:47,  2.70s/it]
 78%|████████████████████████████████████████████████████████████▊                 | 531/681 [35:56<06:21,  2.54s/it]
                                                                                                                     
{'loss': 4.4606, 'grad_norm': 3328.2119140625, 'learning_rate': 7.141774982445147e-08, 'beta_dpo/gap_mean': 118.85505676269531, 'beta_dpo/gap_std': 137.6885986328125, 'beta_dpo/beta_used_raw': -0.38052642345428467, 'beta_dpo/beta_used': 0.3860895335674286, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30007681250572205, 'logits/rejected': -0.2692079246044159, 'beta_dpo/beta': 0.3860895335674286, 'beta_dpo/loss_margin_mean': 125.42870330810547, 'beta_dpo/beta_margin_mean': 48.6815071105957, 'beta_dpo/beta_margin_std': 90.59869384765625, 'beta_dpo/beta_margin_grad_mean': -0.3058871030807495, 'beta_dpo/beta_margin_grad_std': 0.29022565484046936, 'epoch': 0.78}

 78%|████████████████████████████████████████████████████████████▊                 | 531/681 [35:56<06:21,  2.54s/it]
 78%|████████████████████████████████████████████████████████████▉                 | 532/681 [35:59<06:21,  2.56s/it]
                                                                                                                     
{'loss': 6.5028, 'grad_norm': 6387.31787109375, 'learning_rate': 7.052201923388953e-08, 'beta_dpo/gap_mean': 122.90603637695312, 'beta_dpo/gap_std': 142.55856323242188, 'beta_dpo/beta_used_raw': -0.626258373260498, 'beta_dpo/beta_used': 0.25227928161621094, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3237287104129791, 'logits/rejected': -0.28502288460731506, 'beta_dpo/beta': 0.25227928161621094, 'beta_dpo/loss_margin_mean': 125.72514343261719, 'beta_dpo/beta_margin_mean': 46.9578742980957, 'beta_dpo/beta_margin_std': 80.62285614013672, 'beta_dpo/beta_margin_grad_mean': -0.3480188250541687, 'beta_dpo/beta_margin_grad_std': 0.31572601199150085, 'epoch': 0.78}

 78%|████████████████████████████████████████████████████████████▉                 | 532/681 [35:59<06:21,  2.56s/it]
 78%|█████████████████████████████████████████████████████████████                 | 533/681 [36:01<06:18,  2.56s/it]
                                                                                                                     
{'loss': 2.1474, 'grad_norm': 854.921630859375, 'learning_rate': 6.963101805503646e-08, 'beta_dpo/gap_mean': 116.83836364746094, 'beta_dpo/gap_std': 140.88243103027344, 'beta_dpo/beta_used_raw': -1.7720496654510498, 'beta_dpo/beta_used': 0.10688778758049011, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32803478837013245, 'logits/rejected': -0.2940494418144226, 'beta_dpo/beta': 0.10688778758049011, 'beta_dpo/loss_margin_mean': 107.61312103271484, 'beta_dpo/beta_margin_mean': 14.438727378845215, 'beta_dpo/beta_margin_std': 29.17506217956543, 'beta_dpo/beta_margin_grad_mean': -0.36453330516815186, 'beta_dpo/beta_margin_grad_std': 0.31307417154312134, 'epoch': 0.78}

 78%|█████████████████████████████████████████████████████████████                 | 533/681 [36:01<06:18,  2.56s/it]
 78%|█████████████████████████████████████████████████████████████▏                | 534/681 [36:04<06:16,  2.56s/it]
                                                                                                                     
{'loss': 7.1215, 'grad_norm': 2596.990478515625, 'learning_rate': 6.874476976660184e-08, 'beta_dpo/gap_mean': 119.16416931152344, 'beta_dpo/gap_std': 142.51844787597656, 'beta_dpo/beta_used_raw': -0.25012335181236267, 'beta_dpo/beta_used': 0.4838470220565796, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3111898899078369, 'logits/rejected': -0.2915695905685425, 'beta_dpo/beta': 0.4838470220565796, 'beta_dpo/loss_margin_mean': 127.46477508544922, 'beta_dpo/beta_margin_mean': 61.1616096496582, 'beta_dpo/beta_margin_std': 110.03469848632812, 'beta_dpo/beta_margin_grad_mean': -0.3121793866157532, 'beta_dpo/beta_margin_grad_std': 0.30149754881858826, 'epoch': 0.78}

 78%|█████████████████████████████████████████████████████████████▏                | 534/681 [36:04<06:16,  2.56s/it]
 79%|█████████████████████████████████████████████████████████████▎                | 535/681 [36:06<06:16,  2.58s/it]
                                                                                                                     
{'loss': 0.6606, 'grad_norm': 5.533578395843506, 'learning_rate': 6.786329772205246e-08, 'beta_dpo/gap_mean': 118.63661193847656, 'beta_dpo/gap_std': 141.1715087890625, 'beta_dpo/beta_used_raw': -0.8804515600204468, 'beta_dpo/beta_used': 0.4798532724380493, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34731101989746094, 'logits/rejected': -0.340278685092926, 'beta_dpo/beta': 0.4798532724380493, 'beta_dpo/loss_margin_mean': 122.73117065429688, 'beta_dpo/beta_margin_mean': 74.49298858642578, 'beta_dpo/beta_margin_std': 107.83834075927734, 'beta_dpo/beta_margin_grad_mean': -0.25442755222320557, 'beta_dpo/beta_margin_grad_std': 0.2559193968772888, 'epoch': 0.79}

 79%|█████████████████████████████████████████████████████████████▎                | 535/681 [36:06<06:16,  2.58s/it]
 79%|█████████████████████████████████████████████████████████████▍                | 536/681 [36:09<06:17,  2.60s/it]
                                                                                                                     
{'loss': 1.2712, 'grad_norm': 7.822637557983398, 'learning_rate': 6.698662514899638e-08, 'beta_dpo/gap_mean': 126.47843933105469, 'beta_dpo/gap_std': 143.17359924316406, 'beta_dpo/beta_used_raw': -0.219361811876297, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.28798243403434753, 'logits/rejected': -0.27560853958129883, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 157.9839630126953, 'beta_dpo/beta_margin_mean': 0.1579839587211609, 'beta_dpo/beta_margin_std': 0.16417579352855682, 'beta_dpo/beta_margin_grad_mean': -0.46096980571746826, 'beta_dpo/beta_margin_grad_std': 0.03988654166460037, 'epoch': 0.79}

 79%|█████████████████████████████████████████████████████████████▍                | 536/681 [36:09<06:17,  2.60s/it]
 79%|█████████████████████████████████████████████████████████████▌                | 537/681 [36:12<06:20,  2.64s/it]
                                                                                                                     
{'loss': 1.2903, 'grad_norm': 11.444367408752441, 'learning_rate': 6.611477514857114e-08, 'beta_dpo/gap_mean': 127.0035400390625, 'beta_dpo/gap_std': 146.7835693359375, 'beta_dpo/beta_used_raw': -1.374413013458252, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24693317711353302, 'logits/rejected': -0.20856288075447083, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 127.98716735839844, 'beta_dpo/beta_margin_mean': 0.12798717617988586, 'beta_dpo/beta_margin_std': 0.15467973053455353, 'beta_dpo/beta_margin_grad_mean': -0.4682691991329193, 'beta_dpo/beta_margin_grad_std': 0.03821183741092682, 'epoch': 0.79}

 79%|█████████████████████████████████████████████████████████████▌                | 537/681 [36:12<06:20,  2.64s/it]
 79%|█████████████████████████████████████████████████████████████▌                | 538/681 [36:15<06:27,  2.71s/it]
                                                                                                                     
{'loss': 1.2737, 'grad_norm': 8.882081031799316, 'learning_rate': 6.524777069483525e-08, 'beta_dpo/gap_mean': 128.6876983642578, 'beta_dpo/gap_std': 145.996826171875, 'beta_dpo/beta_used_raw': -0.4291920065879822, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34462568163871765, 'logits/rejected': -0.31714940071105957, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 133.93215942382812, 'beta_dpo/beta_margin_mean': 0.1339321732521057, 'beta_dpo/beta_margin_std': 0.1410028487443924, 'beta_dpo/beta_margin_grad_mean': -0.46676576137542725, 'beta_dpo/beta_margin_grad_std': 0.03483714163303375, 'epoch': 0.79}

 79%|█████████████████████████████████████████████████████████████▌                | 538/681 [36:15<06:27,  2.71s/it]
 79%|█████████████████████████████████████████████████████████████▋                | 539/681 [36:17<06:28,  2.74s/it]
                                                                                                                     
{'loss': 2.8284, 'grad_norm': 1186.32177734375, 'learning_rate': 6.438563463416221e-08, 'beta_dpo/gap_mean': 126.75646209716797, 'beta_dpo/gap_std': 144.74050903320312, 'beta_dpo/beta_used_raw': -1.4830609560012817, 'beta_dpo/beta_used': 0.25301647186279297, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30251675844192505, 'logits/rejected': -0.269988089799881, 'beta_dpo/beta': 0.25301647186279297, 'beta_dpo/loss_margin_mean': 107.55413818359375, 'beta_dpo/beta_margin_mean': 32.2935676574707, 'beta_dpo/beta_margin_std': 58.6886100769043, 'beta_dpo/beta_margin_grad_mean': -0.3016367256641388, 'beta_dpo/beta_margin_grad_std': 0.29386886954307556, 'epoch': 0.79}

 79%|█████████████████████████████████████████████████████████████▋                | 539/681 [36:17<06:28,  2.74s/it]
 79%|█████████████████████████████████████████████████████████████▊                | 540/681 [36:20<06:21,  2.70s/it]
                                                                                                                     
{'loss': 1.2796, 'grad_norm': 11.150030136108398, 'learning_rate': 6.352838968463919e-08, 'beta_dpo/gap_mean': 128.5769805908203, 'beta_dpo/gap_std': 145.3531036376953, 'beta_dpo/beta_used_raw': -0.767475962638855, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32399916648864746, 'logits/rejected': -0.3120352029800415, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 158.32501220703125, 'beta_dpo/beta_margin_mean': 0.15832501649856567, 'beta_dpo/beta_margin_std': 0.17094068229198456, 'beta_dpo/beta_margin_grad_mean': -0.4608391523361206, 'beta_dpo/beta_margin_grad_std': 0.041996635496616364, 'epoch': 0.79}

 79%|█████████████████████████████████████████████████████████████▊                | 540/681 [36:20<06:21,  2.70s/it]
 79%|█████████████████████████████████████████████████████████████▉                | 541/681 [36:22<06:08,  2.63s/it]
                                                                                                                     
{'loss': 0.6651, 'grad_norm': 7.361756324768066, 'learning_rate': 6.267605843546767e-08, 'beta_dpo/gap_mean': 130.40518188476562, 'beta_dpo/gap_std': 148.4336395263672, 'beta_dpo/beta_used_raw': -1.5122350454330444, 'beta_dpo/beta_used': 0.4254739284515381, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.34003913402557373, 'logits/rejected': -0.32215964794158936, 'beta_dpo/beta': 0.4254739284515381, 'beta_dpo/loss_margin_mean': 109.54701232910156, 'beta_dpo/beta_margin_mean': 67.95819091796875, 'beta_dpo/beta_margin_std': 111.18570709228516, 'beta_dpo/beta_margin_grad_mean': -0.27390703558921814, 'beta_dpo/beta_margin_grad_std': 0.2731405198574066, 'epoch': 0.79}

 79%|█████████████████████████████████████████████████████████████▉                | 541/681 [36:23<06:08,  2.63s/it]
 80%|██████████████████████████████████████████████████████████████                | 542/681 [36:25<06:06,  2.64s/it]
                                                                                                                     
{'loss': 1.3005, 'grad_norm': 8.798036575317383, 'learning_rate': 6.182866334636888e-08, 'beta_dpo/gap_mean': 129.5877227783203, 'beta_dpo/gap_std': 152.70767211914062, 'beta_dpo/beta_used_raw': -2.1535425186157227, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2917734980583191, 'logits/rejected': -0.28750523924827576, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 138.42153930664062, 'beta_dpo/beta_margin_mean': 0.13842153549194336, 'beta_dpo/beta_margin_std': 0.17371715605258942, 'beta_dpo/beta_margin_grad_mean': -0.46578720211982727, 'beta_dpo/beta_margin_grad_std': 0.04261607676744461, 'epoch': 0.8}

 80%|██████████████████████████████████████████████████████████████                | 542/681 [36:25<06:06,  2.64s/it]
 80%|██████████████████████████████████████████████████████████████▏               | 543/681 [36:28<05:57,  2.59s/it]
                                                                                                                     
{'loss': 1.2969, 'grad_norm': 10.619677543640137, 'learning_rate': 6.098622674699147e-08, 'beta_dpo/gap_mean': 126.10411071777344, 'beta_dpo/gap_std': 155.04043579101562, 'beta_dpo/beta_used_raw': -1.7853881120681763, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3245403468608856, 'logits/rejected': -0.3284730315208435, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 111.25183868408203, 'beta_dpo/beta_margin_mean': 0.1112518459558487, 'beta_dpo/beta_margin_std': 0.1615283042192459, 'beta_dpo/beta_margin_grad_mean': -0.47245243191719055, 'beta_dpo/beta_margin_grad_std': 0.0398247130215168, 'epoch': 0.8}

 80%|██████████████████████████████████████████████████████████████▏               | 543/681 [36:28<05:57,  2.59s/it]
 80%|██████████████████████████████████████████████████████████████▎               | 544/681 [36:30<05:54,  2.59s/it]
                                                                                                                     
{'loss': 0.9386, 'grad_norm': 337.2016906738281, 'learning_rate': 6.01487708363232e-08, 'beta_dpo/gap_mean': 126.75240325927734, 'beta_dpo/gap_std': 154.43374633789062, 'beta_dpo/beta_used_raw': -0.0006970278918743134, 'beta_dpo/beta_used': 0.042499665170907974, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2916638255119324, 'logits/rejected': -0.29204195737838745, 'beta_dpo/beta': 0.042499665170907974, 'beta_dpo/loss_margin_mean': 138.70376586914062, 'beta_dpo/beta_margin_mean': 6.365813732147217, 'beta_dpo/beta_margin_std': 10.63759708404541, 'beta_dpo/beta_margin_grad_mean': -0.3261357545852661, 'beta_dpo/beta_margin_grad_std': 0.27486762404441833, 'epoch': 0.8}

 80%|██████████████████████████████████████████████████████████████▎               | 544/681 [36:30<05:54,  2.59s/it]
 80%|██████████████████████████████████████████████████████████████▍               | 545/681 [36:33<05:48,  2.56s/it]
                                                                                                                     
{'loss': 1.6842, 'grad_norm': 781.7689819335938, 'learning_rate': 5.9316317682106294e-08, 'beta_dpo/gap_mean': 130.86599731445312, 'beta_dpo/gap_std': 152.92401123046875, 'beta_dpo/beta_used_raw': -0.3488979637622833, 'beta_dpo/beta_used': 0.06862561404705048, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2935147285461426, 'logits/rejected': -0.27058857679367065, 'beta_dpo/beta': 0.06862561404705048, 'beta_dpo/loss_margin_mean': 151.92410278320312, 'beta_dpo/beta_margin_mean': 11.304689407348633, 'beta_dpo/beta_margin_std': 18.24564552307129, 'beta_dpo/beta_margin_grad_mean': -0.29947012662887573, 'beta_dpo/beta_margin_grad_std': 0.2657318115234375, 'epoch': 0.8}

 80%|██████████████████████████████████████████████████████████████▍               | 545/681 [36:33<05:48,  2.56s/it]
 80%|██████████████████████████████████████████████████████████████▌               | 546/681 [36:35<05:44,  2.55s/it]
                                                                                                                     
{'loss': 1.079, 'grad_norm': 752.8720092773438, 'learning_rate': 5.848888922025552e-08, 'beta_dpo/gap_mean': 132.23533630371094, 'beta_dpo/gap_std': 149.86732482910156, 'beta_dpo/beta_used_raw': -0.1429443508386612, 'beta_dpo/beta_used': 0.188106968998909, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.27959996461868286, 'logits/rejected': -0.2727757394313812, 'beta_dpo/beta': 0.188106968998909, 'beta_dpo/loss_margin_mean': 125.84686279296875, 'beta_dpo/beta_margin_mean': 26.020763397216797, 'beta_dpo/beta_margin_std': 42.951210021972656, 'beta_dpo/beta_margin_grad_mean': -0.28278061747550964, 'beta_dpo/beta_margin_grad_std': 0.28060972690582275, 'epoch': 0.8}

 80%|██████████████████████████████████████████████████████████████▌               | 546/681 [36:35<05:44,  2.55s/it]
 80%|██████████████████████████████████████████████████████████████▋               | 547/681 [36:38<05:50,  2.62s/it]
                                                                                                                     
{'loss': 8.3158, 'grad_norm': 6136.345703125, 'learning_rate': 5.7666507254280265e-08, 'beta_dpo/gap_mean': 129.84857177734375, 'beta_dpo/gap_std': 149.78875732421875, 'beta_dpo/beta_used_raw': 0.1203995943069458, 'beta_dpo/beta_used': 0.6438117027282715, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3318541646003723, 'logits/rejected': -0.30599403381347656, 'beta_dpo/beta': 0.6438117027282715, 'beta_dpo/loss_margin_mean': 131.3858642578125, 'beta_dpo/beta_margin_mean': 104.74890899658203, 'beta_dpo/beta_margin_std': 195.10377502441406, 'beta_dpo/beta_margin_grad_mean': -0.33132269978523254, 'beta_dpo/beta_margin_grad_std': 0.31213411688804626, 'epoch': 0.8}

 80%|██████████████████████████████████████████████████████████████▋               | 547/681 [36:38<05:50,  2.62s/it]
 80%|██████████████████████████████████████████████████████████████▊               | 548/681 [36:41<05:46,  2.61s/it]
                                                                                                                     
{'loss': 0.6402, 'grad_norm': 5.817610263824463, 'learning_rate': 5.684919345471029e-08, 'beta_dpo/gap_mean': 132.4664764404297, 'beta_dpo/gap_std': 154.11122131347656, 'beta_dpo/beta_used_raw': -0.02570188045501709, 'beta_dpo/beta_used': 0.5348808765411377, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3109471797943115, 'logits/rejected': -0.2878919839859009, 'beta_dpo/beta': 0.5348808765411377, 'beta_dpo/loss_margin_mean': 137.2895965576172, 'beta_dpo/beta_margin_mean': 72.7407455444336, 'beta_dpo/beta_margin_std': 127.447021484375, 'beta_dpo/beta_margin_grad_mean': -0.2953696846961975, 'beta_dpo/beta_margin_grad_std': 0.29101452231407166, 'epoch': 0.8}

 80%|██████████████████████████████████████████████████████████████▊               | 548/681 [36:41<05:46,  2.61s/it]
 81%|██████████████████████████████████████████████████████████████▉               | 549/681 [36:43<05:48,  2.64s/it]
                                                                                                                     
{'loss': 1.2953, 'grad_norm': 8.842658996582031, 'learning_rate': 5.603696935852426e-08, 'beta_dpo/gap_mean': 128.56686401367188, 'beta_dpo/gap_std': 153.61985778808594, 'beta_dpo/beta_used_raw': -1.812859058380127, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2656526565551758, 'logits/rejected': -0.245744526386261, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 106.83413696289062, 'beta_dpo/beta_margin_mean': 0.10683414340019226, 'beta_dpo/beta_margin_std': 0.14824533462524414, 'beta_dpo/beta_margin_grad_mean': -0.4734934866428375, 'beta_dpo/beta_margin_grad_std': 0.03661532700061798, 'epoch': 0.81}

 81%|██████████████████████████████████████████████████████████████▉               | 549/681 [36:43<05:48,  2.64s/it]
 81%|██████████████████████████████████████████████████████████████▉               | 550/681 [36:46<05:43,  2.62s/it]
                                                                                                                     
{'loss': 8.9316, 'grad_norm': 4275.45068359375, 'learning_rate': 5.5229856368582376e-08, 'beta_dpo/gap_mean': 126.98031616210938, 'beta_dpo/gap_std': 149.06398010253906, 'beta_dpo/beta_used_raw': -0.1910473108291626, 'beta_dpo/beta_used': 0.5795989036560059, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2921378016471863, 'logits/rejected': -0.2875661849975586, 'beta_dpo/beta': 0.5795989036560059, 'beta_dpo/loss_margin_mean': 115.1662368774414, 'beta_dpo/beta_margin_mean': 79.51753234863281, 'beta_dpo/beta_margin_std': 137.07252502441406, 'beta_dpo/beta_margin_grad_mean': -0.31652987003326416, 'beta_dpo/beta_margin_grad_std': 0.3032745122909546, 'epoch': 0.81}

 81%|██████████████████████████████████████████████████████████████▉               | 550/681 [36:46<05:43,  2.62s/it]
 81%|███████████████████████████████████████████████████████████████               | 551/681 [36:48<05:31,  2.55s/it]
                                                                                                                     
{'loss': 11.5516, 'grad_norm': 8295.5263671875, 'learning_rate': 5.4427875753062734e-08, 'beta_dpo/gap_mean': 131.1296844482422, 'beta_dpo/gap_std': 147.8602752685547, 'beta_dpo/beta_used_raw': 1.3962814807891846, 'beta_dpo/beta_used': 1.3962814807891846, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30160123109817505, 'logits/rejected': -0.3009389638900757, 'beta_dpo/beta': 1.3962814807891846, 'beta_dpo/loss_margin_mean': 165.77349853515625, 'beta_dpo/beta_margin_mean': 232.1625518798828, 'beta_dpo/beta_margin_std': 253.87550354003906, 'beta_dpo/beta_margin_grad_mean': -0.18695083260536194, 'beta_dpo/beta_margin_grad_std': 0.38917961716651917, 'epoch': 0.81}

 81%|███████████████████████████████████████████████████████████████               | 551/681 [36:48<05:31,  2.55s/it]
 81%|███████████████████████████████████████████████████████████████▏              | 552/681 [36:51<05:24,  2.51s/it]
                                                                                                                     
{'loss': 0.9032, 'grad_norm': 132.4352264404297, 'learning_rate': 5.363104864490034e-08, 'beta_dpo/gap_mean': 139.46234130859375, 'beta_dpo/gap_std': 153.2427520751953, 'beta_dpo/beta_used_raw': -0.81267249584198, 'beta_dpo/beta_used': 0.030131345614790916, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2840738296508789, 'logits/rejected': -0.2644941210746765, 'beta_dpo/beta': 0.030131345614790916, 'beta_dpo/loss_margin_mean': 167.8729705810547, 'beta_dpo/beta_margin_mean': 6.02596378326416, 'beta_dpo/beta_margin_std': 9.554372787475586, 'beta_dpo/beta_margin_grad_mean': -0.26047882437705994, 'beta_dpo/beta_margin_grad_std': 0.2447003722190857, 'epoch': 0.81}

 81%|███████████████████████████████████████████████████████████████▏              | 552/681 [36:51<05:24,  2.51s/it]
 81%|███████████████████████████████████████████████████████████████▎              | 553/681 [36:53<05:25,  2.55s/it]
                                                                                                                     
{'loss': 1.2862, 'grad_norm': 12.119832038879395, 'learning_rate': 5.2839396041230415e-08, 'beta_dpo/gap_mean': 136.5676727294922, 'beta_dpo/gap_std': 154.75587463378906, 'beta_dpo/beta_used_raw': -1.732727289199829, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2949014902114868, 'logits/rejected': -0.28429996967315674, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 115.4837417602539, 'beta_dpo/beta_margin_mean': 0.11548375338315964, 'beta_dpo/beta_margin_std': 0.1468585580587387, 'beta_dpo/beta_margin_grad_mean': -0.4713681638240814, 'beta_dpo/beta_margin_grad_std': 0.03616320341825485, 'epoch': 0.81}

 81%|███████████████████████████████████████████████████████████████▎              | 553/681 [36:53<05:25,  2.55s/it]
 81%|███████████████████████████████████████████████████████████████▍              | 554/681 [36:56<05:23,  2.55s/it]
                                                                                                                     
{'loss': 5.6062, 'grad_norm': 4559.46533203125, 'learning_rate': 5.205293880283551e-08, 'beta_dpo/gap_mean': 135.99404907226562, 'beta_dpo/gap_std': 153.7836456298828, 'beta_dpo/beta_used_raw': 1.4587900638580322, 'beta_dpo/beta_used': 1.4587900638580322, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3366745710372925, 'logits/rejected': -0.2806839942932129, 'beta_dpo/beta': 1.4587900638580322, 'beta_dpo/loss_margin_mean': 152.52484130859375, 'beta_dpo/beta_margin_mean': 238.0844268798828, 'beta_dpo/beta_margin_std': 281.8099365234375, 'beta_dpo/beta_margin_grad_mean': -0.14538182318210602, 'beta_dpo/beta_margin_grad_std': 0.3477603495121002, 'epoch': 0.81}

 81%|███████████████████████████████████████████████████████████████▍              | 554/681 [36:56<05:23,  2.55s/it]
 81%|███████████████████████████████████████████████████████████████▌              | 555/681 [36:58<05:12,  2.48s/it]
                                                                                                                     
{'loss': 1.2716, 'grad_norm': 9.786598205566406, 'learning_rate': 5.127169765359515e-08, 'beta_dpo/gap_mean': 141.6253662109375, 'beta_dpo/gap_std': 156.78480529785156, 'beta_dpo/beta_used_raw': -1.0361934900283813, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32283300161361694, 'logits/rejected': -0.32556623220443726, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 158.44393920898438, 'beta_dpo/beta_margin_mean': 0.15844394266605377, 'beta_dpo/beta_margin_std': 0.17401549220085144, 'beta_dpo/beta_margin_grad_mean': -0.46083858609199524, 'beta_dpo/beta_margin_grad_std': 0.04272112995386124, 'epoch': 0.81}

 81%|███████████████████████████████████████████████████████████████▌              | 555/681 [36:58<05:12,  2.48s/it]
 82%|███████████████████████████████████████████████████████████████▋              | 556/681 [37:01<05:17,  2.54s/it]
                                                                                                                     
{'loss': 1.2816, 'grad_norm': 9.365325927734375, 'learning_rate': 5.049569317994012e-08, 'beta_dpo/gap_mean': 137.80215454101562, 'beta_dpo/gap_std': 157.4153594970703, 'beta_dpo/beta_used_raw': -1.443986415863037, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26281827688217163, 'logits/rejected': -0.25179579854011536, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 114.5506591796875, 'beta_dpo/beta_margin_mean': 0.11455066502094269, 'beta_dpo/beta_margin_std': 0.1455988883972168, 'beta_dpo/beta_margin_grad_mean': -0.47160035371780396, 'beta_dpo/beta_margin_grad_std': 0.03592273220419884, 'epoch': 0.82}

 82%|███████████████████████████████████████████████████████████████▋              | 556/681 [37:01<05:17,  2.54s/it]
 82%|███████████████████████████████████████████████████████████████▊              | 557/681 [37:03<05:18,  2.57s/it]
                                                                                                                     
{'loss': 1.2898, 'grad_norm': 9.669354438781738, 'learning_rate': 4.9724945830310144e-08, 'beta_dpo/gap_mean': 137.3007049560547, 'beta_dpo/gap_std': 157.2840576171875, 'beta_dpo/beta_used_raw': -2.001009464263916, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.337306410074234, 'logits/rejected': -0.3294256329536438, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 134.2703399658203, 'beta_dpo/beta_margin_mean': 0.1342703402042389, 'beta_dpo/beta_margin_std': 0.15857142210006714, 'beta_dpo/beta_margin_grad_mean': -0.4667251408100128, 'beta_dpo/beta_margin_grad_std': 0.03912574052810669, 'epoch': 0.82}

 82%|███████████████████████████████████████████████████████████████▊              | 557/681 [37:04<05:18,  2.57s/it]
 82%|███████████████████████████████████████████████████████████████▉              | 558/681 [37:06<05:13,  2.55s/it]
                                                                                                                     
{'loss': 1.8804, 'grad_norm': 3461.24609375, 'learning_rate': 4.8959475914614554e-08, 'beta_dpo/gap_mean': 142.946044921875, 'beta_dpo/gap_std': 159.32034301757812, 'beta_dpo/beta_used_raw': 0.4606805443763733, 'beta_dpo/beta_used': 1.0059072971343994, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3064291179180145, 'logits/rejected': -0.2867761254310608, 'beta_dpo/beta': 1.0059072971343994, 'beta_dpo/loss_margin_mean': 181.12159729003906, 'beta_dpo/beta_margin_mean': 189.39646911621094, 'beta_dpo/beta_margin_std': 301.6690673828125, 'beta_dpo/beta_margin_grad_mean': -0.2754041254520416, 'beta_dpo/beta_margin_grad_std': 0.2766437232494354, 'epoch': 0.82}

 82%|███████████████████████████████████████████████████████████████▉              | 558/681 [37:06<05:13,  2.55s/it]
 82%|████████████████████████████████████████████████████████████████              | 559/681 [37:09<05:17,  2.60s/it]
                                                                                                                     
{'loss': 1.2773, 'grad_norm': 10.119109153747559, 'learning_rate': 4.8199303603697614e-08, 'beta_dpo/gap_mean': 142.8798828125, 'beta_dpo/gap_std': 159.66058349609375, 'beta_dpo/beta_used_raw': -1.5490376949310303, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29613497853279114, 'logits/rejected': -0.264508992433548, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 130.55618286132812, 'beta_dpo/beta_margin_mean': 0.13055618107318878, 'beta_dpo/beta_margin_std': 0.15036651492118835, 'beta_dpo/beta_margin_grad_mean': -0.46763336658477783, 'beta_dpo/beta_margin_grad_std': 0.037108905613422394, 'epoch': 0.82}

 82%|████████████████████████████████████████████████████████████████              | 559/681 [37:09<05:17,  2.60s/it]
 82%|████████████████████████████████████████████████████████████████▏             | 560/681 [37:12<05:27,  2.70s/it]
                                                                                                                     
{'loss': 1.3, 'grad_norm': 7.162990093231201, 'learning_rate': 4.7444448928806615e-08, 'beta_dpo/gap_mean': 135.69216918945312, 'beta_dpo/gap_std': 153.98773193359375, 'beta_dpo/beta_used_raw': -2.5403027534484863, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3266592025756836, 'logits/rejected': -0.29840749502182007, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 95.51001739501953, 'beta_dpo/beta_margin_mean': 0.09551002085208893, 'beta_dpo/beta_margin_std': 0.11784511804580688, 'beta_dpo/beta_margin_grad_mean': -0.4762340188026428, 'beta_dpo/beta_margin_grad_std': 0.02926693856716156, 'epoch': 0.82}

 82%|████████████████████████████████████████████████████████████████▏             | 560/681 [37:12<05:27,  2.70s/it]
 82%|████████████████████████████████████████████████████████████████▎             | 561/681 [37:14<05:15,  2.63s/it]
                                                                                                                     
{'loss': 1.2876, 'grad_norm': 9.79651165008545, 'learning_rate': 4.669493178106432e-08, 'beta_dpo/gap_mean': 128.0847930908203, 'beta_dpo/gap_std': 150.51815795898438, 'beta_dpo/beta_used_raw': -1.3117592334747314, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25924211740493774, 'logits/rejected': -0.26707911491394043, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 107.95172882080078, 'beta_dpo/beta_margin_mean': 0.10795173794031143, 'beta_dpo/beta_margin_std': 0.15263213217258453, 'beta_dpo/beta_margin_grad_mean': -0.4732115864753723, 'beta_dpo/beta_margin_grad_std': 0.03771474212408066, 'epoch': 0.82}

 82%|████████████████████████████████████████████████████████████████▎             | 561/681 [37:14<05:15,  2.63s/it]
 83%|████████████████████████████████████████████████████████████████▎             | 562/681 [37:17<05:17,  2.67s/it]
                                                                                                                     
{'loss': 0.5564, 'grad_norm': 1593.489501953125, 'learning_rate': 4.5950771910944596e-08, 'beta_dpo/gap_mean': 133.90435791015625, 'beta_dpo/gap_std': 153.45608520507812, 'beta_dpo/beta_used_raw': 0.3996525704860687, 'beta_dpo/beta_used': 0.3996525704860687, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2836867570877075, 'logits/rejected': -0.2583543062210083, 'beta_dpo/beta': 0.3996525704860687, 'beta_dpo/loss_margin_mean': 160.7019500732422, 'beta_dpo/beta_margin_mean': 71.11713409423828, 'beta_dpo/beta_margin_std': 115.91793060302734, 'beta_dpo/beta_margin_grad_mean': -0.18731488287448883, 'beta_dpo/beta_margin_grad_std': 0.24937215447425842, 'epoch': 0.83}

 83%|████████████████████████████████████████████████████████████████▎             | 562/681 [37:17<05:17,  2.67s/it]
 83%|████████████████████████████████████████████████████████████████▍             | 563/681 [37:19<05:07,  2.61s/it]
                                                                                                                     
{'loss': 0.6609, 'grad_norm': 5.384544372558594, 'learning_rate': 4.521198892775202e-08, 'beta_dpo/gap_mean': 128.47000122070312, 'beta_dpo/gap_std': 152.47921752929688, 'beta_dpo/beta_used_raw': -1.030278205871582, 'beta_dpo/beta_used': 0.6970747709274292, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2287236452102661, 'logits/rejected': -0.2236756980419159, 'beta_dpo/beta': 0.6970747709274292, 'beta_dpo/loss_margin_mean': 104.50337219238281, 'beta_dpo/beta_margin_mean': 97.39839935302734, 'beta_dpo/beta_margin_std': 165.26593017578125, 'beta_dpo/beta_margin_grad_mean': -0.2882736921310425, 'beta_dpo/beta_margin_grad_std': 0.28458070755004883, 'epoch': 0.83}

 83%|████████████████████████████████████████████████████████████████▍             | 563/681 [37:19<05:07,  2.61s/it]
 83%|████████████████████████████████████████████████████████████████▌             | 564/681 [37:22<05:00,  2.56s/it]
                                                                                                                     
{'loss': 1.2715, 'grad_norm': 10.955151557922363, 'learning_rate': 4.447860229910544e-08, 'beta_dpo/gap_mean': 128.43161010742188, 'beta_dpo/gap_std': 145.12420654296875, 'beta_dpo/beta_used_raw': -0.3562297523021698, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3264349102973938, 'logits/rejected': -0.27898818254470825, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 127.449462890625, 'beta_dpo/beta_margin_mean': 0.12744946777820587, 'beta_dpo/beta_margin_std': 0.10762052237987518, 'beta_dpo/beta_margin_grad_mean': -0.468271940946579, 'beta_dpo/beta_margin_grad_std': 0.026733947917819023, 'epoch': 0.83}

 83%|████████████████████████████████████████████████████████████████▌             | 564/681 [37:22<05:00,  2.56s/it]
 83%|████████████████████████████████████████████████████████████████▋             | 565/681 [37:24<05:00,  2.59s/it]
                                                                                                                     
{'loss': 1.2962, 'grad_norm': 9.339284896850586, 'learning_rate': 4.375063135042445e-08, 'beta_dpo/gap_mean': 129.21328735351562, 'beta_dpo/gap_std': 149.37860107421875, 'beta_dpo/beta_used_raw': -1.8274688720703125, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32135599851608276, 'logits/rejected': -0.29336240887641907, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 125.99852752685547, 'beta_dpo/beta_margin_mean': 0.12599852681159973, 'beta_dpo/beta_margin_std': 0.1797182410955429, 'beta_dpo/beta_margin_grad_mean': -0.46887075901031494, 'beta_dpo/beta_margin_grad_std': 0.04425227269530296, 'epoch': 0.83}

 83%|████████████████████████████████████████████████████████████████▋             | 565/681 [37:24<05:00,  2.59s/it]
 83%|████████████████████████████████████████████████████████████████▊             | 566/681 [37:27<04:59,  2.61s/it]
                                                                                                                     
{'loss': 15.8724, 'grad_norm': 6508.62109375, 'learning_rate': 4.3028095264420525e-08, 'beta_dpo/gap_mean': 126.85293579101562, 'beta_dpo/gap_std': 152.6265411376953, 'beta_dpo/beta_used_raw': 0.07706618309020996, 'beta_dpo/beta_used': 0.8117600679397583, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.32367947697639465, 'logits/rejected': -0.31794965267181396, 'beta_dpo/beta': 0.8117600679397583, 'beta_dpo/loss_margin_mean': 133.81838989257812, 'beta_dpo/beta_margin_mean': 146.53407287597656, 'beta_dpo/beta_margin_std': 228.20166015625, 'beta_dpo/beta_margin_grad_mean': -0.31733959913253784, 'beta_dpo/beta_margin_grad_std': 0.30447834730148315, 'epoch': 0.83}

 83%|████████████████████████████████████████████████████████████████▊             | 566/681 [37:27<04:59,  2.61s/it]
 83%|████████████████████████████████████████████████████████████████▉             | 567/681 [37:29<04:48,  2.53s/it]
                                                                                                                     
{'loss': 1.278, 'grad_norm': 9.504931449890137, 'learning_rate': 4.231101308059165e-08, 'beta_dpo/gap_mean': 129.08819580078125, 'beta_dpo/gap_std': 152.85943603515625, 'beta_dpo/beta_used_raw': -0.7240467667579651, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23528262972831726, 'logits/rejected': -0.2039298713207245, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 124.32524871826172, 'beta_dpo/beta_margin_mean': 0.12432525306940079, 'beta_dpo/beta_margin_std': 0.15016567707061768, 'beta_dpo/beta_margin_grad_mean': -0.46915555000305176, 'beta_dpo/beta_margin_grad_std': 0.037161875516176224, 'epoch': 0.83}

 83%|████████████████████████████████████████████████████████████████▉             | 567/681 [37:29<04:48,  2.53s/it]
 83%|█████████████████████████████████████████████████████████████████             | 568/681 [37:32<04:39,  2.47s/it]
                                                                                                                     
{'loss': 0.6345, 'grad_norm': 6.678622245788574, 'learning_rate': 4.1599403694720145e-08, 'beta_dpo/gap_mean': 133.88278198242188, 'beta_dpo/gap_std': 151.78158569335938, 'beta_dpo/beta_used_raw': 0.6107033491134644, 'beta_dpo/beta_used': 0.8461459279060364, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23205448687076569, 'logits/rejected': -0.23499351739883423, 'beta_dpo/beta': 0.8461459279060364, 'beta_dpo/loss_margin_mean': 160.45494079589844, 'beta_dpo/beta_margin_mean': 147.88540649414062, 'beta_dpo/beta_margin_std': 209.6600341796875, 'beta_dpo/beta_margin_grad_mean': -0.2526528537273407, 'beta_dpo/beta_margin_grad_std': 0.24908038973808289, 'epoch': 0.83}

 83%|█████████████████████████████████████████████████████████████████             | 568/681 [37:32<04:39,  2.47s/it]
 84%|█████████████████████████████████████████████████████████████████▏            | 569/681 [37:34<04:41,  2.51s/it]
                                                                                                                     
{'loss': 1.2718, 'grad_norm': 8.88830280303955, 'learning_rate': 4.089328585837512e-08, 'beta_dpo/gap_mean': 132.76881408691406, 'beta_dpo/gap_std': 157.49737548828125, 'beta_dpo/beta_used_raw': -0.5694082379341125, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2558819651603699, 'logits/rejected': -0.23038721084594727, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 126.70633697509766, 'beta_dpo/beta_margin_mean': 0.1267063468694687, 'beta_dpo/beta_margin_std': 0.1721249222755432, 'beta_dpo/beta_margin_grad_mean': -0.4686329960823059, 'beta_dpo/beta_margin_grad_std': 0.042182739824056625, 'epoch': 0.84}

 84%|█████████████████████████████████████████████████████████████████▏            | 569/681 [37:34<04:41,  2.51s/it]
 84%|█████████████████████████████████████████████████████████████████▎            | 570/681 [37:37<04:42,  2.55s/it]
                                                                                                                     
{'loss': 1.2812, 'grad_norm': 9.188750267028809, 'learning_rate': 4.019267817841834e-08, 'beta_dpo/gap_mean': 135.02297973632812, 'beta_dpo/gap_std': 156.3493194580078, 'beta_dpo/beta_used_raw': -1.3033900260925293, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2918507754802704, 'logits/rejected': -0.25753656029701233, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 141.2174530029297, 'beta_dpo/beta_margin_mean': 0.1412174552679062, 'beta_dpo/beta_margin_std': 0.1463191956281662, 'beta_dpo/beta_margin_grad_mean': -0.4649701714515686, 'beta_dpo/beta_margin_grad_std': 0.03612607344985008, 'epoch': 0.84}

 84%|█████████████████████████████████████████████████████████████████▎            | 570/681 [37:37<04:42,  2.55s/it]
 84%|█████████████████████████████████████████████████████████████████▍            | 571/681 [37:40<04:42,  2.57s/it]
                                                                                                                     
{'loss': 1.2632, 'grad_norm': 9.97313117980957, 'learning_rate': 3.9497599116513705e-08, 'beta_dpo/gap_mean': 136.13604736328125, 'beta_dpo/gap_std': 156.74822998046875, 'beta_dpo/beta_used_raw': -0.18992829322814941, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25397494435310364, 'logits/rejected': -0.2496742308139801, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 141.20675659179688, 'beta_dpo/beta_margin_mean': 0.141206756234169, 'beta_dpo/beta_margin_std': 0.16472414135932922, 'beta_dpo/beta_margin_grad_mean': -0.4650152325630188, 'beta_dpo/beta_margin_grad_std': 0.04063018783926964, 'epoch': 0.84}

 84%|█████████████████████████████████████████████████████████████████▍            | 571/681 [37:40<04:42,  2.57s/it]
 84%|█████████████████████████████████████████████████████████████████▌            | 572/681 [37:42<04:41,  2.59s/it]
                                                                                                                     
{'loss': 1.2785, 'grad_norm': 8.473297119140625, 'learning_rate': 3.880806698864086e-08, 'beta_dpo/gap_mean': 137.13278198242188, 'beta_dpo/gap_std': 162.1319122314453, 'beta_dpo/beta_used_raw': -1.1367369890213013, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.1344674527645111, 'logits/rejected': -0.1297120749950409, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 141.65823364257812, 'beta_dpo/beta_margin_mean': 0.1416582465171814, 'beta_dpo/beta_margin_std': 0.19958563148975372, 'beta_dpo/beta_margin_grad_mean': -0.46506214141845703, 'beta_dpo/beta_margin_grad_std': 0.04904274642467499, 'epoch': 0.84}

 84%|█████████████████████████████████████████████████████████████████▌            | 572/681 [37:42<04:41,  2.59s/it]
 84%|█████████████████████████████████████████████████████████████████▋            | 573/681 [37:44<04:26,  2.47s/it]
                                                                                                                     
{'loss': 1.0498, 'grad_norm': 2860.332763671875, 'learning_rate': 3.812409996461275e-08, 'beta_dpo/gap_mean': 134.93524169921875, 'beta_dpo/gap_std': 163.98435974121094, 'beta_dpo/beta_used_raw': -0.6155003905296326, 'beta_dpo/beta_used': 0.5657570362091064, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21585188806056976, 'logits/rejected': -0.1981552243232727, 'beta_dpo/beta': 0.5657570362091064, 'beta_dpo/loss_margin_mean': 134.92376708984375, 'beta_dpo/beta_margin_mean': 95.1263656616211, 'beta_dpo/beta_margin_std': 160.51971435546875, 'beta_dpo/beta_margin_grad_mean': -0.31479325890541077, 'beta_dpo/beta_margin_grad_std': 0.3017220199108124, 'epoch': 0.84}

 84%|█████████████████████████████████████████████████████████████████▋            | 573/681 [37:44<04:26,  2.47s/it]
 84%|█████████████████████████████████████████████████████████████████▋            | 574/681 [37:47<04:36,  2.59s/it]
                                                                                                                     
{'loss': 7.3757, 'grad_norm': 4061.1669921875, 'learning_rate': 3.74457160675965e-08, 'beta_dpo/gap_mean': 137.75469970703125, 'beta_dpo/gap_std': 164.98902893066406, 'beta_dpo/beta_used_raw': -0.5097041130065918, 'beta_dpo/beta_used': 0.42727431654930115, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2794973850250244, 'logits/rejected': -0.27186524868011475, 'beta_dpo/beta': 0.42727431654930115, 'beta_dpo/loss_margin_mean': 151.39781188964844, 'beta_dpo/beta_margin_mean': 74.77179718017578, 'beta_dpo/beta_margin_std': 117.22281646728516, 'beta_dpo/beta_margin_grad_mean': -0.29670077562332153, 'beta_dpo/beta_margin_grad_std': 0.2917650043964386, 'epoch': 0.84}

 84%|█████████████████████████████████████████████████████████████████▋            | 574/681 [37:47<04:36,  2.59s/it]
 84%|█████████████████████████████████████████████████████████████████▊            | 575/681 [37:50<04:35,  2.60s/it]
                                                                                                                     
{'loss': 10.9297, 'grad_norm': 5152.19970703125, 'learning_rate': 3.677293317363864e-08, 'beta_dpo/gap_mean': 142.86614990234375, 'beta_dpo/gap_std': 165.47073364257812, 'beta_dpo/beta_used_raw': -1.0610246658325195, 'beta_dpo/beta_used': 0.7542173862457275, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23463058471679688, 'logits/rejected': -0.22157064080238342, 'beta_dpo/beta': 0.7542173862457275, 'beta_dpo/loss_margin_mean': 148.09268188476562, 'beta_dpo/beta_margin_mean': 144.06639099121094, 'beta_dpo/beta_margin_std': 216.29620361328125, 'beta_dpo/beta_margin_grad_mean': -0.28391233086586, 'beta_dpo/beta_margin_grad_std': 0.2826778292655945, 'epoch': 0.84}

 84%|█████████████████████████████████████████████████████████████████▊            | 575/681 [37:50<04:35,  2.60s/it]
 85%|█████████████████████████████████████████████████████████████████▉            | 576/681 [37:52<04:29,  2.57s/it]
                                                                                                                     
{'loss': 15.0778, 'grad_norm': 8114.90380859375, 'learning_rate': 3.6105769011194224e-08, 'beta_dpo/gap_mean': 143.2208251953125, 'beta_dpo/gap_std': 170.84510803222656, 'beta_dpo/beta_used_raw': -0.325950026512146, 'beta_dpo/beta_used': 0.7337521910667419, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.19612964987754822, 'logits/rejected': -0.20850840210914612, 'beta_dpo/beta': 0.7337521910667419, 'beta_dpo/loss_margin_mean': 145.1151885986328, 'beta_dpo/beta_margin_mean': 134.6069793701172, 'beta_dpo/beta_margin_std': 246.19821166992188, 'beta_dpo/beta_margin_grad_mean': -0.33054977655410767, 'beta_dpo/beta_margin_grad_std': 0.3121558427810669, 'epoch': 0.85}

 85%|█████████████████████████████████████████████████████████████████▉            | 576/681 [37:52<04:29,  2.57s/it]
 85%|██████████████████████████████████████████████████████████████████            | 577/681 [37:55<04:23,  2.53s/it]
                                                                                                                     
{'loss': 1.2622, 'grad_norm': 10.440290451049805, 'learning_rate': 3.5444241160659304e-08, 'beta_dpo/gap_mean': 141.38392639160156, 'beta_dpo/gap_std': 167.66371154785156, 'beta_dpo/beta_used_raw': -0.49266529083251953, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23968470096588135, 'logits/rejected': -0.20959413051605225, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 141.19017028808594, 'beta_dpo/beta_margin_mean': 0.14119017124176025, 'beta_dpo/beta_margin_std': 0.1427299827337265, 'beta_dpo/beta_margin_grad_mean': -0.46494874358177185, 'beta_dpo/beta_margin_grad_std': 0.03526080772280693, 'epoch': 0.85}

 85%|██████████████████████████████████████████████████████████████████            | 577/681 [37:55<04:23,  2.53s/it]
 85%|██████████████████████████████████████████████████████████████████▏           | 578/681 [37:57<04:22,  2.55s/it]
                                                                                                                     
{'loss': 11.5305, 'grad_norm': 6583.7763671875, 'learning_rate': 3.478836705390808e-08, 'beta_dpo/gap_mean': 143.93539428710938, 'beta_dpo/gap_std': 159.52902221679688, 'beta_dpo/beta_used_raw': 0.006027281284332275, 'beta_dpo/beta_used': 0.7611909508705139, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22640444338321686, 'logits/rejected': -0.2157905399799347, 'beta_dpo/beta': 0.7611909508705139, 'beta_dpo/loss_margin_mean': 147.3227996826172, 'beta_dpo/beta_margin_mean': 142.5281219482422, 'beta_dpo/beta_margin_std': 197.11514282226562, 'beta_dpo/beta_margin_grad_mean': -0.2679000794887543, 'beta_dpo/beta_margin_grad_std': 0.26821058988571167, 'epoch': 0.85}

 85%|██████████████████████████████████████████████████████████████████▏           | 578/681 [37:58<04:22,  2.55s/it]
 85%|██████████████████████████████████████████████████████████████████▎           | 579/681 [38:00<04:22,  2.57s/it]
                                                                                                                     
{'loss': 1.2754, 'grad_norm': 9.89820384979248, 'learning_rate': 3.41381639738331e-08, 'beta_dpo/gap_mean': 139.8126220703125, 'beta_dpo/gap_std': 156.47616577148438, 'beta_dpo/beta_used_raw': -1.2088857889175415, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2302914261817932, 'logits/rejected': -0.2305675745010376, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 127.76739501953125, 'beta_dpo/beta_margin_mean': 0.1277673989534378, 'beta_dpo/beta_margin_std': 0.14521077275276184, 'beta_dpo/beta_margin_grad_mean': -0.46830984950065613, 'beta_dpo/beta_margin_grad_std': 0.035833120346069336, 'epoch': 0.85}

 85%|██████████████████████████████████████████████████████████████████▎           | 579/681 [38:00<04:22,  2.57s/it]
 85%|██████████████████████████████████████████████████████████████████▍           | 580/681 [38:03<04:17,  2.55s/it]
                                                                                                                     
{'loss': 3.4703, 'grad_norm': 4675.8388671875, 'learning_rate': 3.349364905389032e-08, 'beta_dpo/gap_mean': 145.12841796875, 'beta_dpo/gap_std': 160.601318359375, 'beta_dpo/beta_used_raw': 0.005323469638824463, 'beta_dpo/beta_used': 0.6327630877494812, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2667354345321655, 'logits/rejected': -0.2596646249294281, 'beta_dpo/beta': 0.6327630877494812, 'beta_dpo/loss_margin_mean': 171.3323516845703, 'beta_dpo/beta_margin_mean': 124.6340560913086, 'beta_dpo/beta_margin_std': 214.6474151611328, 'beta_dpo/beta_margin_grad_mean': -0.294393390417099, 'beta_dpo/beta_margin_grad_std': 0.2901197075843811, 'epoch': 0.85}

 85%|██████████████████████████████████████████████████████████████████▍           | 580/681 [38:03<04:17,  2.55s/it]
 85%|██████████████████████████████████████████████████████████████████▌           | 581/681 [38:05<04:11,  2.52s/it]
                                                                                                                     
{'loss': 1.2772, 'grad_norm': 11.051158905029297, 'learning_rate': 3.285483927764726e-08, 'beta_dpo/gap_mean': 142.22879028320312, 'beta_dpo/gap_std': 161.37136840820312, 'beta_dpo/beta_used_raw': -1.4444794654846191, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2130197286605835, 'logits/rejected': -0.19874969124794006, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 122.41778564453125, 'beta_dpo/beta_margin_mean': 0.12241779267787933, 'beta_dpo/beta_margin_std': 0.1532379686832428, 'beta_dpo/beta_margin_grad_mean': -0.4696502089500427, 'beta_dpo/beta_margin_grad_std': 0.037816308438777924, 'epoch': 0.85}

 85%|██████████████████████████████████████████████████████████████████▌           | 581/681 [38:05<04:11,  2.52s/it]
 85%|██████████████████████████████████████████████████████████████████▋           | 582/681 [38:08<04:11,  2.54s/it]
                                                                                                                     
{'loss': 3.3185, 'grad_norm': 6046.9873046875, 'learning_rate': 3.222175147833556e-08, 'beta_dpo/gap_mean': 140.53729248046875, 'beta_dpo/gap_std': 163.76708984375, 'beta_dpo/beta_used_raw': 0.31641441583633423, 'beta_dpo/beta_used': 0.8017593622207642, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2035096287727356, 'logits/rejected': -0.21539103984832764, 'beta_dpo/beta': 0.8017593622207642, 'beta_dpo/loss_margin_mean': 150.3306884765625, 'beta_dpo/beta_margin_mean': 149.09133911132812, 'beta_dpo/beta_margin_std': 235.7801971435547, 'beta_dpo/beta_margin_grad_mean': -0.3157171308994293, 'beta_dpo/beta_margin_grad_std': 0.30175650119781494, 'epoch': 0.85}

 85%|██████████████████████████████████████████████████████████████████▋           | 582/681 [38:08<04:11,  2.54s/it]
 86%|██████████████████████████████████████████████████████████████████▊           | 583/681 [38:10<04:11,  2.56s/it]
                                                                                                                     
{'loss': 1.185, 'grad_norm': 3786.101318359375, 'learning_rate': 3.159440233840763e-08, 'beta_dpo/gap_mean': 141.73876953125, 'beta_dpo/gap_std': 164.75506591796875, 'beta_dpo/beta_used_raw': -1.43953537940979, 'beta_dpo/beta_used': 0.9682586193084717, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24737709760665894, 'logits/rejected': -0.2320498675107956, 'beta_dpo/beta': 0.9682586193084717, 'beta_dpo/loss_margin_mean': 119.88349151611328, 'beta_dpo/beta_margin_mean': 162.30221557617188, 'beta_dpo/beta_margin_std': 269.2271423339844, 'beta_dpo/beta_margin_grad_mean': -0.30453696846961975, 'beta_dpo/beta_margin_grad_std': 0.2952696681022644, 'epoch': 0.86}

 86%|██████████████████████████████████████████████████████████████████▊           | 583/681 [38:10<04:11,  2.56s/it]
 86%|██████████████████████████████████████████████████████████████████▉           | 584/681 [38:13<04:11,  2.59s/it]
                                                                                                                     
{'loss': 4.5156, 'grad_norm': 8176.68701171875, 'learning_rate': 3.0972808389096635e-08, 'beta_dpo/gap_mean': 145.17355346679688, 'beta_dpo/gap_std': 163.69281005859375, 'beta_dpo/beta_used_raw': 1.6438066959381104, 'beta_dpo/beta_used': 1.6438066959381104, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2157582938671112, 'logits/rejected': -0.18717166781425476, 'beta_dpo/beta': 1.6438066959381104, 'beta_dpo/loss_margin_mean': 184.53834533691406, 'beta_dpo/beta_margin_mean': 301.57366943359375, 'beta_dpo/beta_margin_std': 240.6201934814453, 'beta_dpo/beta_margin_grad_mean': -0.09067382663488388, 'beta_dpo/beta_margin_grad_std': 0.27994534373283386, 'epoch': 0.86}

 86%|██████████████████████████████████████████████████████████████████▉           | 584/681 [38:13<04:11,  2.59s/it]
 86%|███████████████████████████████████████████████████████████████████           | 585/681 [38:15<04:05,  2.56s/it]
                                                                                                                     
{'loss': 1.2685, 'grad_norm': 10.569422721862793, 'learning_rate': 3.035698600998121e-08, 'beta_dpo/gap_mean': 146.427490234375, 'beta_dpo/gap_std': 167.09033203125, 'beta_dpo/beta_used_raw': -1.062327265739441, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22004346549510956, 'logits/rejected': -0.19343584775924683, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 140.87313842773438, 'beta_dpo/beta_margin_mean': 0.14087313413619995, 'beta_dpo/beta_margin_std': 0.1823493242263794, 'beta_dpo/beta_margin_grad_mean': -0.4652203321456909, 'beta_dpo/beta_margin_grad_std': 0.04472190886735916, 'epoch': 0.86}

 86%|███████████████████████████████████████████████████████████████████           | 585/681 [38:15<04:05,  2.56s/it]
 86%|███████████████████████████████████████████████████████████████████           | 586/681 [38:18<04:01,  2.54s/it]
                                                                                                                     
{'loss': 20.036, 'grad_norm': 6330.98046875, 'learning_rate': 2.974695142855388e-08, 'beta_dpo/gap_mean': 142.56971740722656, 'beta_dpo/gap_std': 166.39047241210938, 'beta_dpo/beta_used_raw': 0.3582208454608917, 'beta_dpo/beta_used': 0.6197296380996704, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.15243850648403168, 'logits/rejected': -0.1464701145887375, 'beta_dpo/beta': 0.6197296380996704, 'beta_dpo/loss_margin_mean': 124.97702026367188, 'beta_dpo/beta_margin_mean': 77.84491729736328, 'beta_dpo/beta_margin_std': 179.86990356445312, 'beta_dpo/beta_margin_grad_mean': -0.34489572048187256, 'beta_dpo/beta_margin_grad_std': 0.31850454211235046, 'epoch': 0.86}

 86%|███████████████████████████████████████████████████████████████████           | 586/681 [38:18<04:01,  2.54s/it]
 86%|███████████████████████████████████████████████████████████████████▏          | 587/681 [38:21<04:03,  2.59s/it]
                                                                                                                     
{'loss': 1.6782, 'grad_norm': 1486.959716796875, 'learning_rate': 2.9142720719793122e-08, 'beta_dpo/gap_mean': 141.173828125, 'beta_dpo/gap_std': 167.37734985351562, 'beta_dpo/beta_used_raw': 0.002979278564453125, 'beta_dpo/beta_used': 0.1769709438085556, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21711990237236023, 'logits/rejected': -0.22026541829109192, 'beta_dpo/beta': 0.1769709438085556, 'beta_dpo/loss_margin_mean': 143.61300659179688, 'beta_dpo/beta_margin_mean': 28.48146629333496, 'beta_dpo/beta_margin_std': 53.35295104980469, 'beta_dpo/beta_margin_grad_mean': -0.31770533323287964, 'beta_dpo/beta_margin_grad_std': 0.2991076707839966, 'epoch': 0.86}

 86%|███████████████████████████████████████████████████████████████████▏          | 587/681 [38:21<04:03,  2.59s/it]
 86%|███████████████████████████████████████████████████████████████████▎          | 588/681 [38:23<03:55,  2.53s/it]
                                                                                                                     
{'loss': 1.2803, 'grad_norm': 10.127455711364746, 'learning_rate': 2.8544309805740018e-08, 'beta_dpo/gap_mean': 142.1791534423828, 'beta_dpo/gap_std': 167.677001953125, 'beta_dpo/beta_used_raw': -1.646202802658081, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.20089392364025116, 'logits/rejected': -0.21640396118164062, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 134.3628387451172, 'beta_dpo/beta_margin_mean': 0.1343628466129303, 'beta_dpo/beta_margin_std': 0.16470497846603394, 'beta_dpo/beta_margin_grad_mean': -0.46673768758773804, 'beta_dpo/beta_margin_grad_std': 0.040590547025203705, 'epoch': 0.86}

 86%|███████████████████████████████████████████████████████████████████▎          | 588/681 [38:23<03:55,  2.53s/it]
 86%|███████████████████████████████████████████████████████████████████▍          | 589/681 [38:25<03:50,  2.50s/it]
                                                                                                                     
{'loss': 9.0009, 'grad_norm': 4978.62353515625, 'learning_rate': 2.7951734455078786e-08, 'beta_dpo/gap_mean': 145.3118438720703, 'beta_dpo/gap_std': 171.17291259765625, 'beta_dpo/beta_used_raw': 0.6308818459510803, 'beta_dpo/beta_used': 0.7172443270683289, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21389494836330414, 'logits/rejected': -0.21070238947868347, 'beta_dpo/beta': 0.7172443270683289, 'beta_dpo/loss_margin_mean': 175.2359619140625, 'beta_dpo/beta_margin_mean': 129.02499389648438, 'beta_dpo/beta_margin_std': 218.08363342285156, 'beta_dpo/beta_margin_grad_mean': -0.2917996644973755, 'beta_dpo/beta_margin_grad_std': 0.288737952709198, 'epoch': 0.86}

 86%|███████████████████████████████████████████████████████████████████▍          | 589/681 [38:25<03:50,  2.50s/it]
 87%|███████████████████████████████████████████████████████████████████▌          | 590/681 [38:28<03:44,  2.47s/it]
                                                                                                                     
{'loss': 1.2672, 'grad_norm': 9.892497062683105, 'learning_rate': 2.736501028272095e-08, 'beta_dpo/gap_mean': 148.32342529296875, 'beta_dpo/gap_std': 171.41741943359375, 'beta_dpo/beta_used_raw': -1.1024678945541382, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.27166497707366943, 'logits/rejected': -0.2824591398239136, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 154.6300811767578, 'beta_dpo/beta_margin_mean': 0.15463007986545563, 'beta_dpo/beta_margin_std': 0.1757480353116989, 'beta_dpo/beta_margin_grad_mean': -0.46174660325050354, 'beta_dpo/beta_margin_grad_std': 0.04324490576982498, 'epoch': 0.87}

 87%|███████████████████████████████████████████████████████████████████▌          | 590/681 [38:28<03:44,  2.47s/it]
 87%|███████████████████████████████████████████████████████████████████▋          | 591/681 [38:30<03:31,  2.35s/it]
                                                                                                                     
{'loss': 8.5331, 'grad_norm': 6685.375, 'learning_rate': 2.678415274939408e-08, 'beta_dpo/gap_mean': 147.86041259765625, 'beta_dpo/gap_std': 171.3108367919922, 'beta_dpo/beta_used_raw': 0.8430722951889038, 'beta_dpo/beta_used': 0.8430722951889038, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.18227970600128174, 'logits/rejected': -0.1490815132856369, 'beta_dpo/beta': 0.8430722951889038, 'beta_dpo/loss_margin_mean': 143.2025604248047, 'beta_dpo/beta_margin_mean': 119.6875228881836, 'beta_dpo/beta_margin_std': 166.5166778564453, 'beta_dpo/beta_margin_grad_mean': -0.1681036800146103, 'beta_dpo/beta_margin_grad_std': 0.3638584315776825, 'epoch': 0.87}

 87%|███████████████████████████████████████████████████████████████████▋          | 591/681 [38:30<03:31,  2.35s/it]
 87%|███████████████████████████████████████████████████████████████████▊          | 592/681 [38:32<03:29,  2.36s/it]
                                                                                                                     
{'loss': 4.0589, 'grad_norm': 1482.502197265625, 'learning_rate': 2.6209177161234442e-08, 'beta_dpo/gap_mean': 147.7420654296875, 'beta_dpo/gap_std': 173.76480102539062, 'beta_dpo/beta_used_raw': 0.3010109066963196, 'beta_dpo/beta_used': 0.3010109066963196, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.1433703750371933, 'logits/rejected': -0.13005104660987854, 'beta_dpo/beta': 0.3010109066963196, 'beta_dpo/loss_margin_mean': 142.8642120361328, 'beta_dpo/beta_margin_mean': 41.5831298828125, 'beta_dpo/beta_margin_std': 63.77037048339844, 'beta_dpo/beta_margin_grad_mean': -0.17112194001674652, 'beta_dpo/beta_margin_grad_std': 0.3744083046913147, 'epoch': 0.87}

 87%|███████████████████████████████████████████████████████████████████▊          | 592/681 [38:32<03:29,  2.36s/it]
 87%|███████████████████████████████████████████████████████████████████▉          | 593/681 [38:35<03:32,  2.42s/it]
                                                                                                                     
{'loss': 1.2829, 'grad_norm': 9.439023971557617, 'learning_rate': 2.564009866938349e-08, 'beta_dpo/gap_mean': 140.90626525878906, 'beta_dpo/gap_std': 171.15963745117188, 'beta_dpo/beta_used_raw': -1.6807360649108887, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21954259276390076, 'logits/rejected': -0.20099984109401703, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 108.26074981689453, 'beta_dpo/beta_margin_mean': 0.10826075077056885, 'beta_dpo/beta_margin_std': 0.15056025981903076, 'beta_dpo/beta_margin_grad_mean': -0.47312307357788086, 'beta_dpo/beta_margin_grad_std': 0.037345997989177704, 'epoch': 0.87}

 87%|███████████████████████████████████████████████████████████████████▉          | 593/681 [38:35<03:32,  2.42s/it]
 87%|████████████████████████████████████████████████████████████████████          | 594/681 [38:37<03:30,  2.42s/it]
                                                                                                                     
{'loss': 5.7956, 'grad_norm': 8501.2041015625, 'learning_rate': 2.5076932269588708e-08, 'beta_dpo/gap_mean': 137.13877868652344, 'beta_dpo/gap_std': 171.59979248046875, 'beta_dpo/beta_used_raw': -0.07855743169784546, 'beta_dpo/beta_used': 0.978081226348877, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24125239253044128, 'logits/rejected': -0.22039398550987244, 'beta_dpo/beta': 0.978081226348877, 'beta_dpo/loss_margin_mean': 141.89723205566406, 'beta_dpo/beta_margin_mean': 191.28977966308594, 'beta_dpo/beta_margin_std': 318.696533203125, 'beta_dpo/beta_margin_grad_mean': -0.30155855417251587, 'beta_dpo/beta_margin_grad_std': 0.29437771439552307, 'epoch': 0.87}

 87%|████████████████████████████████████████████████████████████████████          | 594/681 [38:37<03:30,  2.42s/it]
 87%|████████████████████████████████████████████████████████████████████▏         | 595/681 [38:40<03:32,  2.48s/it]
                                                                                                                     
{'loss': 1.2789, 'grad_norm': 8.183320999145508, 'learning_rate': 2.451969280180849e-08, 'beta_dpo/gap_mean': 140.37985229492188, 'beta_dpo/gap_std': 170.879638671875, 'beta_dpo/beta_used_raw': -1.5019283294677734, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22626781463623047, 'logits/rejected': -0.209863543510437, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 137.82164001464844, 'beta_dpo/beta_margin_mean': 0.13782164454460144, 'beta_dpo/beta_margin_std': 0.16540595889091492, 'beta_dpo/beta_margin_grad_mean': -0.46594342589378357, 'beta_dpo/beta_margin_grad_std': 0.04041733592748642, 'epoch': 0.87}

 87%|████████████████████████████████████████████████████████████████████▏         | 595/681 [38:40<03:32,  2.48s/it]
 88%|████████████████████████████████████████████████████████████████████▎         | 596/681 [38:43<03:37,  2.56s/it]
                                                                                                                     
{'loss': 1.2921, 'grad_norm': 9.269095420837402, 'learning_rate': 2.396839494982103e-08, 'beta_dpo/gap_mean': 135.27981567382812, 'beta_dpo/gap_std': 171.58035278320312, 'beta_dpo/beta_used_raw': -2.0142910480499268, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2307220697402954, 'logits/rejected': -0.1973237693309784, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 113.97657012939453, 'beta_dpo/beta_margin_mean': 0.11397657543420792, 'beta_dpo/beta_margin_std': 0.1660909652709961, 'beta_dpo/beta_margin_grad_mean': -0.4717291593551636, 'beta_dpo/beta_margin_grad_std': 0.041060976684093475, 'epoch': 0.88}

 88%|████████████████████████████████████████████████████████████████████▎         | 596/681 [38:43<03:37,  2.56s/it]
 88%|████████████████████████████████████████████████████████████████████▍         | 597/681 [38:45<03:38,  2.61s/it]
                                                                                                                     
{'loss': 1.2696, 'grad_norm': 8.808784484863281, 'learning_rate': 2.3423053240837514e-08, 'beta_dpo/gap_mean': 138.75473022460938, 'beta_dpo/gap_std': 170.81509399414062, 'beta_dpo/beta_used_raw': -0.7436294555664062, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25807347893714905, 'logits/rejected': -0.271928995847702, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 148.0689697265625, 'beta_dpo/beta_margin_mean': 0.14806897938251495, 'beta_dpo/beta_margin_std': 0.1707853525876999, 'beta_dpo/beta_margin_grad_mean': -0.46336647868156433, 'beta_dpo/beta_margin_grad_std': 0.04198829457163811, 'epoch': 0.88}

 88%|████████████████████████████████████████████████████████████████████▍         | 597/681 [38:45<03:38,  2.61s/it]
 88%|████████████████████████████████████████████████████████████████████▍         | 598/681 [38:48<03:28,  2.51s/it]
                                                                                                                     
{'loss': 0.7417, 'grad_norm': 8300.21875, 'learning_rate': 2.2883682045119062e-08, 'beta_dpo/gap_mean': 137.17803955078125, 'beta_dpo/gap_std': 168.94393920898438, 'beta_dpo/beta_used_raw': 1.4840975999832153, 'beta_dpo/beta_used': 1.4840975999832153, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.15673092007637024, 'logits/rejected': -0.1377362161874771, 'beta_dpo/beta': 1.4840975999832153, 'beta_dpo/loss_margin_mean': 126.81389617919922, 'beta_dpo/beta_margin_mean': 230.9344024658203, 'beta_dpo/beta_margin_std': 346.7568054199219, 'beta_dpo/beta_margin_grad_mean': -0.1805470734834671, 'beta_dpo/beta_margin_grad_std': 0.3769548535346985, 'epoch': 0.88}

 88%|████████████████████████████████████████████████████████████████████▍         | 598/681 [38:48<03:28,  2.51s/it]
 88%|████████████████████████████████████████████████████████████████████▌         | 599/681 [38:50<03:32,  2.59s/it]
                                                                                                                     
{'loss': 1.2758, 'grad_norm': 8.623753547668457, 'learning_rate': 2.2350295575598367e-08, 'beta_dpo/gap_mean': 133.7099609375, 'beta_dpo/gap_std': 163.5647430419922, 'beta_dpo/beta_used_raw': -0.891679584980011, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23145388066768646, 'logits/rejected': -0.22919651865959167, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 120.14342498779297, 'beta_dpo/beta_margin_mean': 0.12014342844486237, 'beta_dpo/beta_margin_std': 0.1313522458076477, 'beta_dpo/beta_margin_grad_mean': -0.47013577818870544, 'beta_dpo/beta_margin_grad_std': 0.032581571489572525, 'epoch': 0.88}

 88%|████████████████████████████████████████████████████████████████████▌         | 599/681 [38:50<03:32,  2.59s/it]
 88%|████████████████████████████████████████████████████████████████████▋         | 600/681 [38:53<03:33,  2.64s/it]
                                                                                                                     
{'loss': 4.9835, 'grad_norm': 6785.72021484375, 'learning_rate': 2.1822907887504932e-08, 'beta_dpo/gap_mean': 130.60569763183594, 'beta_dpo/gap_std': 163.328125, 'beta_dpo/beta_used_raw': -0.27364301681518555, 'beta_dpo/beta_used': 0.5338709950447083, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25038397312164307, 'logits/rejected': -0.22991827130317688, 'beta_dpo/beta': 0.5338709950447083, 'beta_dpo/loss_margin_mean': 123.1740951538086, 'beta_dpo/beta_margin_mean': 67.7778091430664, 'beta_dpo/beta_margin_std': 132.87322998046875, 'beta_dpo/beta_margin_grad_mean': -0.3133900761604309, 'beta_dpo/beta_margin_grad_std': 0.30288076400756836, 'epoch': 0.88}

 88%|████████████████████████████████████████████████████████████████████▋         | 600/681 [38:53<03:33,  2.64s/it][INFO|trainer.py:4307] 2026-04-18 00:02:25,667 >>
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-18 00:02:25,667 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-18 00:02:25,667 >>   Batch size = 8


  0%|                                                                                         | 0/73 [00:00<?, ?it/s][A

  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.62it/s][A

  4%|███▎                                                                             | 3/73 [00:01<00:27,  2.58it/s][A

  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.25it/s][A

  7%|█████▌                                                                           | 5/73 [00:02<00:32,  2.10it/s][A

  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.00it/s][A

 10%|███████▊                                                                         | 7/73 [00:03<00:32,  2.05it/s][A

 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.92it/s][A

 12%|█████████▉                                                                       | 9/73 [00:04<00:34,  1.86it/s][A

 14%|██████████▉                                                                     | 10/73 [00:04<00:34,  1.85it/s][A

 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.85it/s][A

 16%|█████████████▏                                                                  | 12/73 [00:06<00:33,  1.80it/s][A

 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.85it/s][A

 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.81it/s][A

 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.82it/s][A

 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.75it/s][A

 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.75it/s][A

 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.73it/s][A

 26%|████████████████████▊                                                           | 19/73 [00:10<00:31,  1.71it/s][A

 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.70it/s][A

 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.70it/s][A

 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.68it/s][A

 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:28,  1.73it/s][A

 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.74it/s][A

 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:27,  1.72it/s][A

 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:26,  1.74it/s][A

 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s][A

 38%|██████████████████████████████▋                                                 | 28/73 [00:15<00:23,  1.89it/s][A

 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:23,  1.91it/s][A

 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.92it/s][A

 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.85it/s][A

 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s][A

 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:20,  1.91it/s][A

 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.88it/s][A

 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:20,  1.81it/s][A

 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.82it/s][A

 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s][A

 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.88it/s][A

 53%|██████████████████████████████████████████▋                                     | 39/73 [00:21<00:18,  1.79it/s][A

 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.82it/s][A

 56%|████████████████████████████████████████████▉                                   | 41/73 [00:22<00:17,  1.88it/s][A

 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:16,  1.83it/s][A

 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s][A

 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.85it/s][A

 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s][A

 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.85it/s][A

 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s][A

 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:25<00:13,  1.80it/s][A

 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.79it/s][A

 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:27<00:12,  1.81it/s][A

 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.79it/s][A

 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.74it/s][A

 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s][A

 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.82it/s][A

 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.80it/s][A

 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.85it/s][A

 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:31<00:09,  1.77it/s][A

 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s][A

 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:32<00:07,  1.84it/s][A

 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s][A

 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.81it/s][A

 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.76it/s][A

 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s][A

 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.95it/s][A

 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.92it/s][A

 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.85it/s][A

 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.89it/s][A

 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.84it/s][A

 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s][A

 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:38<00:01,  1.80it/s][A

 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.80it/s][A

 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.79it/s][A

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.93it/s][A

                                                                                                                     
[A{'eval_loss': 1.7101179361343384, 'eval_runtime': 40.1564, 'eval_samples_per_second': 58.247, 'eval_steps_per_second': 1.843, 'eval_beta_dpo/beta': 0.06907455623149872, 'eval_beta_dpo/loss_margin_mean': 86.860595703125, 'eval_beta_dpo/beta_margin_mean': 10.027384757995605, 'eval_beta_dpo/beta_margin_std': 12.811722755432129, 'eval_beta_dpo/beta_margin_grad_mean': -0.45501866936683655, 'eval_beta_dpo/beta_margin_grad_std': 0.07437112927436829, 'eval_beta_dpo/gap_mean': 130.01516723632812, 'eval_beta_dpo/gap_std': 165.05413818359375, 'eval_beta_dpo/beta_used_raw': -2.489274740219116, 'eval_beta_dpo/beta_used': 0.06907455623149872, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.2788536548614502, 'eval_logits/rejected': -0.2574594020843506, 'epoch': 0.88}

 88%|████████████████████████████████████████████████████████████████████▋         | 600/681 [39:33<03:33,  2.64s/it]

100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.93it/s][A

                                                                                                                     [A[INFO|trainer.py:3984] 2026-04-18 00:03:20,734 >> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600
[INFO|configuration_utils.py:419] 2026-04-18 00:03:20,757 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600/config.json
[INFO|configuration_utils.py:911] 2026-04-18 00:03:20,767 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-18 00:04:11,264 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-18 00:04:11,280 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-18 00:04:11,291 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-600/special_tokens_map.json
[INFO|trainer.py:4083] 2026-04-18 00:07:50,421 >> Deleting older checkpoint [/scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-200] due to args.save_total_limit

 88%|██████████████████████████████████████████████████████████████████▏        | 601/681 [44:23<2:14:24, 100.80s/it]
                                                                                                                     
{'loss': 17.4177, 'grad_norm': 8184.26904296875, 'learning_rate': 2.1301532877994742e-08, 'beta_dpo/gap_mean': 132.40260314941406, 'beta_dpo/gap_std': 165.82818603515625, 'beta_dpo/beta_used_raw': 0.8004127740859985, 'beta_dpo/beta_used': 0.8004127740859985, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22523418068885803, 'logits/rejected': -0.21112903952598572, 'beta_dpo/beta': 0.8004127740859985, 'beta_dpo/loss_margin_mean': 142.81410217285156, 'beta_dpo/beta_margin_mean': 111.2850570678711, 'beta_dpo/beta_margin_std': 138.40003967285156, 'beta_dpo/beta_margin_grad_mean': -0.1567797064781189, 'beta_dpo/beta_margin_grad_std': 0.36213722825050354, 'epoch': 0.88}

 88%|██████████████████████████████████████████████████████████████████▏        | 601/681 [44:23<2:14:24, 100.80s/it]
 88%|███████████████████████████████████████████████████████████████████▏        | 602/681 [44:25<1:33:53, 71.31s/it]
                                                                                                                     
{'loss': 3.5737, 'grad_norm': 3134.716064453125, 'learning_rate': 2.0786184285784298e-08, 'beta_dpo/gap_mean': 136.0496826171875, 'beta_dpo/gap_std': 164.3628387451172, 'beta_dpo/beta_used_raw': -0.4077162742614746, 'beta_dpo/beta_used': 0.405770868062973, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2434152215719223, 'logits/rejected': -0.23451802134513855, 'beta_dpo/beta': 0.405770868062973, 'beta_dpo/loss_margin_mean': 162.997314453125, 'beta_dpo/beta_margin_mean': 59.608760833740234, 'beta_dpo/beta_margin_std': 99.93406677246094, 'beta_dpo/beta_margin_grad_mean': -0.3060374855995178, 'beta_dpo/beta_margin_grad_std': 0.2988956570625305, 'epoch': 0.88}

 88%|███████████████████████████████████████████████████████████████████▏        | 602/681 [44:26<1:33:53, 71.31s/it]
 89%|███████████████████████████████████████████████████████████████████▎        | 603/681 [44:28<1:05:50, 50.64s/it]
                                                                                                                     
{'loss': 1.281, 'grad_norm': 8.003498077392578, 'learning_rate': 2.0276875690788204e-08, 'beta_dpo/gap_mean': 135.49624633789062, 'beta_dpo/gap_std': 164.59576416015625, 'beta_dpo/beta_used_raw': -1.2860097885131836, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30411213636398315, 'logits/rejected': -0.28685271739959717, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 118.26836395263672, 'beta_dpo/beta_margin_mean': 0.11826837062835693, 'beta_dpo/beta_margin_std': 0.15868444740772247, 'beta_dpo/beta_margin_grad_mean': -0.47068238258361816, 'beta_dpo/beta_margin_grad_std': 0.03925681486725807, 'epoch': 0.89}

 89%|███████████████████████████████████████████████████████████████████▎        | 603/681 [44:28<1:05:50, 50.64s/it]
 89%|█████████████████████████████████████████████████████████████████████▏        | 604/681 [44:31<46:30, 36.24s/it]
                                                                                                                     
{'loss': 0.8912, 'grad_norm': 724.6542358398438, 'learning_rate': 1.977362051376158e-08, 'beta_dpo/gap_mean': 136.69830322265625, 'beta_dpo/gap_std': 164.337158203125, 'beta_dpo/beta_used_raw': 0.08082294464111328, 'beta_dpo/beta_used': 0.6322586536407471, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2538166642189026, 'logits/rejected': -0.25749316811561584, 'beta_dpo/beta': 0.6322586536407471, 'beta_dpo/loss_margin_mean': 149.04656982421875, 'beta_dpo/beta_margin_mean': 95.61994934082031, 'beta_dpo/beta_margin_std': 150.78732299804688, 'beta_dpo/beta_margin_grad_mean': -0.27876517176628113, 'beta_dpo/beta_margin_grad_std': 0.2794075906276703, 'epoch': 0.89}

 89%|█████████████████████████████████████████████████████████████████████▏        | 604/681 [44:31<46:30, 36.24s/it]
 89%|█████████████████████████████████████████████████████████████████████▎        | 605/681 [44:33<33:08, 26.16s/it]
                                                                                                                     
{'loss': 1.2738, 'grad_norm': 12.376964569091797, 'learning_rate': 1.9276432015946446e-08, 'beta_dpo/gap_mean': 137.9195098876953, 'beta_dpo/gap_std': 170.83059692382812, 'beta_dpo/beta_used_raw': -1.015389084815979, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2761760950088501, 'logits/rejected': -0.2704794406890869, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 133.719970703125, 'beta_dpo/beta_margin_mean': 0.13371996581554413, 'beta_dpo/beta_margin_std': 0.18470925092697144, 'beta_dpo/beta_margin_grad_mean': -0.4670778810977936, 'beta_dpo/beta_margin_grad_std': 0.044755224138498306, 'epoch': 0.89}

 89%|█████████████████████████████████████████████████████████████████████▎        | 605/681 [44:33<33:08, 26.16s/it]
 89%|█████████████████████████████████████████████████████████████████████▍        | 606/681 [44:36<23:46, 19.02s/it]
                                                                                                                     
{'loss': 1.7791, 'grad_norm': 1692.56103515625, 'learning_rate': 1.8785323298722093e-08, 'beta_dpo/gap_mean': 136.48269653320312, 'beta_dpo/gap_std': 169.08889770507812, 'beta_dpo/beta_used_raw': 0.5771820545196533, 'beta_dpo/beta_used': 1.080771803855896, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.20563073456287384, 'logits/rejected': -0.20558518171310425, 'beta_dpo/beta': 1.080771803855896, 'beta_dpo/loss_margin_mean': 149.46290588378906, 'beta_dpo/beta_margin_mean': 202.94053649902344, 'beta_dpo/beta_margin_std': 319.66082763671875, 'beta_dpo/beta_margin_grad_mean': -0.28311601281166077, 'beta_dpo/beta_margin_grad_std': 0.2813016474246979, 'epoch': 0.89}

 89%|█████████████████████████████████████████████████████████████████████▍        | 606/681 [44:36<23:46, 19.02s/it]
 89%|█████████████████████████████████████████████████████████████████████▌        | 607/681 [44:38<17:26, 14.15s/it]
                                                                                                                     
{'loss': 1.2853, 'grad_norm': 8.623156547546387, 'learning_rate': 1.8300307303259904e-08, 'beta_dpo/gap_mean': 136.1642303466797, 'beta_dpo/gap_std': 165.0216522216797, 'beta_dpo/beta_used_raw': -1.6541626453399658, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.28075528144836426, 'logits/rejected': -0.26314833760261536, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 120.72370910644531, 'beta_dpo/beta_margin_mean': 0.12072371691465378, 'beta_dpo/beta_margin_std': 0.14232668280601501, 'beta_dpo/beta_margin_grad_mean': -0.47003647685050964, 'beta_dpo/beta_margin_grad_std': 0.03521895408630371, 'epoch': 0.89}

 89%|█████████████████████████████████████████████████████████████████████▌        | 607/681 [44:38<17:26, 14.15s/it]
 89%|█████████████████████████████████████████████████████████████████████▋        | 608/681 [44:41<12:55, 10.62s/it]
                                                                                                                     
{'loss': 1.2709, 'grad_norm': 8.3565673828125, 'learning_rate': 1.7821396810182437e-08, 'beta_dpo/gap_mean': 134.62435913085938, 'beta_dpo/gap_std': 160.134521484375, 'beta_dpo/beta_used_raw': -0.6566117405891418, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30109351873397827, 'logits/rejected': -0.28483152389526367, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 131.20831298828125, 'beta_dpo/beta_margin_mean': 0.13120831549167633, 'beta_dpo/beta_margin_std': 0.13629145920276642, 'beta_dpo/beta_margin_grad_mean': -0.46741145849227905, 'beta_dpo/beta_margin_grad_std': 0.03372717648744583, 'epoch': 0.89}

 89%|█████████████████████████████████████████████████████████████████████▋        | 608/681 [44:41<12:55, 10.62s/it]
 89%|█████████████████████████████████████████████████████████████████████▊        | 609/681 [44:43<09:48,  8.17s/it]
                                                                                                                     
{'loss': 0.6493, 'grad_norm': 3484.029052734375, 'learning_rate': 1.7348604439226617e-08, 'beta_dpo/gap_mean': 137.36264038085938, 'beta_dpo/gap_std': 161.44122314453125, 'beta_dpo/beta_used_raw': 0.5683431029319763, 'beta_dpo/beta_used': 0.5683431029319763, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26210033893585205, 'logits/rejected': -0.24275103211402893, 'beta_dpo/beta': 0.5683431029319763, 'beta_dpo/loss_margin_mean': 153.95826721191406, 'beta_dpo/beta_margin_mean': 91.26676177978516, 'beta_dpo/beta_margin_std': 144.23231506347656, 'beta_dpo/beta_margin_grad_mean': -0.11586936563253403, 'beta_dpo/beta_margin_grad_std': 0.3091588318347931, 'epoch': 0.89}

 89%|█████████████████████████████████████████████████████████████████████▊        | 609/681 [44:43<09:48,  8.17s/it]
 90%|█████████████████████████████████████████████████████████████████████▊        | 610/681 [44:45<07:35,  6.42s/it]
                                                                                                                     
{'loss': 1.2757, 'grad_norm': 9.066965103149414, 'learning_rate': 1.6881942648911074e-08, 'beta_dpo/gap_mean': 136.2181854248047, 'beta_dpo/gap_std': 160.43869018554688, 'beta_dpo/beta_used_raw': -0.988802433013916, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25646454095840454, 'logits/rejected': -0.22565940022468567, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 126.81504821777344, 'beta_dpo/beta_margin_mean': 0.1268150508403778, 'beta_dpo/beta_margin_std': 0.16618604958057404, 'beta_dpo/beta_margin_grad_mean': -0.4685831665992737, 'beta_dpo/beta_margin_grad_std': 0.04099490866065025, 'epoch': 0.9}

 90%|█████████████████████████████████████████████████████████████████████▊        | 610/681 [44:46<07:35,  6.42s/it]
 90%|█████████████████████████████████████████████████████████████████████▉        | 611/681 [44:48<06:02,  5.17s/it]
                                                                                                                     
{'loss': 8.377, 'grad_norm': 7008.0810546875, 'learning_rate': 1.6421423736208e-08, 'beta_dpo/gap_mean': 137.39132690429688, 'beta_dpo/gap_std': 162.03436279296875, 'beta_dpo/beta_used_raw': 0.4401324391365051, 'beta_dpo/beta_used': 0.7692165374755859, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.20377308130264282, 'logits/rejected': -0.19680052995681763, 'beta_dpo/beta': 0.7692165374755859, 'beta_dpo/loss_margin_mean': 148.3230438232422, 'beta_dpo/beta_margin_mean': 129.48629760742188, 'beta_dpo/beta_margin_std': 206.50274658203125, 'beta_dpo/beta_margin_grad_mean': -0.3122340738773346, 'beta_dpo/beta_margin_grad_std': 0.3016832768917084, 'epoch': 0.9}

 90%|█████████████████████████████████████████████████████████████████████▉        | 611/681 [44:48<06:02,  5.17s/it]
 90%|██████████████████████████████████████████████████████████████████████        | 612/681 [44:50<05:04,  4.41s/it]
                                                                                                                     
{'loss': 1.2771, 'grad_norm': 13.170220375061035, 'learning_rate': 1.5967059836219042e-08, 'beta_dpo/gap_mean': 142.43182373046875, 'beta_dpo/gap_std': 161.67913818359375, 'beta_dpo/beta_used_raw': -1.4418590068817139, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2226446568965912, 'logits/rejected': -0.18076658248901367, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 165.7865753173828, 'beta_dpo/beta_margin_mean': 0.16578657925128937, 'beta_dpo/beta_margin_std': 0.16075921058654785, 'beta_dpo/beta_margin_grad_mean': -0.4589446187019348, 'beta_dpo/beta_margin_grad_std': 0.039632294327020645, 'epoch': 0.9}

 90%|██████████████████████████████████████████████████████████████████████        | 612/681 [44:50<05:04,  4.41s/it]
 90%|██████████████████████████████████████████████████████████████████████▏       | 613/681 [44:53<04:21,  3.84s/it]
                                                                                                                     
{'loss': 1.2679, 'grad_norm': 8.972193717956543, 'learning_rate': 1.551886292185553e-08, 'beta_dpo/gap_mean': 144.05943298339844, 'beta_dpo/gap_std': 158.86074829101562, 'beta_dpo/beta_used_raw': -1.0288455486297607, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2800806760787964, 'logits/rejected': -0.29024672508239746, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 146.2444305419922, 'beta_dpo/beta_margin_mean': 0.14624443650245667, 'beta_dpo/beta_margin_std': 0.13885696232318878, 'beta_dpo/beta_margin_grad_mean': -0.46369874477386475, 'beta_dpo/beta_margin_grad_std': 0.034297436475753784, 'epoch': 0.9}

 90%|██████████████████████████████████████████████████████████████████████▏       | 613/681 [44:53<04:21,  3.84s/it]
 90%|██████████████████████████████████████████████████████████████████████▎       | 614/681 [44:55<03:51,  3.45s/it]
                                                                                                                     
{'loss': 2.7127, 'grad_norm': 895.0585327148438, 'learning_rate': 1.507684480352292e-08, 'beta_dpo/gap_mean': 148.22630310058594, 'beta_dpo/gap_std': 159.02099609375, 'beta_dpo/beta_used_raw': -0.06399475783109665, 'beta_dpo/beta_used': 0.06990689039230347, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.20398010313510895, 'logits/rejected': -0.21416090428829193, 'beta_dpo/beta': 0.06990689039230347, 'beta_dpo/loss_margin_mean': 170.205810546875, 'beta_dpo/beta_margin_mean': 12.157843589782715, 'beta_dpo/beta_margin_std': 20.12245750427246, 'beta_dpo/beta_margin_grad_mean': -0.3197058439254761, 'beta_dpo/beta_margin_grad_std': 0.2986561954021454, 'epoch': 0.9}

 90%|██████████████████████████████████████████████████████████████████████▎       | 614/681 [44:55<03:51,  3.45s/it]
 90%|██████████████████████████████████████████████████████████████████████▍       | 615/681 [44:58<03:31,  3.20s/it]
                                                                                                                     
{'loss': 1.2775, 'grad_norm': 8.794045448303223, 'learning_rate': 1.4641017128809801e-08, 'beta_dpo/gap_mean': 143.90347290039062, 'beta_dpo/gap_std': 156.93869018554688, 'beta_dpo/beta_used_raw': -1.6342370510101318, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2878304719924927, 'logits/rejected': -0.2756372094154358, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 115.65824127197266, 'beta_dpo/beta_margin_mean': 0.1156582459807396, 'beta_dpo/beta_margin_std': 0.14664776623249054, 'beta_dpo/beta_margin_grad_mean': -0.4713370203971863, 'beta_dpo/beta_margin_grad_std': 0.036130066961050034, 'epoch': 0.9}

 90%|██████████████████████████████████████████████████████████████████████▍       | 615/681 [44:58<03:31,  3.20s/it]
 90%|██████████████████████████████████████████████████████████████████████▌       | 616/681 [45:01<03:17,  3.03s/it]
                                                                                                                     
{'loss': 1.3106, 'grad_norm': 9.077305793762207, 'learning_rate': 1.4211391382180637e-08, 'beta_dpo/gap_mean': 137.07403564453125, 'beta_dpo/gap_std': 155.02120971679688, 'beta_dpo/beta_used_raw': -3.256364107131958, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2529584467411041, 'logits/rejected': -0.2234017550945282, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 104.92546844482422, 'beta_dpo/beta_margin_mean': 0.10492546856403351, 'beta_dpo/beta_margin_std': 0.15405791997909546, 'beta_dpo/beta_margin_grad_mean': -0.4739888608455658, 'beta_dpo/beta_margin_grad_std': 0.03806653246283531, 'epoch': 0.9}

 90%|██████████████████████████████████████████████████████████████████████▌       | 616/681 [45:01<03:17,  3.03s/it]
 91%|██████████████████████████████████████████████████████████████████████▋       | 617/681 [45:03<03:06,  2.92s/it]
                                                                                                                     
{'loss': 1.3011, 'grad_norm': 8.899731636047363, 'learning_rate': 1.378797888467345e-08, 'beta_dpo/gap_mean': 129.06411743164062, 'beta_dpo/gap_std': 153.8069305419922, 'beta_dpo/beta_used_raw': -2.259263753890991, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23405620455741882, 'logits/rejected': -0.19954687356948853, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 89.77762603759766, 'beta_dpo/beta_margin_mean': 0.0897776335477829, 'beta_dpo/beta_margin_std': 0.13734619319438934, 'beta_dpo/beta_margin_grad_mean': -0.47770678997039795, 'beta_dpo/beta_margin_grad_std': 0.03402474522590637, 'epoch': 0.91}

 91%|██████████████████████████████████████████████████████████████████████▋       | 617/681 [45:03<03:06,  2.92s/it]
 91%|██████████████████████████████████████████████████████████████████████▊       | 618/681 [45:06<03:01,  2.88s/it]
                                                                                                                     
{'loss': 3.6018, 'grad_norm': 2414.7275390625, 'learning_rate': 1.3370790793601371e-08, 'beta_dpo/gap_mean': 126.19082641601562, 'beta_dpo/gap_std': 157.0688018798828, 'beta_dpo/beta_used_raw': -0.7018966674804688, 'beta_dpo/beta_used': 0.22516019642353058, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.28824859857559204, 'logits/rejected': -0.25596606731414795, 'beta_dpo/beta': 0.22516019642353058, 'beta_dpo/loss_margin_mean': 128.67428588867188, 'beta_dpo/beta_margin_mean': 36.04357147216797, 'beta_dpo/beta_margin_std': 58.656856536865234, 'beta_dpo/beta_margin_grad_mean': -0.30100154876708984, 'beta_dpo/beta_margin_grad_std': 0.2931227684020996, 'epoch': 0.91}

 91%|██████████████████████████████████████████████████████████████████████▊       | 618/681 [45:06<03:01,  2.88s/it]
 91%|██████████████████████████████████████████████████████████████████████▉       | 619/681 [45:09<02:52,  2.79s/it]
                                                                                                                     
{'loss': 2.3727, 'grad_norm': 1730.38427734375, 'learning_rate': 1.2959838102258535e-08, 'beta_dpo/gap_mean': 127.52127075195312, 'beta_dpo/gap_std': 159.29910278320312, 'beta_dpo/beta_used_raw': -0.5022631883621216, 'beta_dpo/beta_used': 0.32898879051208496, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2695918679237366, 'logits/rejected': -0.25438401103019714, 'beta_dpo/beta': 0.32898879051208496, 'beta_dpo/loss_margin_mean': 129.31863403320312, 'beta_dpo/beta_margin_mean': 47.31397247314453, 'beta_dpo/beta_margin_std': 92.59415435791016, 'beta_dpo/beta_margin_grad_mean': -0.32226526737213135, 'beta_dpo/beta_margin_grad_std': 0.3011726140975952, 'epoch': 0.91}

 91%|██████████████████████████████████████████████████████████████████████▉       | 619/681 [45:09<02:52,  2.79s/it]
 91%|███████████████████████████████████████████████████████████████████████       | 620/681 [45:11<02:44,  2.70s/it]
                                                                                                                     
{'loss': 1.2793, 'grad_norm': 8.195945739746094, 'learning_rate': 1.2555131639630567e-08, 'beta_dpo/gap_mean': 128.8234405517578, 'beta_dpo/gap_std': 161.2275390625, 'beta_dpo/beta_used_raw': -0.7810671329498291, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.27168160676956177, 'logits/rejected': -0.24854370951652527, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 125.8520736694336, 'beta_dpo/beta_margin_mean': 0.1258520781993866, 'beta_dpo/beta_margin_std': 0.16934403777122498, 'beta_dpo/beta_margin_grad_mean': -0.46883711218833923, 'beta_dpo/beta_margin_grad_std': 0.04180603846907616, 'epoch': 0.91}

 91%|███████████████████████████████████████████████████████████████████████       | 620/681 [45:11<02:44,  2.70s/it]
 91%|███████████████████████████████████████████████████████████████████████▏      | 621/681 [45:14<02:42,  2.72s/it]
                                                                                                                     
{'loss': 2.0444, 'grad_norm': 2288.819091796875, 'learning_rate': 1.2156682070109086e-08, 'beta_dpo/gap_mean': 131.76333618164062, 'beta_dpo/gap_std': 162.11734008789062, 'beta_dpo/beta_used_raw': -0.001695185899734497, 'beta_dpo/beta_used': 0.315225213766098, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.18687333166599274, 'logits/rejected': -0.1780368983745575, 'beta_dpo/beta': 0.315225213766098, 'beta_dpo/loss_margin_mean': 165.3124237060547, 'beta_dpo/beta_margin_mean': 61.944881439208984, 'beta_dpo/beta_margin_std': 95.92522430419922, 'beta_dpo/beta_margin_grad_mean': -0.28073248267173767, 'beta_dpo/beta_margin_grad_std': 0.27754899859428406, 'epoch': 0.91}

 91%|███████████████████████████████████████████████████████████████████████▏      | 621/681 [45:14<02:42,  2.72s/it]
 91%|███████████████████████████████████████████████████████████████████████▏      | 622/681 [45:16<02:36,  2.66s/it]
                                                                                                                     
{'loss': 2.2051, 'grad_norm': 1909.772705078125, 'learning_rate': 1.1764499893210878e-08, 'beta_dpo/gap_mean': 136.07073974609375, 'beta_dpo/gap_std': 164.10821533203125, 'beta_dpo/beta_used_raw': -1.115787386894226, 'beta_dpo/beta_used': 0.2183779627084732, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2630102336406708, 'logits/rejected': -0.24436010420322418, 'beta_dpo/beta': 0.2183779627084732, 'beta_dpo/loss_margin_mean': 131.12855529785156, 'beta_dpo/beta_margin_mean': 35.79158401489258, 'beta_dpo/beta_margin_std': 66.24662017822266, 'beta_dpo/beta_margin_grad_mean': -0.3208658993244171, 'beta_dpo/beta_margin_grad_std': 0.29182958602905273, 'epoch': 0.91}

 91%|███████████████████████████████████████████████████████████████████████▏      | 622/681 [45:17<02:36,  2.66s/it]
 91%|███████████████████████████████████████████████████████████████████████▎      | 623/681 [45:19<02:25,  2.51s/it]
                                                                                                                     
{'loss': 1.305, 'grad_norm': 8.092933654785156, 'learning_rate': 1.1378595443300998e-08, 'beta_dpo/gap_mean': 131.22195434570312, 'beta_dpo/gap_std': 165.27459716796875, 'beta_dpo/beta_used_raw': -2.597635269165039, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2123861014842987, 'logits/rejected': -0.18733005225658417, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 112.445068359375, 'beta_dpo/beta_margin_mean': 0.11244507133960724, 'beta_dpo/beta_margin_std': 0.1788908988237381, 'beta_dpo/beta_margin_grad_mean': -0.4722324013710022, 'beta_dpo/beta_margin_grad_std': 0.04376749321818352, 'epoch': 0.91}

 91%|███████████████████████████████████████████████████████████████████████▎      | 623/681 [45:19<02:25,  2.51s/it]
 92%|███████████████████████████████████████████████████████████████████████▍      | 624/681 [45:21<02:24,  2.53s/it]
                                                                                                                     
{'loss': 18.6323, 'grad_norm': 14112.7099609375, 'learning_rate': 1.0998978889320582e-08, 'beta_dpo/gap_mean': 134.68902587890625, 'beta_dpo/gap_std': 172.1035614013672, 'beta_dpo/beta_used_raw': 1.4514429569244385, 'beta_dpo/beta_used': 1.4514429569244385, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.31213879585266113, 'logits/rejected': -0.2707129120826721, 'beta_dpo/beta': 1.4514429569244385, 'beta_dpo/loss_margin_mean': 160.6850128173828, 'beta_dpo/beta_margin_mean': 235.16859436035156, 'beta_dpo/beta_margin_std': 305.9576416015625, 'beta_dpo/beta_margin_grad_mean': -0.1736312210559845, 'beta_dpo/beta_margin_grad_std': 0.3766280710697174, 'epoch': 0.92}

 92%|███████████████████████████████████████████████████████████████████████▍      | 624/681 [45:21<02:24,  2.53s/it]
 92%|███████████████████████████████████████████████████████████████████████▌      | 625/681 [45:24<02:24,  2.58s/it]
                                                                                                                     
{'loss': 1.277, 'grad_norm': 8.834936141967773, 'learning_rate': 1.0625660234518913e-08, 'beta_dpo/gap_mean': 135.93350219726562, 'beta_dpo/gap_std': 170.4825439453125, 'beta_dpo/beta_used_raw': -1.086260437965393, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24899110198020935, 'logits/rejected': -0.22103792428970337, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 134.477294921875, 'beta_dpo/beta_margin_mean': 0.13447730243206024, 'beta_dpo/beta_margin_std': 0.16113615036010742, 'beta_dpo/beta_margin_grad_mean': -0.46674269437789917, 'beta_dpo/beta_margin_grad_std': 0.03943945840001106, 'epoch': 0.92}

 92%|███████████████████████████████████████████████████████████████████████▌      | 625/681 [45:24<02:24,  2.58s/it]
 92%|███████████████████████████████████████████████████████████████████████▋      | 626/681 [45:27<02:24,  2.63s/it]
                                                                                                                     
{'loss': 1.2908, 'grad_norm': 11.363311767578125, 'learning_rate': 1.0258649316189721e-08, 'beta_dpo/gap_mean': 132.06570434570312, 'beta_dpo/gap_std': 165.1246337890625, 'beta_dpo/beta_used_raw': -1.6771858930587769, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.30383527278900146, 'logits/rejected': -0.27899685502052307, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 117.33277893066406, 'beta_dpo/beta_margin_mean': 0.11733278632164001, 'beta_dpo/beta_margin_std': 0.15290819108486176, 'beta_dpo/beta_margin_grad_mean': -0.47088930010795593, 'beta_dpo/beta_margin_grad_std': 0.03784249722957611, 'epoch': 0.92}

 92%|███████████████████████████████████████████████████████████████████████▋      | 626/681 [45:27<02:24,  2.63s/it]
 92%|███████████████████████████████████████████████████████████████████████▊      | 627/681 [45:29<02:23,  2.65s/it]
                                                                                                                     
{'loss': 1.2721, 'grad_norm': 10.255217552185059, 'learning_rate': 9.897955805412e-09, 'beta_dpo/gap_mean': 135.79798889160156, 'beta_dpo/gap_std': 170.36813354492188, 'beta_dpo/beta_used_raw': -0.715671956539154, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2576707601547241, 'logits/rejected': -0.27673864364624023, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 162.4019317626953, 'beta_dpo/beta_margin_mean': 0.16240194439888, 'beta_dpo/beta_margin_std': 0.2026146799325943, 'beta_dpo/beta_margin_grad_mean': -0.4600542187690735, 'beta_dpo/beta_margin_grad_std': 0.04917608201503754, 'epoch': 0.92}

 92%|███████████████████████████████████████████████████████████████████████▊      | 627/681 [45:29<02:23,  2.65s/it]
 92%|███████████████████████████████████████████████████████████████████████▉      | 628/681 [45:32<02:19,  2.63s/it]
                                                                                                                     
{'loss': 1.2686, 'grad_norm': 9.771873474121094, 'learning_rate': 9.543589206795238e-09, 'beta_dpo/gap_mean': 141.70660400390625, 'beta_dpo/gap_std': 172.304931640625, 'beta_dpo/beta_used_raw': -0.7566049098968506, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25853201746940613, 'logits/rejected': -0.2484220564365387, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 156.77191162109375, 'beta_dpo/beta_margin_mean': 0.15677191317081451, 'beta_dpo/beta_margin_std': 0.16587892174720764, 'beta_dpo/beta_margin_grad_mean': -0.46119076013565063, 'beta_dpo/beta_margin_grad_std': 0.04088958352804184, 'epoch': 0.92}

 92%|███████████████████████████████████████████████████████████████████████▉      | 628/681 [45:32<02:19,  2.63s/it]
 92%|████████████████████████████████████████████████████████████████████████      | 629/681 [45:35<02:18,  2.67s/it]
                                                                                                                     
{'loss': 1.274, 'grad_norm': 13.822155952453613, 'learning_rate': 9.19555885822887e-09, 'beta_dpo/gap_mean': 140.23866271972656, 'beta_dpo/gap_std': 167.48165893554688, 'beta_dpo/beta_used_raw': -1.1783255338668823, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2648368775844574, 'logits/rejected': -0.2452375888824463, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 128.8066864013672, 'beta_dpo/beta_margin_mean': 0.1288066953420639, 'beta_dpo/beta_margin_std': 0.13501150906085968, 'beta_dpo/beta_margin_grad_mean': -0.4680294096469879, 'beta_dpo/beta_margin_grad_std': 0.033298566937446594, 'epoch': 0.92}

 92%|████████████████████████████████████████████████████████████████████████      | 629/681 [45:35<02:18,  2.67s/it]
 93%|████████████████████████████████████████████████████████████████████████▏     | 630/681 [45:37<02:15,  2.65s/it]
                                                                                                                     
{'loss': 1.3037, 'grad_norm': 8.615431785583496, 'learning_rate': 8.85387393063622e-09, 'beta_dpo/gap_mean': 132.54100036621094, 'beta_dpo/gap_std': 162.70718383789062, 'beta_dpo/beta_used_raw': -2.620537281036377, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3369476795196533, 'logits/rejected': -0.3151329755783081, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 98.09712219238281, 'beta_dpo/beta_margin_mean': 0.09809713065624237, 'beta_dpo/beta_margin_std': 0.1510220766067505, 'beta_dpo/beta_margin_grad_mean': -0.47568345069885254, 'beta_dpo/beta_margin_grad_std': 0.03724653273820877, 'epoch': 0.93}

 93%|████████████████████████████████████████████████████████████████████████▏     | 630/681 [45:37<02:15,  2.65s/it]
 93%|████████████████████████████████████████████████████████████████████████▎     | 631/681 [45:40<02:10,  2.60s/it]
                                                                                                                     
{'loss': 1.3022, 'grad_norm': 10.43221378326416, 'learning_rate': 8.518543427732949e-09, 'beta_dpo/gap_mean': 129.70608520507812, 'beta_dpo/gap_std': 164.6175079345703, 'beta_dpo/beta_used_raw': -2.252204656600952, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.19672399759292603, 'logits/rejected': -0.16939029097557068, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 124.01167297363281, 'beta_dpo/beta_margin_mean': 0.12401168048381805, 'beta_dpo/beta_margin_std': 0.18085241317749023, 'beta_dpo/beta_margin_grad_mean': -0.469342440366745, 'beta_dpo/beta_margin_grad_std': 0.04454941302537918, 'epoch': 0.93}

 93%|████████████████████████████████████████████████████████████████████████▎     | 631/681 [45:40<02:10,  2.60s/it]
 93%|████████████████████████████████████████████████████████████████████████▍     | 632/681 [45:42<02:04,  2.55s/it]
                                                                                                                     
{'loss': 1.2832, 'grad_norm': 8.912779808044434, 'learning_rate': 8.189576185789637e-09, 'beta_dpo/gap_mean': 129.06605529785156, 'beta_dpo/gap_std': 169.87759399414062, 'beta_dpo/beta_used_raw': -0.9367992877960205, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2137627899646759, 'logits/rejected': -0.1909235715866089, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 118.0839614868164, 'beta_dpo/beta_margin_mean': 0.11808396875858307, 'beta_dpo/beta_margin_std': 0.17979924380779266, 'beta_dpo/beta_margin_grad_mean': -0.4707336127758026, 'beta_dpo/beta_margin_grad_std': 0.04446292296051979, 'epoch': 0.93}

 93%|████████████████████████████████████████████████████████████████████████▍     | 632/681 [45:42<02:04,  2.55s/it]
 93%|████████████████████████████████████████████████████████████████████████▌     | 633/681 [45:45<02:00,  2.51s/it]
                                                                                                                     
{'loss': 4.4345, 'grad_norm': 2468.25341796875, 'learning_rate': 7.866980873399015e-09, 'beta_dpo/gap_mean': 122.80825805664062, 'beta_dpo/gap_std': 166.48403930664062, 'beta_dpo/beta_used_raw': -1.1626986265182495, 'beta_dpo/beta_used': 0.1498415768146515, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.262068510055542, 'logits/rejected': -0.2606055736541748, 'beta_dpo/beta': 0.1498415768146515, 'beta_dpo/loss_margin_mean': 100.83395385742188, 'beta_dpo/beta_margin_mean': 17.67989158630371, 'beta_dpo/beta_margin_std': 41.04912567138672, 'beta_dpo/beta_margin_grad_mean': -0.3400387465953827, 'beta_dpo/beta_margin_grad_std': 0.31042587757110596, 'epoch': 0.93}

 93%|████████████████████████████████████████████████████████████████████████▌     | 633/681 [45:45<02:00,  2.51s/it]
 93%|████████████████████████████████████████████████████████████████████████▌     | 634/681 [45:47<01:59,  2.54s/it]
                                                                                                                     
{'loss': 8.1633, 'grad_norm': 4420.4560546875, 'learning_rate': 7.550765991247654e-09, 'beta_dpo/gap_mean': 123.09707641601562, 'beta_dpo/gap_std': 168.86935424804688, 'beta_dpo/beta_used_raw': -1.0204623937606812, 'beta_dpo/beta_used': 0.2891407012939453, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2516968548297882, 'logits/rejected': -0.2492125928401947, 'beta_dpo/beta': 0.2891407012939453, 'beta_dpo/loss_margin_mean': 114.10114288330078, 'beta_dpo/beta_margin_mean': 44.27980041503906, 'beta_dpo/beta_margin_std': 89.58101654052734, 'beta_dpo/beta_margin_grad_mean': -0.3603072762489319, 'beta_dpo/beta_margin_grad_std': 0.3205583393573761, 'epoch': 0.93}

 93%|████████████████████████████████████████████████████████████████████████▌     | 634/681 [45:47<01:59,  2.54s/it]
 93%|████████████████████████████████████████████████████████████████████████▋     | 635/681 [45:50<01:56,  2.52s/it]
                                                                                                                     
{'loss': 12.3188, 'grad_norm': 4297.1875, 'learning_rate': 7.240939871891699e-09, 'beta_dpo/gap_mean': 119.10769653320312, 'beta_dpo/gap_std': 164.04827880859375, 'beta_dpo/beta_used_raw': 0.44367918372154236, 'beta_dpo/beta_used': 0.8167719841003418, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3063223958015442, 'logits/rejected': -0.25702351331710815, 'beta_dpo/beta': 0.8167719841003418, 'beta_dpo/loss_margin_mean': 108.52445983886719, 'beta_dpo/beta_margin_mean': 93.9231948852539, 'beta_dpo/beta_margin_std': 184.6671905517578, 'beta_dpo/beta_margin_grad_mean': -0.3317233920097351, 'beta_dpo/beta_margin_grad_std': 0.3114463686943054, 'epoch': 0.93}

 93%|████████████████████████████████████████████████████████████████████████▋     | 635/681 [45:50<01:56,  2.52s/it]
 93%|████████████████████████████████████████████████████████████████████████▊     | 636/681 [45:52<01:56,  2.58s/it]
                                                                                                                     
{'loss': 2.1742, 'grad_norm': 1658.96923828125, 'learning_rate': 6.937510679537628e-09, 'beta_dpo/gap_mean': 119.43673706054688, 'beta_dpo/gap_std': 161.71958923339844, 'beta_dpo/beta_used_raw': -0.49636417627334595, 'beta_dpo/beta_used': 0.21374358236789703, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2624373733997345, 'logits/rejected': -0.23375412821769714, 'beta_dpo/beta': 0.21374358236789703, 'beta_dpo/loss_margin_mean': 132.7529754638672, 'beta_dpo/beta_margin_mean': 32.544044494628906, 'beta_dpo/beta_margin_std': 50.19921112060547, 'beta_dpo/beta_margin_grad_mean': -0.29352760314941406, 'beta_dpo/beta_margin_grad_std': 0.28238052129745483, 'epoch': 0.93}

 93%|████████████████████████████████████████████████████████████████████████▊     | 636/681 [45:53<01:56,  2.58s/it]
 94%|████████████████████████████████████████████████████████████████████████▉     | 637/681 [45:55<01:56,  2.64s/it]
                                                                                                                     
{'loss': 3.3524, 'grad_norm': 4178.92724609375, 'learning_rate': 6.640486409826785e-09, 'beta_dpo/gap_mean': 124.16712951660156, 'beta_dpo/gap_std': 161.0850372314453, 'beta_dpo/beta_used_raw': 0.3115572929382324, 'beta_dpo/beta_used': 0.3223646879196167, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22674018144607544, 'logits/rejected': -0.22383208572864532, 'beta_dpo/beta': 0.3223646879196167, 'beta_dpo/loss_margin_mean': 139.51402282714844, 'beta_dpo/beta_margin_mean': 42.55961608886719, 'beta_dpo/beta_margin_std': 81.67517852783203, 'beta_dpo/beta_margin_grad_mean': -0.32306286692619324, 'beta_dpo/beta_margin_grad_std': 0.30376118421554565, 'epoch': 0.94}

 94%|████████████████████████████████████████████████████████████████████████▉     | 637/681 [45:55<01:56,  2.64s/it]
 94%|█████████████████████████████████████████████████████████████████████████     | 638/681 [45:58<01:54,  2.65s/it]
                                                                                                                     
{'loss': 8.0532, 'grad_norm': 9381.5517578125, 'learning_rate': 6.349874889624962e-09, 'beta_dpo/gap_mean': 124.66742706298828, 'beta_dpo/gap_std': 157.39694213867188, 'beta_dpo/beta_used_raw': -0.3003849983215332, 'beta_dpo/beta_used': 1.4511369466781616, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2576182782649994, 'logits/rejected': -0.23263539373874664, 'beta_dpo/beta': 1.4511369466781616, 'beta_dpo/loss_margin_mean': 139.00933837890625, 'beta_dpo/beta_margin_mean': 266.310791015625, 'beta_dpo/beta_margin_std': 417.8957214355469, 'beta_dpo/beta_margin_grad_mean': -0.3164081573486328, 'beta_dpo/beta_margin_grad_std': 0.30334481596946716, 'epoch': 0.94}

 94%|█████████████████████████████████████████████████████████████████████████     | 638/681 [45:58<01:54,  2.65s/it]
 94%|█████████████████████████████████████████████████████████████████████████▏    | 639/681 [46:00<01:50,  2.62s/it]
                                                                                                                     
{'loss': 1.2811, 'grad_norm': 11.267277717590332, 'learning_rate': 6.065683776815933e-09, 'beta_dpo/gap_mean': 122.42938995361328, 'beta_dpo/gap_std': 157.66665649414062, 'beta_dpo/beta_used_raw': -0.47708529233932495, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2489241063594818, 'logits/rejected': -0.20080968737602234, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 97.4274673461914, 'beta_dpo/beta_margin_mean': 0.09742747247219086, 'beta_dpo/beta_margin_std': 0.1560250073671341, 'beta_dpo/beta_margin_grad_mean': -0.47581177949905396, 'beta_dpo/beta_margin_grad_std': 0.03869582340121269, 'epoch': 0.94}

 94%|█████████████████████████████████████████████████████████████████████████▏    | 639/681 [46:01<01:50,  2.62s/it]
 94%|█████████████████████████████████████████████████████████████████████████▎    | 640/681 [46:03<01:47,  2.62s/it]
                                                                                                                     
{'loss': 0.5288, 'grad_norm': 2567.301025390625, 'learning_rate': 5.7879205600998296e-09, 'beta_dpo/gap_mean': 126.0462875366211, 'beta_dpo/gap_std': 156.94723510742188, 'beta_dpo/beta_used_raw': 1.0406347513198853, 'beta_dpo/beta_used': 1.0406347513198853, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2669011354446411, 'logits/rejected': -0.2516845762729645, 'beta_dpo/beta': 1.0406347513198853, 'beta_dpo/loss_margin_mean': 156.25440979003906, 'beta_dpo/beta_margin_mean': 186.98306274414062, 'beta_dpo/beta_margin_std': 294.89520263671875, 'beta_dpo/beta_margin_grad_mean': -0.10319266468286514, 'beta_dpo/beta_margin_grad_std': 0.23703627288341522, 'epoch': 0.94}

 94%|█████████████████████████████████████████████████████████████████████████▎    | 640/681 [46:03<01:47,  2.62s/it]
 94%|█████████████████████████████████████████████████████████████████████████▍    | 641/681 [46:06<01:44,  2.60s/it]
                                                                                                                     
{'loss': 10.8266, 'grad_norm': 3385.51611328125, 'learning_rate': 5.516592558795746e-09, 'beta_dpo/gap_mean': 128.0950164794922, 'beta_dpo/gap_std': 159.058837890625, 'beta_dpo/beta_used_raw': 0.3140296936035156, 'beta_dpo/beta_used': 0.6511551141738892, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2616059482097626, 'logits/rejected': -0.23641052842140198, 'beta_dpo/beta': 0.6511551141738892, 'beta_dpo/loss_margin_mean': 120.50196075439453, 'beta_dpo/beta_margin_mean': 84.13956451416016, 'beta_dpo/beta_margin_std': 165.199462890625, 'beta_dpo/beta_margin_grad_mean': -0.2987769544124603, 'beta_dpo/beta_margin_grad_std': 0.29313045740127563, 'epoch': 0.94}

 94%|█████████████████████████████████████████████████████████████████████████▍    | 641/681 [46:06<01:44,  2.60s/it]
 94%|█████████████████████████████████████████████████████████████████████████▌    | 642/681 [46:08<01:42,  2.64s/it]
                                                                                                                     
{'loss': 7.0951, 'grad_norm': 6544.80078125, 'learning_rate': 5.251706922648868e-09, 'beta_dpo/gap_mean': 128.44711303710938, 'beta_dpo/gap_std': 167.51364135742188, 'beta_dpo/beta_used_raw': -0.6517113447189331, 'beta_dpo/beta_used': 0.7909172177314758, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.27374494075775146, 'logits/rejected': -0.26332151889801025, 'beta_dpo/beta': 0.7909172177314758, 'beta_dpo/loss_margin_mean': 147.625244140625, 'beta_dpo/beta_margin_mean': 147.3969268798828, 'beta_dpo/beta_margin_std': 221.18307495117188, 'beta_dpo/beta_margin_grad_mean': -0.26804837584495544, 'beta_dpo/beta_margin_grad_std': 0.27035075426101685, 'epoch': 0.94}

 94%|█████████████████████████████████████████████████████████████████████████▌    | 642/681 [46:08<01:42,  2.64s/it]
 94%|█████████████████████████████████████████████████████████████████████████▋    | 643/681 [46:11<01:42,  2.70s/it]
                                                                                                                     
{'loss': 3.7361, 'grad_norm': 4131.7802734375, 'learning_rate': 4.993270631642038e-09, 'beta_dpo/gap_mean': 131.22329711914062, 'beta_dpo/gap_std': 162.10546875, 'beta_dpo/beta_used_raw': -0.6685765981674194, 'beta_dpo/beta_used': 0.5000445246696472, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24260678887367249, 'logits/rejected': -0.24370941519737244, 'beta_dpo/beta': 0.5000445246696472, 'beta_dpo/loss_margin_mean': 120.23302459716797, 'beta_dpo/beta_margin_mean': 75.19145965576172, 'beta_dpo/beta_margin_std': 120.19136047363281, 'beta_dpo/beta_margin_grad_mean': -0.2856932282447815, 'beta_dpo/beta_margin_grad_std': 0.28263115882873535, 'epoch': 0.94}

 94%|█████████████████████████████████████████████████████████████████████████▋    | 643/681 [46:11<01:42,  2.70s/it]
 95%|█████████████████████████████████████████████████████████████████████████▊    | 644/681 [46:14<01:39,  2.68s/it]
                                                                                                                     
{'loss': 1.2896, 'grad_norm': 9.257484436035156, 'learning_rate': 4.741290495811873e-09, 'beta_dpo/gap_mean': 127.92471313476562, 'beta_dpo/gap_std': 164.80690002441406, 'beta_dpo/beta_used_raw': -1.3600785732269287, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29417717456817627, 'logits/rejected': -0.2829264998435974, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 119.60871887207031, 'beta_dpo/beta_margin_mean': 0.11960872262716293, 'beta_dpo/beta_margin_std': 0.18185746669769287, 'beta_dpo/beta_margin_grad_mean': -0.4704153537750244, 'beta_dpo/beta_margin_grad_std': 0.044792983680963516, 'epoch': 0.95}

 95%|█████████████████████████████████████████████████████████████████████████▊    | 644/681 [46:14<01:39,  2.68s/it]
 95%|█████████████████████████████████████████████████████████████████████████▉    | 645/681 [46:17<01:36,  2.67s/it]
                                                                                                                     
{'loss': 1.2982, 'grad_norm': 11.280401229858398, 'learning_rate': 4.495773155069299e-09, 'beta_dpo/gap_mean': 125.04953002929688, 'beta_dpo/gap_std': 169.11019897460938, 'beta_dpo/beta_used_raw': -1.6929526329040527, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26835355162620544, 'logits/rejected': -0.2733767330646515, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 101.11979675292969, 'beta_dpo/beta_margin_mean': 0.10111980140209198, 'beta_dpo/beta_margin_std': 0.1889955848455429, 'beta_dpo/beta_margin_grad_mean': -0.47504597902297974, 'beta_dpo/beta_margin_grad_std': 0.04654289036989212, 'epoch': 0.95}

 95%|█████████████████████████████████████████████████████████████████████████▉    | 645/681 [46:17<01:36,  2.67s/it]
 95%|█████████████████████████████████████████████████████████████████████████▉    | 646/681 [46:19<01:30,  2.58s/it]
                                                                                                                     
{'loss': 3.2758, 'grad_norm': 7780.4990234375, 'learning_rate': 4.256725079024553e-09, 'beta_dpo/gap_mean': 121.25621032714844, 'beta_dpo/gap_std': 164.90869140625, 'beta_dpo/beta_used_raw': 0.016669809818267822, 'beta_dpo/beta_used': 0.9947884678840637, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21456298232078552, 'logits/rejected': -0.19140079617500305, 'beta_dpo/beta': 0.9947884678840637, 'beta_dpo/loss_margin_mean': 113.20999145507812, 'beta_dpo/beta_margin_mean': 126.421630859375, 'beta_dpo/beta_margin_std': 230.53216552734375, 'beta_dpo/beta_margin_grad_mean': -0.3158058226108551, 'beta_dpo/beta_margin_grad_std': 0.3032316267490387, 'epoch': 0.95}

 95%|█████████████████████████████████████████████████████████████████████████▉    | 646/681 [46:19<01:30,  2.58s/it]
 95%|██████████████████████████████████████████████████████████████████████████    | 647/681 [46:22<01:29,  2.62s/it]
                                                                                                                     
{'loss': 8.0903, 'grad_norm': 3096.896240234375, 'learning_rate': 4.024152566816791e-09, 'beta_dpo/gap_mean': 119.49800109863281, 'beta_dpo/gap_std': 160.93655395507812, 'beta_dpo/beta_used_raw': 0.4405333995819092, 'beta_dpo/beta_used': 0.4405333995819092, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23497043550014496, 'logits/rejected': -0.23454715311527252, 'beta_dpo/beta': 0.4405333995819092, 'beta_dpo/loss_margin_mean': 118.18896484375, 'beta_dpo/beta_margin_mean': 50.956336975097656, 'beta_dpo/beta_margin_std': 66.18246459960938, 'beta_dpo/beta_margin_grad_mean': -0.16993050277233124, 'beta_dpo/beta_margin_grad_std': 0.3702445924282074, 'epoch': 0.95}

 95%|██████████████████████████████████████████████████████████████████████████    | 647/681 [46:22<01:29,  2.62s/it]
 95%|██████████████████████████████████████████████████████████████████████████▏   | 648/681 [46:24<01:24,  2.56s/it]
                                                                                                                     
{'loss': 3.7315, 'grad_norm': 1881.7218017578125, 'learning_rate': 3.798061746947995e-09, 'beta_dpo/gap_mean': 127.08036804199219, 'beta_dpo/gap_std': 167.84896850585938, 'beta_dpo/beta_used_raw': 0.027231574058532715, 'beta_dpo/beta_used': 0.21638301014900208, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2324717938899994, 'logits/rejected': -0.23608848452568054, 'beta_dpo/beta': 0.21638301014900208, 'beta_dpo/loss_margin_mean': 167.418212890625, 'beta_dpo/beta_margin_mean': 37.98030090332031, 'beta_dpo/beta_margin_std': 73.11116027832031, 'beta_dpo/beta_margin_grad_mean': -0.28432542085647583, 'beta_dpo/beta_margin_grad_std': 0.2745562791824341, 'epoch': 0.95}

 95%|██████████████████████████████████████████████████████████████████████████▏   | 648/681 [46:24<01:24,  2.56s/it]
 95%|██████████████████████████████████████████████████████████████████████████▎   | 649/681 [46:27<01:24,  2.63s/it]
                                                                                                                     
{'loss': 3.869, 'grad_norm': 2891.095703125, 'learning_rate': 3.5784585771215235e-09, 'beta_dpo/gap_mean': 124.45140075683594, 'beta_dpo/gap_std': 167.86746215820312, 'beta_dpo/beta_used_raw': -0.06394051015377045, 'beta_dpo/beta_used': 0.17022213339805603, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3063885569572449, 'logits/rejected': -0.2801710069179535, 'beta_dpo/beta': 0.17022213339805603, 'beta_dpo/loss_margin_mean': 101.8471450805664, 'beta_dpo/beta_margin_mean': 15.761299133300781, 'beta_dpo/beta_margin_std': 38.01227569580078, 'beta_dpo/beta_margin_grad_mean': -0.37708210945129395, 'beta_dpo/beta_margin_grad_std': 0.333068311214447, 'epoch': 0.95}

 95%|██████████████████████████████████████████████████████████████████████████▎   | 649/681 [46:27<01:24,  2.63s/it]
 95%|██████████████████████████████████████████████████████████████████████████▍   | 650/681 [46:29<01:20,  2.60s/it]
                                                                                                                     
{'loss': 43.9246, 'grad_norm': 20882.701171875, 'learning_rate': 3.3653488440851253e-09, 'beta_dpo/gap_mean': 129.84597778320312, 'beta_dpo/gap_std': 173.6107635498047, 'beta_dpo/beta_used_raw': 1.3667818307876587, 'beta_dpo/beta_used': 1.3667818307876587, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22325937449932098, 'logits/rejected': -0.22227120399475098, 'beta_dpo/beta': 1.3667818307876587, 'beta_dpo/loss_margin_mean': 161.89785766601562, 'beta_dpo/beta_margin_mean': 236.2583770751953, 'beta_dpo/beta_margin_std': 431.2769470214844, 'beta_dpo/beta_margin_grad_mean': -0.2347412258386612, 'beta_dpo/beta_margin_grad_std': 0.42016705870628357, 'epoch': 0.95}

 95%|██████████████████████████████████████████████████████████████████████████▍   | 650/681 [46:29<01:20,  2.60s/it]
 96%|██████████████████████████████████████████████████████████████████████████▌   | 651/681 [46:32<01:17,  2.60s/it]
                                                                                                                     
{'loss': 8.9479, 'grad_norm': 7399.314453125, 'learning_rate': 3.158738163478475e-09, 'beta_dpo/gap_mean': 134.56472778320312, 'beta_dpo/gap_std': 172.713623046875, 'beta_dpo/beta_used_raw': 0.4660683274269104, 'beta_dpo/beta_used': 0.7648828029632568, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.29069170355796814, 'logits/rejected': -0.3059248924255371, 'beta_dpo/beta': 0.7648828029632568, 'beta_dpo/loss_margin_mean': 150.5056610107422, 'beta_dpo/beta_margin_mean': 129.44383239746094, 'beta_dpo/beta_margin_std': 225.9346466064453, 'beta_dpo/beta_margin_grad_mean': -0.32739847898483276, 'beta_dpo/beta_margin_grad_std': 0.3100513815879822, 'epoch': 0.96}

 96%|██████████████████████████████████████████████████████████████████████████▌   | 651/681 [46:32<01:17,  2.60s/it]
 96%|██████████████████████████████████████████████████████████████████████████▋   | 652/681 [46:34<01:15,  2.59s/it]
                                                                                                                     
{'loss': 1.2702, 'grad_norm': 13.33399772644043, 'learning_rate': 2.9586319796851555e-09, 'beta_dpo/gap_mean': 133.96636962890625, 'beta_dpo/gap_std': 171.03175354003906, 'beta_dpo/beta_used_raw': -0.46489205956459045, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2815973162651062, 'logits/rejected': -0.2725764214992523, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 133.89273071289062, 'beta_dpo/beta_margin_mean': 0.1338927298784256, 'beta_dpo/beta_margin_std': 0.1681978404521942, 'beta_dpo/beta_margin_grad_mean': -0.46688932180404663, 'beta_dpo/beta_margin_grad_std': 0.04138989374041557, 'epoch': 0.96}

 96%|██████████████████████████████████████████████████████████████████████████▋   | 652/681 [46:35<01:15,  2.59s/it]
 96%|██████████████████████████████████████████████████████████████████████████▊   | 653/681 [46:37<01:12,  2.58s/it]
                                                                                                                     
{'loss': 1.2661, 'grad_norm': 9.623185157775879, 'learning_rate': 2.7650355656892166e-09, 'beta_dpo/gap_mean': 136.72564697265625, 'beta_dpo/gap_std': 170.6292724609375, 'beta_dpo/beta_used_raw': -0.37464144825935364, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26191675662994385, 'logits/rejected': -0.26024746894836426, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 152.7071533203125, 'beta_dpo/beta_margin_mean': 0.15270715951919556, 'beta_dpo/beta_margin_std': 0.1718183010816574, 'beta_dpo/beta_margin_grad_mean': -0.4622488021850586, 'beta_dpo/beta_margin_grad_std': 0.0421992689371109, 'epoch': 0.96}

 96%|██████████████████████████████████████████████████████████████████████████▊   | 653/681 [46:37<01:12,  2.58s/it]
 96%|██████████████████████████████████████████████████████████████████████████▉   | 654/681 [46:40<01:09,  2.57s/it]
                                                                                                                     
{'loss': 1.479, 'grad_norm': 1289.0914306640625, 'learning_rate': 2.577954022936174e-09, 'beta_dpo/gap_mean': 135.6177978515625, 'beta_dpo/gap_std': 171.04434204101562, 'beta_dpo/beta_used_raw': -0.6519217491149902, 'beta_dpo/beta_used': 0.12737774848937988, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.285967618227005, 'logits/rejected': -0.2813323140144348, 'beta_dpo/beta': 0.12737774848937988, 'beta_dpo/loss_margin_mean': 119.36299896240234, 'beta_dpo/beta_margin_mean': 14.189286231994629, 'beta_dpo/beta_margin_std': 31.74391746520996, 'beta_dpo/beta_margin_grad_mean': -0.3520982265472412, 'beta_dpo/beta_margin_grad_std': 0.311506450176239, 'epoch': 0.96}

 96%|██████████████████████████████████████████████████████████████████████████▉   | 654/681 [46:40<01:09,  2.57s/it]
 96%|███████████████████████████████████████████████████████████████████████████   | 655/681 [46:42<01:08,  2.64s/it]
                                                                                                                     
{'loss': 1.2895, 'grad_norm': 11.29627513885498, 'learning_rate': 2.397392281198729e-09, 'beta_dpo/gap_mean': 134.3379364013672, 'beta_dpo/gap_std': 172.51646423339844, 'beta_dpo/beta_used_raw': -1.6912943124771118, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21164986491203308, 'logits/rejected': -0.22321152687072754, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 127.51449584960938, 'beta_dpo/beta_margin_mean': 0.12751449644565582, 'beta_dpo/beta_margin_std': 0.1827131062746048, 'beta_dpo/beta_margin_grad_mean': -0.4685191512107849, 'beta_dpo/beta_margin_grad_std': 0.04493279755115509, 'epoch': 0.96}

 96%|███████████████████████████████████████████████████████████████████████████   | 655/681 [46:42<01:08,  2.64s/it]
 96%|███████████████████████████████████████████████████████████████████████████▏  | 656/681 [46:45<01:06,  2.66s/it]
                                                                                                                     
{'loss': 10.8002, 'grad_norm': 4871.01171875, 'learning_rate': 2.223355098446622e-09, 'beta_dpo/gap_mean': 140.21481323242188, 'beta_dpo/gap_std': 170.7769775390625, 'beta_dpo/beta_used_raw': 1.46394944190979, 'beta_dpo/beta_used': 1.46394944190979, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.20203420519828796, 'logits/rejected': -0.2107037454843521, 'beta_dpo/beta': 1.46394944190979, 'beta_dpo/loss_margin_mean': 189.06527709960938, 'beta_dpo/beta_margin_mean': 281.1544494628906, 'beta_dpo/beta_margin_std': 236.0167694091797, 'beta_dpo/beta_margin_grad_mean': -0.09375060349702835, 'beta_dpo/beta_margin_grad_std': 0.2914803922176361, 'epoch': 0.96}

 96%|███████████████████████████████████████████████████████████████████████████▏  | 656/681 [46:45<01:06,  2.66s/it]
 96%|███████████████████████████████████████████████████████████████████████████▎  | 657/681 [46:47<01:00,  2.53s/it]
                                                                                                                     
{'loss': 0.6362, 'grad_norm': 5.878337860107422, 'learning_rate': 2.055847060721566e-09, 'beta_dpo/gap_mean': 148.42965698242188, 'beta_dpo/gap_std': 167.33609008789062, 'beta_dpo/beta_used_raw': -0.031182467937469482, 'beta_dpo/beta_used': 0.7246884703636169, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2323456108570099, 'logits/rejected': -0.23794196546077728, 'beta_dpo/beta': 0.7246884703636169, 'beta_dpo/loss_margin_mean': 171.03836059570312, 'beta_dpo/beta_margin_mean': 136.55160522460938, 'beta_dpo/beta_margin_std': 201.0517578125, 'beta_dpo/beta_margin_grad_mean': -0.24664191901683807, 'beta_dpo/beta_margin_grad_std': 0.24966345727443695, 'epoch': 0.96}

 96%|███████████████████████████████████████████████████████████████████████████▎  | 657/681 [46:47<01:00,  2.53s/it]
 97%|███████████████████████████████████████████████████████████████████████████▎  | 658/681 [46:50<00:56,  2.47s/it]
                                                                                                                     
{'loss': 1.2622, 'grad_norm': 9.239810943603516, 'learning_rate': 1.8948725820160662e-09, 'beta_dpo/gap_mean': 145.939208984375, 'beta_dpo/gap_std': 164.26235961914062, 'beta_dpo/beta_used_raw': -0.7150457501411438, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23999705910682678, 'logits/rejected': -0.2215622067451477, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 135.171630859375, 'beta_dpo/beta_margin_mean': 0.13517163693904877, 'beta_dpo/beta_margin_std': 0.15315905213356018, 'beta_dpo/beta_margin_grad_mean': -0.466478168964386, 'beta_dpo/beta_margin_grad_std': 0.03783747926354408, 'epoch': 0.97}

 97%|███████████████████████████████████████████████████████████████████████████▎  | 658/681 [46:50<00:56,  2.47s/it]
 97%|███████████████████████████████████████████████████████████████████████████▍  | 659/681 [46:52<00:56,  2.55s/it]
                                                                                                                     
{'loss': 1.2654, 'grad_norm': 13.10746955871582, 'learning_rate': 1.7404359041573723e-09, 'beta_dpo/gap_mean': 143.0897216796875, 'beta_dpo/gap_std': 163.14138793945312, 'beta_dpo/beta_used_raw': -0.6675459146499634, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3149293065071106, 'logits/rejected': -0.26698166131973267, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 124.60411071777344, 'beta_dpo/beta_margin_mean': 0.12460412085056305, 'beta_dpo/beta_margin_std': 0.15533404052257538, 'beta_dpo/beta_margin_grad_mean': -0.46911635994911194, 'beta_dpo/beta_margin_grad_std': 0.0383928045630455, 'epoch': 0.97}

 97%|███████████████████████████████████████████████████████████████████████████▍  | 659/681 [46:52<00:56,  2.55s/it]
 97%|███████████████████████████████████████████████████████████████████████████▌  | 660/681 [46:55<00:53,  2.53s/it]
                                                                                                                     
{'loss': 2.3556, 'grad_norm': 1521.5159912109375, 'learning_rate': 1.592541096695571e-09, 'beta_dpo/gap_mean': 144.819091796875, 'beta_dpo/gap_std': 160.9578857421875, 'beta_dpo/beta_used_raw': 0.0521998405456543, 'beta_dpo/beta_used': 0.336564302444458, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.18781328201293945, 'logits/rejected': -0.15785738825798035, 'beta_dpo/beta': 0.336564302444458, 'beta_dpo/loss_margin_mean': 162.99786376953125, 'beta_dpo/beta_margin_mean': 57.831546783447266, 'beta_dpo/beta_margin_std': 95.76539611816406, 'beta_dpo/beta_margin_grad_mean': -0.2779940366744995, 'beta_dpo/beta_margin_grad_std': 0.27703657746315, 'epoch': 0.97}

 97%|███████████████████████████████████████████████████████████████████████████▌  | 660/681 [46:55<00:53,  2.53s/it]
 97%|███████████████████████████████████████████████████████████████████████████▋  | 661/681 [46:57<00:48,  2.43s/it]
                                                                                                                     
{'loss': 1.2689, 'grad_norm': 8.182291030883789, 'learning_rate': 1.4511920567963908e-09, 'beta_dpo/gap_mean': 144.63906860351562, 'beta_dpo/gap_std': 161.95355224609375, 'beta_dpo/beta_used_raw': -1.1518099308013916, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2719656527042389, 'logits/rejected': -0.2467373013496399, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 147.99667358398438, 'beta_dpo/beta_margin_mean': 0.1479966789484024, 'beta_dpo/beta_margin_std': 0.1754070222377777, 'beta_dpo/beta_margin_grad_mean': -0.4634128510951996, 'beta_dpo/beta_margin_grad_std': 0.04297526925802231, 'epoch': 0.97}

 97%|███████████████████████████████████████████████████████████████████████████▋  | 661/681 [46:57<00:48,  2.43s/it]
 97%|███████████████████████████████████████████████████████████████████████████▊  | 662/681 [47:00<00:48,  2.53s/it]
                                                                                                                     
{'loss': 1.2631, 'grad_norm': 10.364067077636719, 'learning_rate': 1.3163925091384532e-09, 'beta_dpo/gap_mean': 144.40728759765625, 'beta_dpo/gap_std': 164.30880737304688, 'beta_dpo/beta_used_raw': -0.6409615278244019, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.3215191066265106, 'logits/rejected': -0.2895079255104065, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 129.33206176757812, 'beta_dpo/beta_margin_mean': 0.1293320655822754, 'beta_dpo/beta_margin_std': 0.17222696542739868, 'beta_dpo/beta_margin_grad_mean': -0.4679609537124634, 'beta_dpo/beta_margin_grad_std': 0.04259883239865303, 'epoch': 0.97}

 97%|███████████████████████████████████████████████████████████████████████████▊  | 662/681 [47:00<00:48,  2.53s/it]
 97%|███████████████████████████████████████████████████████████████████████████▉  | 663/681 [47:03<00:46,  2.60s/it]
                                                                                                                     
{'loss': 1.2757, 'grad_norm': 7.655603885650635, 'learning_rate': 1.1881460058152382e-09, 'beta_dpo/gap_mean': 142.96701049804688, 'beta_dpo/gap_std': 167.32403564453125, 'beta_dpo/beta_used_raw': -1.430047631263733, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.31214457750320435, 'logits/rejected': -0.310594379901886, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 137.47317504882812, 'beta_dpo/beta_margin_mean': 0.1374731808900833, 'beta_dpo/beta_margin_std': 0.1681915521621704, 'beta_dpo/beta_margin_grad_mean': -0.4659326374530792, 'beta_dpo/beta_margin_grad_std': 0.041490860283374786, 'epoch': 0.97}

 97%|███████████████████████████████████████████████████████████████████████████▉  | 663/681 [47:03<00:46,  2.60s/it]
 98%|████████████████████████████████████████████████████████████████████████████  | 664/681 [47:05<00:44,  2.61s/it]
                                                                                                                     
{'loss': 22.277, 'grad_norm': 14736.9189453125, 'learning_rate': 1.066455926241383e-09, 'beta_dpo/gap_mean': 145.85546875, 'beta_dpo/gap_std': 171.21942138671875, 'beta_dpo/beta_used_raw': 0.9985529780387878, 'beta_dpo/beta_used': 1.081035852432251, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.23802334070205688, 'logits/rejected': -0.23446832597255707, 'beta_dpo/beta': 1.081035852432251, 'beta_dpo/loss_margin_mean': 160.23175048828125, 'beta_dpo/beta_margin_mean': 193.7392120361328, 'beta_dpo/beta_margin_std': 372.88427734375, 'beta_dpo/beta_margin_grad_mean': -0.3265109956264496, 'beta_dpo/beta_margin_grad_std': 0.31032606959342957, 'epoch': 0.98}

 98%|████████████████████████████████████████████████████████████████████████████  | 664/681 [47:05<00:44,  2.61s/it]
 98%|████████████████████████████████████████████████████████████████████████████▏ | 665/681 [47:08<00:40,  2.54s/it]
                                                                                                                     
{'loss': 1.9778, 'grad_norm': 950.77587890625, 'learning_rate': 9.513254770636137e-10, 'beta_dpo/gap_mean': 143.3297882080078, 'beta_dpo/gap_std': 168.05531311035156, 'beta_dpo/beta_used_raw': 0.05960509926080704, 'beta_dpo/beta_used': 0.17351345717906952, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2172248661518097, 'logits/rejected': -0.18482929468154907, 'beta_dpo/beta': 0.17351345717906952, 'beta_dpo/loss_margin_mean': 132.63438415527344, 'beta_dpo/beta_margin_mean': 24.549057006835938, 'beta_dpo/beta_margin_std': 46.99803924560547, 'beta_dpo/beta_margin_grad_mean': -0.30906784534454346, 'beta_dpo/beta_margin_grad_std': 0.29436877369880676, 'epoch': 0.98}

 98%|████████████████████████████████████████████████████████████████████████████▏ | 665/681 [47:08<00:40,  2.54s/it]
 98%|████████████████████████████████████████████████████████████████████████████▎ | 666/681 [47:10<00:39,  2.63s/it]
                                                                                                                     
{'loss': 1.2653, 'grad_norm': 10.848896026611328, 'learning_rate': 8.427576920763956e-10, 'beta_dpo/gap_mean': 144.62229919433594, 'beta_dpo/gap_std': 164.13558959960938, 'beta_dpo/beta_used_raw': -0.8510459661483765, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26341164112091064, 'logits/rejected': -0.24032096564769745, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 145.38601684570312, 'beta_dpo/beta_margin_mean': 0.14538602530956268, 'beta_dpo/beta_margin_std': 0.14133024215698242, 'beta_dpo/beta_margin_grad_mean': -0.4638909697532654, 'beta_dpo/beta_margin_grad_std': 0.034985702484846115, 'epoch': 0.98}

 98%|████████████████████████████████████████████████████████████████████████████▎ | 666/681 [47:11<00:39,  2.63s/it]
 98%|████████████████████████████████████████████████████████████████████████████▍ | 667/681 [47:13<00:37,  2.67s/it]
                                                                                                                     
{'loss': 3.6685, 'grad_norm': 7423.337890625, 'learning_rate': 7.407554321417764e-10, 'beta_dpo/gap_mean': 142.28619384765625, 'beta_dpo/gap_std': 162.02328491210938, 'beta_dpo/beta_used_raw': 0.0477980375289917, 'beta_dpo/beta_used': 0.555698573589325, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24232017993927002, 'logits/rejected': -0.21042859554290771, 'beta_dpo/beta': 0.555698573589325, 'beta_dpo/loss_margin_mean': 135.94004821777344, 'beta_dpo/beta_margin_mean': 75.98949432373047, 'beta_dpo/beta_margin_std': 132.38754272460938, 'beta_dpo/beta_margin_grad_mean': -0.32695654034614563, 'beta_dpo/beta_margin_grad_std': 0.3104262053966522, 'epoch': 0.98}

 98%|████████████████████████████████████████████████████████████████████████████▍ | 667/681 [47:13<00:37,  2.67s/it]
 98%|████████████████████████████████████████████████████████████████████████████▌ | 668/681 [47:16<00:35,  2.70s/it]
                                                                                                                     
{'loss': 1.2854, 'grad_norm': 15.746362686157227, 'learning_rate': 6.453213851142225e-10, 'beta_dpo/gap_mean': 135.5725555419922, 'beta_dpo/gap_std': 161.8687744140625, 'beta_dpo/beta_used_raw': -1.565541386604309, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26321089267730713, 'logits/rejected': -0.2517067492008209, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 110.26235961914062, 'beta_dpo/beta_margin_mean': 0.11026235669851303, 'beta_dpo/beta_margin_std': 0.16938358545303345, 'beta_dpo/beta_margin_grad_mean': -0.47267022728919983, 'beta_dpo/beta_margin_grad_std': 0.04184536263346672, 'epoch': 0.98}

 98%|████████████████████████████████████████████████████████████████████████████▌ | 668/681 [47:16<00:35,  2.70s/it]
 98%|████████████████████████████████████████████████████████████████████████████▋ | 669/681 [47:19<00:32,  2.71s/it]
                                                                                                                     
{'loss': 3.9008, 'grad_norm': 2606.953125, 'learning_rate': 5.564580657695939e-10, 'beta_dpo/gap_mean': 139.15911865234375, 'beta_dpo/gap_std': 162.9943084716797, 'beta_dpo/beta_used_raw': 0.24128052592277527, 'beta_dpo/beta_used': 0.49764859676361084, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.239346444606781, 'logits/rejected': -0.21844345331192017, 'beta_dpo/beta': 0.49764859676361084, 'beta_dpo/loss_margin_mean': 155.27737426757812, 'beta_dpo/beta_margin_mean': 76.75032043457031, 'beta_dpo/beta_margin_std': 137.6516876220703, 'beta_dpo/beta_margin_grad_mean': -0.2775057852268219, 'beta_dpo/beta_margin_grad_std': 0.27767181396484375, 'epoch': 0.98}

 98%|████████████████████████████████████████████████████████████████████████████▋ | 669/681 [47:19<00:32,  2.71s/it]
 98%|████████████████████████████████████████████████████████████████████████████▋ | 670/681 [47:21<00:29,  2.67s/it]
                                                                                                                     
{'loss': 13.5793, 'grad_norm': 7477.4453125, 'learning_rate': 4.741678157389739e-10, 'beta_dpo/gap_mean': 141.39236450195312, 'beta_dpo/gap_std': 165.60235595703125, 'beta_dpo/beta_used_raw': -0.3109077215194702, 'beta_dpo/beta_used': 0.5937625169754028, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.25414931774139404, 'logits/rejected': -0.23977619409561157, 'beta_dpo/beta': 0.5937625169754028, 'beta_dpo/loss_margin_mean': 155.38189697265625, 'beta_dpo/beta_margin_mean': 102.75801086425781, 'beta_dpo/beta_margin_std': 171.8385009765625, 'beta_dpo/beta_margin_grad_mean': -0.32673099637031555, 'beta_dpo/beta_margin_grad_std': 0.3107914626598358, 'epoch': 0.98}

 98%|████████████████████████████████████████████████████████████████████████████▋ | 670/681 [47:21<00:29,  2.67s/it]
 99%|████████████████████████████████████████████████████████████████████████████▊ | 671/681 [47:24<00:26,  2.61s/it]
                                                                                                                     
{'loss': 15.1475, 'grad_norm': 13217.642578125, 'learning_rate': 3.9845280344705245e-10, 'beta_dpo/gap_mean': 142.10791015625, 'beta_dpo/gap_std': 166.866943359375, 'beta_dpo/beta_used_raw': 1.3876622915267944, 'beta_dpo/beta_used': 1.3876622915267944, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21202997863292694, 'logits/rejected': -0.20390699803829193, 'beta_dpo/beta': 1.3876622915267944, 'beta_dpo/loss_margin_mean': 143.68527221679688, 'beta_dpo/beta_margin_mean': 201.6892547607422, 'beta_dpo/beta_margin_std': 243.80215454101562, 'beta_dpo/beta_margin_grad_mean': -0.2369070202112198, 'beta_dpo/beta_margin_grad_std': 0.42259082198143005, 'epoch': 0.99}

 99%|████████████████████████████████████████████████████████████████████████████▊ | 671/681 [47:24<00:26,  2.61s/it]
 99%|████████████████████████████████████████████████████████████████████████████▉ | 672/681 [47:26<00:23,  2.59s/it]
                                                                                                                     
{'loss': 1.2722, 'grad_norm': 10.910394668579102, 'learning_rate': 3.293150240547549e-10, 'beta_dpo/gap_mean': 139.9226531982422, 'beta_dpo/gap_std': 167.88650512695312, 'beta_dpo/beta_used_raw': -0.8151004910469055, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24089352786540985, 'logits/rejected': -0.22517436742782593, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 121.51133728027344, 'beta_dpo/beta_margin_mean': 0.12151134014129639, 'beta_dpo/beta_margin_std': 0.1770341694355011, 'beta_dpo/beta_margin_grad_mean': -0.469896525144577, 'beta_dpo/beta_margin_grad_std': 0.043766915798187256, 'epoch': 0.99}

 99%|████████████████████████████████████████████████████████████████████████████▉ | 672/681 [47:26<00:23,  2.59s/it]
 99%|█████████████████████████████████████████████████████████████████████████████ | 673/681 [47:29<00:19,  2.49s/it]
                                                                                                                     
{'loss': 7.6929, 'grad_norm': 4248.92431640625, 'learning_rate': 2.6675629940689504e-10, 'beta_dpo/gap_mean': 141.91412353515625, 'beta_dpo/gap_std': 166.22857666015625, 'beta_dpo/beta_used_raw': 0.13607317209243774, 'beta_dpo/beta_used': 0.39367401599884033, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.21331897377967834, 'logits/rejected': -0.20891378819942474, 'beta_dpo/beta': 0.39367401599884033, 'beta_dpo/loss_margin_mean': 155.3968048095703, 'beta_dpo/beta_margin_mean': 63.47161102294922, 'beta_dpo/beta_margin_std': 101.09577178955078, 'beta_dpo/beta_margin_grad_mean': -0.27898791432380676, 'beta_dpo/beta_margin_grad_std': 0.2772313356399536, 'epoch': 0.99}

 99%|█████████████████████████████████████████████████████████████████████████████ | 673/681 [47:29<00:19,  2.49s/it]
 99%|█████████████████████████████████████████████████████████████████████████████▏| 674/681 [47:31<00:17,  2.55s/it]
                                                                                                                     
{'loss': 3.5724, 'grad_norm': 3347.8056640625, 'learning_rate': 2.1077827798404725e-10, 'beta_dpo/gap_mean': 145.38265991210938, 'beta_dpo/gap_std': 166.84365844726562, 'beta_dpo/beta_used_raw': 0.35867586731910706, 'beta_dpo/beta_used': 0.3700469732284546, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22968342900276184, 'logits/rejected': -0.21133801341056824, 'beta_dpo/beta': 0.3700469732284546, 'beta_dpo/loss_margin_mean': 163.85891723632812, 'beta_dpo/beta_margin_mean': 60.167579650878906, 'beta_dpo/beta_margin_std': 115.83226776123047, 'beta_dpo/beta_margin_grad_mean': -0.31875723600387573, 'beta_dpo/beta_margin_grad_std': 0.2990269958972931, 'epoch': 0.99}

 99%|█████████████████████████████████████████████████████████████████████████████▏| 674/681 [47:31<00:17,  2.55s/it]
 99%|█████████████████████████████████████████████████████████████████████████████▎| 675/681 [47:34<00:15,  2.52s/it]
                                                                                                                     
{'loss': 1.2649, 'grad_norm': 10.684988021850586, 'learning_rate': 1.6138243485910863e-10, 'beta_dpo/gap_mean': 149.49859619140625, 'beta_dpo/gap_std': 167.7472381591797, 'beta_dpo/beta_used_raw': -1.1393800973892212, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.2344612330198288, 'logits/rejected': -0.22431063652038574, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 168.26443481445312, 'beta_dpo/beta_margin_mean': 0.1682644486427307, 'beta_dpo/beta_margin_std': 0.17532816529273987, 'beta_dpo/beta_margin_grad_mean': -0.4584572911262512, 'beta_dpo/beta_margin_grad_std': 0.04273706302046776, 'epoch': 0.99}

 99%|█████████████████████████████████████████████████████████████████████████████▎| 675/681 [47:34<00:15,  2.52s/it]
 99%|█████████████████████████████████████████████████████████████████████████████▍| 676/681 [47:36<00:12,  2.56s/it]
                                                                                                                     
{'loss': 5.0433, 'grad_norm': 3344.320068359375, 'learning_rate': 1.1857007165852472e-10, 'beta_dpo/gap_mean': 150.6968994140625, 'beta_dpo/gap_std': 166.34634399414062, 'beta_dpo/beta_used_raw': -0.8106540441513062, 'beta_dpo/beta_used': 0.3458569049835205, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.314957857131958, 'logits/rejected': -0.2842877507209778, 'beta_dpo/beta': 0.3458569049835205, 'beta_dpo/loss_margin_mean': 143.155029296875, 'beta_dpo/beta_margin_mean': 58.578914642333984, 'beta_dpo/beta_margin_std': 92.11776733398438, 'beta_dpo/beta_margin_grad_mean': -0.2846805453300476, 'beta_dpo/beta_margin_grad_std': 0.2793225646018982, 'epoch': 0.99}

 99%|█████████████████████████████████████████████████████████████████████████████▍| 676/681 [47:36<00:12,  2.56s/it]
 99%|█████████████████████████████████████████████████████████████████████████████▌| 677/681 [47:39<00:09,  2.47s/it]
                                                                                                                     
{'loss': 12.5035, 'grad_norm': 9669.5361328125, 'learning_rate': 8.23423165278725e-11, 'beta_dpo/gap_mean': 149.2086181640625, 'beta_dpo/gap_std': 164.42991638183594, 'beta_dpo/beta_used_raw': 0.5463694334030151, 'beta_dpo/beta_used': 0.9840426445007324, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.22851765155792236, 'logits/rejected': -0.20020201802253723, 'beta_dpo/beta': 0.9840426445007324, 'beta_dpo/loss_margin_mean': 154.48655700683594, 'beta_dpo/beta_margin_mean': 163.275146484375, 'beta_dpo/beta_margin_std': 241.04299926757812, 'beta_dpo/beta_margin_grad_mean': -0.2947867214679718, 'beta_dpo/beta_margin_grad_std': 0.29029718041419983, 'epoch': 0.99}

 99%|█████████████████████████████████████████████████████████████████████████████▌| 677/681 [47:39<00:09,  2.47s/it]
100%|█████████████████████████████████████████████████████████████████████████████▋| 678/681 [47:41<00:07,  2.46s/it]
                                                                                                                     
{'loss': 5.5623, 'grad_norm': 6134.18310546875, 'learning_rate': 5.270012410216185e-11, 'beta_dpo/gap_mean': 150.82748413085938, 'beta_dpo/gap_std': 165.1314697265625, 'beta_dpo/beta_used_raw': 0.4158139228820801, 'beta_dpo/beta_used': 0.5137372016906738, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24406661093235016, 'logits/rejected': -0.23352187871932983, 'beta_dpo/beta': 0.5137372016906738, 'beta_dpo/loss_margin_mean': 160.3917999267578, 'beta_dpo/beta_margin_mean': 91.00566101074219, 'beta_dpo/beta_margin_std': 150.59832763671875, 'beta_dpo/beta_margin_grad_mean': -0.33945244550704956, 'beta_dpo/beta_margin_grad_std': 0.3146733343601227, 'epoch': 1.0}

100%|█████████████████████████████████████████████████████████████████████████████▋| 678/681 [47:41<00:07,  2.46s/it]
100%|█████████████████████████████████████████████████████████████████████████████▊| 679/681 [47:44<00:05,  2.55s/it]
                                                                                                                     
{'loss': 4.2081, 'grad_norm': 2949.92333984375, 'learning_rate': 2.9644275480772416e-11, 'beta_dpo/gap_mean': 149.608642578125, 'beta_dpo/gap_std': 166.2967529296875, 'beta_dpo/beta_used_raw': 0.4399394392967224, 'beta_dpo/beta_used': 0.4399394392967224, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.24739307165145874, 'logits/rejected': -0.2278253436088562, 'beta_dpo/beta': 0.4399394392967224, 'beta_dpo/loss_margin_mean': 132.75094604492188, 'beta_dpo/beta_margin_mean': 58.7913932800293, 'beta_dpo/beta_margin_std': 76.95616149902344, 'beta_dpo/beta_margin_grad_mean': -0.202021986246109, 'beta_dpo/beta_margin_grad_std': 0.3905799984931946, 'epoch': 1.0}

100%|█████████████████████████████████████████████████████████████████████████████▊| 679/681 [47:44<00:05,  2.55s/it]
100%|█████████████████████████████████████████████████████████████████████████████▉| 680/681 [47:47<00:02,  2.63s/it]
                                                                                                                     
{'loss': 1.4902, 'grad_norm': 773.09716796875, 'learning_rate': 1.31753782067201e-11, 'beta_dpo/gap_mean': 149.79739379882812, 'beta_dpo/gap_std': 168.91465759277344, 'beta_dpo/beta_used_raw': -0.949596643447876, 'beta_dpo/beta_used': 0.16887128353118896, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.282899409532547, 'logits/rejected': -0.2579476833343506, 'beta_dpo/beta': 0.16887128353118896, 'beta_dpo/loss_margin_mean': 154.96934509277344, 'beta_dpo/beta_margin_mean': 24.72771453857422, 'beta_dpo/beta_margin_std': 45.65426254272461, 'beta_dpo/beta_margin_grad_mean': -0.2913900911808014, 'beta_dpo/beta_margin_grad_std': 0.28668370842933655, 'epoch': 1.0}

100%|█████████████████████████████████████████████████████████████████████████████▉| 680/681 [47:47<00:02,  2.63s/it]
100%|██████████████████████████████████████████████████████████████████████████████| 681/681 [47:49<00:00,  2.61s/it]
                                                                                                                     
{'loss': 1.2798, 'grad_norm': 11.882765769958496, 'learning_rate': 3.2938662507808745e-12, 'beta_dpo/gap_mean': 145.9384002685547, 'beta_dpo/gap_std': 166.8389892578125, 'beta_dpo/beta_used_raw': -1.753014087677002, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -0.26762282848358154, 'logits/rejected': -0.25434818863868713, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 134.85069274902344, 'beta_dpo/beta_margin_mean': 0.13485069572925568, 'beta_dpo/beta_margin_std': 0.17000959813594818, 'beta_dpo/beta_margin_grad_mean': -0.46664658188819885, 'beta_dpo/beta_margin_grad_std': 0.041838180273771286, 'epoch': 1.0}

100%|██████████████████████████████████████████████████████████████████████████████| 681/681 [47:49<00:00,  2.61s/it][INFO|trainer.py:3984] 2026-04-18 00:11:37,099 >> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681
[INFO|configuration_utils.py:419] 2026-04-18 00:11:37,112 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681/config.json
[INFO|configuration_utils.py:911] 2026-04-18 00:11:37,121 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-18 00:12:23,937 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-18 00:12:23,946 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-18 00:12:23,963 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-681/special_tokens_map.json
[INFO|trainer.py:4083] 2026-04-18 00:16:18,284 >> Deleting older checkpoint [/scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/checkpoint-400] due to args.save_total_limit
[INFO|trainer.py:2681] 2026-04-18 00:16:21,557 >>

Training completed. Do not forget to share your model on huggingface.co/models =)


{'train_runtime': 3177.7378, 'train_samples_per_second': 13.72, 'train_steps_per_second': 0.214, 'train_loss': 2.627565469291942, 'epoch': 1.0}

100%|██████████████████████████████████████████████████████████████████████████████| 681/681 [52:49<00:00,  2.61s/it]
100%|██████████████████████████████████████████████████████████████████████████████| 681/681 [52:49<00:00,  4.65s/it]
***** train metrics *****
  epoch                    =        1.0
  total_flos               =        0GF
  train_loss               =     2.6276
  train_runtime            = 0:52:57.73
  train_samples            =      43598
  train_samples_per_second =      13.72
  train_steps_per_second   =      0.214
2026-04-18 00:16:21 - INFO - __main__ - *** Training complete ***
2026-04-18 00:16:21 - INFO - __main__ - *** Save model ***
[INFO|configuration_utils.py:419] 2026-04-18 00:16:38,640 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/config.json
[INFO|configuration_utils.py:911] 2026-04-18 00:16:38,659 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-18 00:17:42,598 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 7 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-18 00:17:42,622 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-18 00:17:42,638 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/special_tokens_map.json
2026-04-18 00:17:42 - INFO - __main__ - Saved HF-compatible model artifacts to /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753
[INFO|modelcard.py:450] 2026-04-18 00:17:42,897 >> Dropping the following result as it does not have all the necessary fields:
{'dataset': {'name': 'Anthropic/hh-rlhf', 'type': 'Anthropic/hh-rlhf'}}
[INFO|configuration_utils.py:419] 2026-04-18 00:17:42,938 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753/config.json
2026-04-18 00:17:42 - INFO - __main__ - *** Evaluate ***
[INFO|trainer.py:4307] 2026-04-18 00:17:42,939 >>
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-18 00:17:42,939 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-18 00:17:42,939 >>   Batch size = 8

  0%|                                                                                         | 0/73 [00:00<?, ?it/s]
  3%|██▏                                                                              | 2/73 [00:00<00:19,  3.63it/s]
  4%|███▎                                                                             | 3/73 [00:01<00:26,  2.60it/s]
  5%|████▍                                                                            | 4/73 [00:01<00:30,  2.27it/s]
  7%|█████▌                                                                           | 5/73 [00:02<00:31,  2.13it/s]
  8%|██████▋                                                                          | 6/73 [00:02<00:33,  2.02it/s]
 10%|███████▊                                                                         | 7/73 [00:03<00:31,  2.09it/s]
 11%|████████▉                                                                        | 8/73 [00:03<00:33,  1.94it/s]
 12%|█████████▉                                                                       | 9/73 [00:04<00:33,  1.89it/s]
 14%|██████████▉                                                                     | 10/73 [00:04<00:33,  1.85it/s]
 15%|████████████                                                                    | 11/73 [00:05<00:33,  1.86it/s]
 16%|█████████████▏                                                                  | 12/73 [00:05<00:33,  1.81it/s]
 18%|██████████████▏                                                                 | 13/73 [00:06<00:32,  1.85it/s]
 19%|███████████████▎                                                                | 14/73 [00:07<00:32,  1.82it/s]
 21%|████████████████▍                                                               | 15/73 [00:07<00:31,  1.83it/s]
 22%|█████████████████▌                                                              | 16/73 [00:08<00:32,  1.76it/s]
 23%|██████████████████▋                                                             | 17/73 [00:08<00:32,  1.75it/s]
 25%|███████████████████▋                                                            | 18/73 [00:09<00:31,  1.73it/s]
 26%|████████████████████▊                                                           | 19/73 [00:09<00:31,  1.71it/s]
 27%|█████████████████████▉                                                          | 20/73 [00:10<00:31,  1.70it/s]
 29%|███████████████████████                                                         | 21/73 [00:11<00:30,  1.70it/s]
 30%|████████████████████████                                                        | 22/73 [00:11<00:30,  1.68it/s]
 32%|█████████████████████████▏                                                      | 23/73 [00:12<00:28,  1.73it/s]
 33%|██████████████████████████▎                                                     | 24/73 [00:12<00:28,  1.74it/s]
 34%|███████████████████████████▍                                                    | 25/73 [00:13<00:27,  1.72it/s]
 36%|████████████████████████████▍                                                   | 26/73 [00:14<00:27,  1.74it/s]
 37%|█████████████████████████████▌                                                  | 27/73 [00:14<00:23,  1.93it/s]
 38%|██████████████████████████████▋                                                 | 28/73 [00:14<00:23,  1.89it/s]
 40%|███████████████████████████████▊                                                | 29/73 [00:15<00:22,  1.92it/s]
 41%|████████████████████████████████▉                                               | 30/73 [00:16<00:22,  1.93it/s]
 42%|█████████████████████████████████▉                                              | 31/73 [00:16<00:22,  1.86it/s]
 44%|███████████████████████████████████                                             | 32/73 [00:17<00:21,  1.89it/s]
 45%|████████████████████████████████████▏                                           | 33/73 [00:17<00:20,  1.92it/s]
 47%|█████████████████████████████████████▎                                          | 34/73 [00:18<00:20,  1.88it/s]
 48%|██████████████████████████████████████▎                                         | 35/73 [00:18<00:21,  1.81it/s]
 49%|███████████████████████████████████████▍                                        | 36/73 [00:19<00:20,  1.82it/s]
 51%|████████████████████████████████████████▌                                       | 37/73 [00:19<00:20,  1.79it/s]
 52%|█████████████████████████████████████████▋                                      | 38/73 [00:20<00:18,  1.88it/s]
 53%|██████████████████████████████████████████▋                                     | 39/73 [00:20<00:18,  1.80it/s]
 55%|███████████████████████████████████████████▊                                    | 40/73 [00:21<00:18,  1.82it/s]
 56%|████████████████████████████████████████████▉                                   | 41/73 [00:21<00:17,  1.87it/s]
 58%|██████████████████████████████████████████████                                  | 42/73 [00:22<00:17,  1.82it/s]
 59%|███████████████████████████████████████████████                                 | 43/73 [00:23<00:16,  1.86it/s]
 60%|████████████████████████████████████████████████▏                               | 44/73 [00:23<00:15,  1.85it/s]
 62%|█████████████████████████████████████████████████▎                              | 45/73 [00:24<00:15,  1.76it/s]
 63%|██████████████████████████████████████████████████▍                             | 46/73 [00:24<00:14,  1.85it/s]
 64%|███████████████████████████████████████████████████▌                            | 47/73 [00:25<00:14,  1.82it/s]
 66%|████████████████████████████████████████████████████▌                           | 48/73 [00:25<00:13,  1.80it/s]
 67%|█████████████████████████████████████████████████████▋                          | 49/73 [00:26<00:13,  1.79it/s]
 68%|██████████████████████████████████████████████████████▊                         | 50/73 [00:26<00:12,  1.81it/s]
 70%|███████████████████████████████████████████████████████▉                        | 51/73 [00:27<00:12,  1.79it/s]
 71%|████████████████████████████████████████████████████████▉                       | 52/73 [00:28<00:12,  1.74it/s]
 73%|██████████████████████████████████████████████████████████                      | 53/73 [00:28<00:11,  1.70it/s]
 74%|███████████████████████████████████████████████████████████▏                    | 54/73 [00:29<00:10,  1.81it/s]
 75%|████████████████████████████████████████████████████████████▎                   | 55/73 [00:29<00:09,  1.80it/s]
 77%|█████████████████████████████████████████████████████████████▎                  | 56/73 [00:30<00:09,  1.85it/s]
 78%|██████████████████████████████████████████████████████████████▍                 | 57/73 [00:30<00:09,  1.76it/s]
 79%|███████████████████████████████████████████████████████████████▌                | 58/73 [00:31<00:08,  1.84it/s]
 81%|████████████████████████████████████████████████████████████████▋               | 59/73 [00:31<00:07,  1.84it/s]
 82%|█████████████████████████████████████████████████████████████████▊              | 60/73 [00:32<00:07,  1.81it/s]
 84%|██████████████████████████████████████████████████████████████████▊             | 61/73 [00:33<00:06,  1.80it/s]
 85%|███████████████████████████████████████████████████████████████████▉            | 62/73 [00:33<00:06,  1.76it/s]
 86%|█████████████████████████████████████████████████████████████████████           | 63/73 [00:34<00:05,  1.88it/s]
 88%|██████████████████████████████████████████████████████████████████████▏         | 64/73 [00:34<00:04,  1.95it/s]
 89%|███████████████████████████████████████████████████████████████████████▏        | 65/73 [00:35<00:04,  1.92it/s]
 90%|████████████████████████████████████████████████████████████████████████▎       | 66/73 [00:35<00:03,  1.85it/s]
 92%|█████████████████████████████████████████████████████████████████████████▍      | 67/73 [00:36<00:03,  1.88it/s]
 93%|██████████████████████████████████████████████████████████████████████████▌     | 68/73 [00:36<00:02,  1.83it/s]
 95%|███████████████████████████████████████████████████████████████████████████▌    | 69/73 [00:37<00:02,  1.81it/s]
 96%|████████████████████████████████████████████████████████████████████████████▋   | 70/73 [00:37<00:01,  1.80it/s]
 97%|█████████████████████████████████████████████████████████████████████████████▊  | 71/73 [00:38<00:01,  1.80it/s]
 99%|██████████████████████████████████████████████████████████████████████████████▉ | 72/73 [00:39<00:00,  1.79it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.93it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 73/73 [00:39<00:00,  1.85it/s]
***** eval metrics *****
  epoch                               =        1.0
  eval_beta_dpo/beta                  =     0.0112
  eval_beta_dpo/beta_margin_grad_mean =     -0.471
  eval_beta_dpo/beta_margin_grad_std  =     0.0492
  eval_beta_dpo/beta_margin_mean      =     1.6409
  eval_beta_dpo/beta_margin_std       =      2.073
  eval_beta_dpo/beta_used             =     0.0112
  eval_beta_dpo/beta_used_raw         =    -3.5043
  eval_beta_dpo/gap_mean              =   147.1535
  eval_beta_dpo/gap_std               =   168.5002
  eval_beta_dpo/loss_margin_mean      =    87.0826
  eval_beta_dpo/mask_keep_frac        =        1.0
  eval_logits/chosen                  =    -0.2773
  eval_logits/rejected                =     -0.255
  eval_loss                           =     0.7894
  eval_runtime                        = 0:00:40.11
  eval_samples                        =       2339
  eval_samples_per_second             =     58.309
  eval_steps_per_second               =      1.845
2026-04-18 00:18:23 - INFO - __main__ - *** Training complete! ***
wandb: - 0.014 MB of 0.014 MB uploaded
wandb: \ 0.014 MB of 0.014 MB uploaded
wandb: | 0.049 MB of 0.299 MB uploaded
wandb: / 0.301 MB of 0.301 MB uploaded
wandb:
wandb: Run history:
wandb:                   eval/beta_dpo/beta ▁▁▃▂▆█▂
wandb:  eval/beta_dpo/beta_margin_grad_mean ▁▁▅▄██▅
wandb:   eval/beta_dpo/beta_margin_grad_std ▁▂▅▄▇█▅
wandb:       eval/beta_dpo/beta_margin_mean ▁▁▂▂▆█▂
wandb:        eval/beta_dpo/beta_margin_std ▁▁▂▂▆█▂
wandb:              eval/beta_dpo/beta_used ▁▁▃▂▆█▂
wandb:          eval/beta_dpo/beta_used_raw █▆▅▂▄▃▁
wandb:               eval/beta_dpo/gap_mean ▁▃▄▆▆▇█
wandb:                eval/beta_dpo/gap_std ▁▃▅▇▇██
wandb:       eval/beta_dpo/loss_margin_mean ▁▃▄▆▇██
wandb:         eval/beta_dpo/mask_keep_frac ▁▁▁▁▁▁▁
wandb:                   eval/logits/chosen ▁▂▅▆▇██
wandb:                 eval/logits/rejected ▁▂▅▅▇██
wandb:                            eval/loss ▁▁▂▂▅█▂
wandb:                         eval/runtime █▄▆▆▄▃▁
wandb:              eval/samples_per_second ▁▅▃▃▅▆█
wandb:                eval/steps_per_second ▁▅▂▃▅▆█
wandb:                  train/beta_dpo/beta ▁▁▁▁▂▁▁▁▁▂▁▁▁▁▁▂▃▁▁▁▁▅▁█▅▁▁▁▁▆▂▁▁▄▂▁▇▅▇▂
wandb: train/beta_dpo/beta_margin_grad_mean ▁▁▂▃▅▃▃▁▃▃▄▁▁▁▁▄▇▁▄▁▁█▁▆▇▄▄▂▂▅▅▂▅▄▇▂▇██▅
wandb:  train/beta_dpo/beta_margin_grad_std ▁▁▂▃▅▆▅▁▆▆▅▁▁▁▁▆▇▁▆▁▁▆▁█▇▆▅▂▁▆▆▂▅▇█▁█▅▆▆
wandb:      train/beta_dpo/beta_margin_mean ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▂▂▁▁▁▁▄▁▇▄▁▁▁▁▆▂▁▁▄▂▁▇▆█▂
wandb:       train/beta_dpo/beta_margin_std ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▂▂▁▁▁▁▆▁▇▅▂▁▁▁▇▃▁▁▇▂▁██▆▂
wandb:             train/beta_dpo/beta_used ▁▁▁▁▂▁▁▁▁▂▁▁▁▁▁▂▃▁▁▁▁▅▁█▅▁▁▁▁▆▂▁▁▄▂▁▇▅▇▂
wandb:         train/beta_dpo/beta_used_raw ▅▅▅▅▅▅▅▅▅▅▅▄▅▃▄▄▆▃▅▄▁▇▄█▇▄▄▃▃▆▃▅▄▅▆▄█▇█▄
wandb:              train/beta_dpo/gap_mean ▁▁▁▁▁▂▂▂▂▃▃▃▄▄▄▄▅▅▅▅▆▆▆▆▇▆▇█▇▇▇▇███▇▇▇██
wandb:               train/beta_dpo/gap_std ▁▁▁▁▁▂▂▂▃▃▃▄▄▅▅▅▅▅▆▅▆▇▆▇▇▇▇█▇▆▇▇▇██▇█▇██
wandb:      train/beta_dpo/loss_margin_mean ▁▁▁▁▁▂▂▂▂▂▃▃▃▃▃▃▄▃▄▄▃▆▄▇▆▆▇▇▅▇▅▇▇▆▆▆▇▇█▇
wandb:        train/beta_dpo/mask_keep_frac ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
wandb:                          train/epoch ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
wandb:                    train/global_step ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
wandb:                      train/grad_norm ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▂▁▁▁▁▁▃▁▆▆▁▁▁▁▄▃▁▁▅▂▁█▂▃▁
wandb:                  train/learning_rate ▂▃▅▇██████▇▇▇▇▇▆▆▆▆▅▅▅▄▄▄▄▃▃▃▂▂▂▂▂▁▁▁▁▁▁
wandb:                  train/logits/chosen ▃▃▄▂▂▂▁▂▂▂▂▃▃▄▄▄▄▅▅▅▅▅▄▅▆▅▅▄▆▆▆▆▆▇█▆▆▆▇▆
wandb:                train/logits/rejected ▃▃▄▂▂▁▁▂▂▂▂▃▂▄▄▄▄▅▅▄▅▅▄▄▅▅▅▄▆▆▆▆▆▇█▆▆▆▇▆
wandb:                           train/loss ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▂▁▁▂▁▁▁▁█▄▂▁▁▁▂▂▁▁▇▂▁█▁▅▁
wandb:
wandb: Run summary:
wandb:                   eval/beta_dpo/beta 0.01115
wandb:  eval/beta_dpo/beta_margin_grad_mean -0.47102
wandb:   eval/beta_dpo/beta_margin_grad_std 0.0492
wandb:       eval/beta_dpo/beta_margin_mean 1.64092
wandb:        eval/beta_dpo/beta_margin_std 2.07299
wandb:              eval/beta_dpo/beta_used 0.01115
wandb:          eval/beta_dpo/beta_used_raw -3.50426
wandb:               eval/beta_dpo/gap_mean 147.15349
wandb:                eval/beta_dpo/gap_std 168.50018
wandb:       eval/beta_dpo/loss_margin_mean 87.08258
wandb:         eval/beta_dpo/mask_keep_frac 1.0
wandb:                   eval/logits/chosen -0.2773
wandb:                 eval/logits/rejected -0.25497
wandb:                            eval/loss 0.7894
wandb:                         eval/runtime 40.1139
wandb:              eval/samples_per_second 58.309
wandb:                eval/steps_per_second 1.845
wandb:                           total_flos 0.0
wandb:                  train/beta_dpo/beta 0.001
wandb: train/beta_dpo/beta_margin_grad_mean -0.46665
wandb:  train/beta_dpo/beta_margin_grad_std 0.04184
wandb:      train/beta_dpo/beta_margin_mean 0.13485
wandb:       train/beta_dpo/beta_margin_std 0.17001
wandb:             train/beta_dpo/beta_used 0.001
wandb:         train/beta_dpo/beta_used_raw -1.75301
wandb:              train/beta_dpo/gap_mean 145.9384
wandb:               train/beta_dpo/gap_std 166.83899
wandb:      train/beta_dpo/loss_margin_mean 134.85069
wandb:        train/beta_dpo/mask_keep_frac 0.78125
wandb:                          train/epoch 1.0
wandb:                    train/global_step 681
wandb:                      train/grad_norm 11.88277
wandb:                  train/learning_rate 0.0
wandb:                  train/logits/chosen -0.26762
wandb:                train/logits/rejected -0.25435
wandb:                           train/loss 1.2798
wandb:                           train_loss 2.62757
wandb:                        train_runtime 3177.7378
wandb:             train_samples_per_second 13.72
wandb:               train_steps_per_second 0.214
wandb:
wandb: 🚀 View run llama-3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260417-230753 at: https://wandb.ai/can-not-fand-northeastern-university/ood-run-4xh200/runs/zg7hpnnu
wandb: ⭐️ View project at: https://wandb.ai/can-not-fand-northeastern-university/ood-run-4xh200
wandb: Synced 6 W&B file(s), 0 media file(s), 2 artifact file(s) and 0 other file(s)
wandb: Find logs at: /scratch/feng.yulu/dynamic-dpo-v4/wandb/wandb/run-20260417_232327-zg7hpnnu/logs
wandb: WARNING The new W&B backend becomes opt-out in version 0.18.0; try it out with `wandb.require("core")`! See https://wandb.me/wandb-core for more information.