2026-04-23 23:40:14 - INFO - __main__ - Model parameters ModelArguments(base_model_revision=None, model_name_or_path='/scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452', model_revision='main', model_code_revision=None, torch_dtype='bfloat16', tokenizer_name_or_path=None, trust_remote_code=False, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False, bnb_4bit_quant_storage='uint8')
2026-04-23 23:40:14 - INFO - __main__ - Data parameters DataArguments(chat_template=None, dataset_mixer={'Anthropic/hh-rlhf': 1.0}, text_column='text', dataset_splits=['train', 'test'], dataset_configs=['helpful-base'], dataset_dir=None, preprocessing_num_workers=12, use_persistent_hf_cache=True, hf_cache_dir='/scratch/qu.yang1/hf/datasets', truncation_side=None, auto_insert_empty_system_msg=True, disable_thinking=True, preprocessing_log_samples=0, preprocessing_log_dir=None)
2026-04-23 23:40:14 - INFO - __main__ - Training/evaluation parameters MarginDPOConfig(
_n_gpu=1,
accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
average_tokens_across_devices=False,
batch_eval_metrics=False,
beta=0.1,
bf16=True,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=True,
dataloader_num_workers=0,
dataloader_persistent_workers=False,
dataloader_pin_memory=True,
dataloader_prefetch_factor=None,
dataset_num_proc=12,
ddp_backend=None,
ddp_broadcast_buffers=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_dropout=True,
disable_tqdm=False,
do_eval=True,
do_predict=False,
do_train=False,
eval_accumulation_steps=None,
eval_delay=0,
eval_do_concat_batches=True,
eval_on_start=False,
eval_steps=100,
eval_strategy=IntervalStrategy.STEPS,
eval_use_gather_object=False,
f_alpha_divergence_coef=1.0,
f_divergence_type=reverse_kl,
force_use_ref_model=False,
fp16=False,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=[],
fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
fsdp_min_num_params=0,
fsdp_transformer_layer_cls_to_wrap=None,
full_determinism=False,
generate_during_eval=False,
gradient_accumulation_steps=2,
gradient_checkpointing=True,
gradient_checkpointing_kwargs={'use_reentrant': False},
greater_is_better=None,
group_by_length=False,
half_precision_backend=auto,
hub_always_push=False,
hub_margin_dataset_id=qwen3-8b-base-margin-dpo-hh-helpful-4xh200-margin-log,
hub_model_id=qwen3-8b-base-margin-dpo-hh-helpful-4xh200,
hub_model_revision=main,
hub_private_repo=None,
hub_strategy=HubStrategy.EVERY_SAVE,
hub_token=<HUB_TOKEN>,
ignore_data_skip=False,
include_for_metrics=[],
include_inputs_for_metrics=False,
include_num_input_tokens_seen=False,
include_tokens_per_second=False,
is_encoder_decoder=None,
jit_mode_eval=False,
label_names=None,
label_pad_token_id=-100,
label_smoothing=0.0,
label_smoothing_factor=0.0,
learning_rate=5e-07,
length_column_name=length,
load_best_model_at_end=False,
local_rank=0,
log_level=info,
log_level_replica=warning,
log_on_each_node=True,
logging_dir=outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200/runs/Apr23_23-40-13_d4052,
logging_first_step=True,
logging_nan_inf_filter=True,
logging_steps=1,
logging_strategy=IntervalStrategy.STEPS,
loss_type=sigmoid,
lr_scheduler_kwargs={},
lr_scheduler_type=SchedulerType.COSINE,
margin_dataset_private=None,
margin_dataset_split=train,
margin_log_path=/scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/margin_logs,
margin_log_steps=1,
margin_save_full=True,
max_grad_norm=1.0,
max_length=512,
max_prompt_length=256,
max_steps=-1,
max_target_length=None,
metric_for_best_model=None,
model_adapter_name=None,
model_init_kwargs=None,
mp_parameters=,
neftune_noise_alpha=None,
no_cuda=False,
non_finite_logits_handling=error,
num_train_epochs=1,
optim=OptimizerNames.ADAMW_TORCH,
optim_args=None,
optim_target_modules=None,
output_dir=/scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948,
overwrite_output_dir=False,
padding_value=None,
past_index=-1,
per_device_eval_batch_size=8,
per_device_train_batch_size=8,
post_tokenization_log_dir=None,
post_tokenization_log_samples=0,
precompute_ref_batch_size=None,
precompute_ref_eval_batch_size=None,
precompute_ref_log_probs=False,
prediction_loss_only=False,
push_margin_dataset=True,
push_to_hub=False,
push_to_hub_model_id=None,
push_to_hub_organization=None,
push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
ray_scope=last,
ref_adapter_name=None,
ref_model_init_kwargs=None,
ref_model_mixup_alpha=0.9,
ref_model_sync_steps=64,
reference_free=False,
remove_unused_columns=False,
report_to=['wandb'],
require_explicit_ref_model=True,
restore_callback_states_from_checkpoint=False,
resume_from_checkpoint=None,
reuse_tokenized_dataset=True,
rpo_alpha=None,
run_name=qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948,
save_on_each_node=False,
save_only_model=False,
save_safetensors=True,
save_steps=200,
save_strategy=SaveStrategy.STEPS,
save_total_limit=2,
seed=42,
sft_weight=0.0,
skip_memory_metrics=True,
sync_ref_model=False,
tf32=None,
tokenization_batch_size=128,
tokenization_mode=online,
tokenized_dataset_cache_dir=/scratch/qu.yang1/tokenized_preferences,
torch_compile=False,
torch_compile_backend=None,
torch_compile_mode=None,
torch_empty_cache_steps=None,
torchdynamo=None,
tp_size=0,
tpu_metrics_debug=False,
tpu_num_cores=None,
trainer_type=margin_dpo,
truncation_mode=keep_end,
use_cpu=False,
use_ipex=False,
use_legacy_prediction_loop=False,
use_liger_kernel=False,
use_mps_device=False,
wandb_project=qwen3_hh_4xh200_beta_0.1,
warmup_ratio=0.1,
warmup_steps=0,
weight_decay=0.0,
)
2026-04-23 23:40:14 - INFO - __main__ - Using W&B project from training args: qwen3_hh_4xh200_beta_0.1
2026-04-23 23:40:14 - INFO - __main__ - Margin-DPO parameters: beta=0.1, f_divergence_type=reverse_kl, margin_log_steps=1
2026-04-23 23:40:14 - INFO - __main__ - Using persistent HF datasets cache at /scratch/qu.yang1/hf/datasets
2026-04-23 23:40:17 - WARNING - __main__ - Dropped 237 non-canonical HH preference examples from split `train` before normalization (126 x HH preprocessing expects exactly one final assistant response in chosen/rejected suffixes., 111 x HH chosen/rejected transcripts must each contain a divergent assistant response.).
Normalizing raw HH preferences (train):   0%|                                                                          | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   0%|                                                                          | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   0%|                                                                          | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   0%|                                                                          | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   3%|█▌                                                          | 1124/43598 [00:00<00:03, 11190.36 examples/s]Normalizing raw HH preferences (train):   3%|█▌                                                          | 1147/43598 [00:00<00:03, 11421.62 examples/s]Normalizing raw HH preferences (train):   3%|█▌                                                          | 1141/43598 [00:00<00:03, 11356.35 examples/s]Normalizing raw HH preferences (train):   3%|█▌                                                          | 1136/43598 [00:00<00:03, 11303.93 examples/s]Normalizing raw HH preferences (train):   6%|███▎                                                        | 2404/43598 [00:00<00:03, 12132.91 examples/s]Normalizing raw HH preferences (train):   6%|███▎                                                        | 2429/43598 [00:00<00:03, 12231.49 examples/s]Normalizing raw HH preferences (train):   6%|███▎                                                        | 2447/43598 [00:00<00:03, 12354.33 examples/s]Normalizing raw HH preferences (train):   6%|███▎                                                        | 2405/43598 [00:00<00:03, 12111.66 examples/s]Normalizing raw HH preferences (train):   9%|█████                                                       | 3707/43598 [00:00<00:03, 12518.02 examples/s]Normalizing raw HH preferences (train):   9%|█████▏                                                      | 3726/43598 [00:00<00:03, 12559.30 examples/s]Normalizing raw HH preferences (train):   9%|█████▏                                                      | 3742/43598 [00:00<00:03, 12621.82 examples/s]Normalizing raw HH preferences (train):   8%|█████                                                       | 3688/43598 [00:00<00:03, 12338.83 examples/s]Normalizing raw HH preferences (train):  11%|██████▊                                                     | 4982/43598 [00:00<00:03, 12605.89 examples/s]Normalizing raw HH preferences (train):  11%|██████▊                                                     | 4994/43598 [00:00<00:03, 12600.45 examples/s]Normalizing raw HH preferences (train):  11%|██████▊                                                     | 4929/43598 [00:00<00:03, 12361.36 examples/s]Normalizing raw HH preferences (train):  13%|███████▊                                                    | 5711/43598 [00:00<00:03, 12592.62 examples/s]Normalizing raw HH preferences (train):  15%|█████████▎                                                  | 6747/43598 [00:00<00:03, 12244.68 examples/s]Normalizing raw HH preferences (train):  16%|█████████▍                                                   | 6769/43598 [00:00<00:04, 8678.84 examples/s]Normalizing raw HH preferences (train):  16%|█████████▍                                                   | 6769/43598 [00:00<00:04, 8589.36 examples/s]Normalizing raw HH preferences (train):  17%|██████████▎                                                  | 7343/43598 [00:00<00:03, 9123.03 examples/s]Normalizing raw HH preferences (train):  18%|███████████▏                                                 | 8000/43598 [00:00<00:03, 9414.34 examples/s]Normalizing raw HH preferences (train):  18%|███████████▏                                                 | 8000/43598 [00:00<00:03, 9340.02 examples/s]Normalizing raw HH preferences (train):  18%|███████████▏                                                 | 8000/43598 [00:00<00:04, 8184.62 examples/s]Normalizing raw HH preferences (train):  20%|███████████▉                                                | 8695/43598 [00:00<00:03, 10017.04 examples/s]Normalizing raw HH preferences (train):  21%|████████████▊                                               | 9277/43598 [00:00<00:03, 10248.20 examples/s]Normalizing raw HH preferences (train):  21%|████████████▊                                                | 9191/43598 [00:00<00:03, 9975.54 examples/s]Normalizing raw HH preferences (train):  21%|████████████▉                                                | 9245/43598 [00:00<00:03, 9135.41 examples/s]Normalizing raw HH preferences (train):  23%|█████████████▋                                              | 9983/43598 [00:00<00:03, 10715.90 examples/s]Normalizing raw HH preferences (train):  24%|██████████████▎                                            | 10578/43598 [00:00<00:03, 10971.66 examples/s]Normalizing raw HH preferences (train):  24%|██████████████▏                                            | 10474/43598 [00:00<00:03, 10721.82 examples/s]Normalizing raw HH preferences (train):  24%|██████████████▍                                             | 10506/43598 [00:01<00:03, 9973.71 examples/s]Normalizing raw HH preferences (train):  26%|███████████████                                            | 11168/43598 [00:01<00:02, 11007.94 examples/s]Normalizing raw HH preferences (train):  27%|████████████████                                           | 11865/43598 [00:01<00:02, 11485.93 examples/s]Normalizing raw HH preferences (train):  27%|███████████████▉                                           | 11754/43598 [00:01<00:02, 11285.72 examples/s]Normalizing raw HH preferences (train):  27%|███████████████▉                                           | 11764/43598 [00:01<00:02, 10639.93 examples/s]Normalizing raw HH preferences (train):  29%|████████████████▊                                          | 12457/43598 [00:01<00:02, 11511.11 examples/s]Normalizing raw HH preferences (train):  30%|█████████████████▌                                         | 13000/43598 [00:01<00:02, 11456.82 examples/s]Normalizing raw HH preferences (train):  32%|██████████████████▌                                        | 13744/43598 [00:01<00:02, 11866.20 examples/s]Normalizing raw HH preferences (train):  30%|█████████████████▌                                         | 12959/43598 [00:01<00:02, 10990.23 examples/s]Normalizing raw HH preferences (train):  32%|██████████████████▌                                        | 13739/43598 [00:01<00:02, 11872.23 examples/s]Normalizing raw HH preferences (train):  33%|███████████████████▎                                       | 14270/43598 [00:01<00:02, 11806.45 examples/s]Normalizing raw HH preferences (train):  34%|████████████████████▎                                      | 15000/43598 [00:01<00:02, 11890.87 examples/s]Normalizing raw HH preferences (train):  34%|███████████████████▉                                       | 14778/43598 [00:01<00:02, 11400.38 examples/s]Normalizing raw HH preferences (train):  36%|█████████████████████                                      | 15564/43598 [00:01<00:02, 11978.28 examples/s]Normalizing raw HH preferences (train):  36%|█████████████████████                                      | 15526/43598 [00:01<00:02, 12021.34 examples/s]Normalizing raw HH preferences (train):  37%|██████████████████████                                     | 16291/43598 [00:01<00:02, 12161.68 examples/s]Normalizing raw HH preferences (train):  39%|██████████████████████▊                                    | 16861/43598 [00:01<00:02, 12236.48 examples/s]Normalizing raw HH preferences (train):  39%|██████████████████████▊                                    | 16817/43598 [00:01<00:02, 12278.81 examples/s]Normalizing raw HH preferences (train):  37%|█████████████████████▋                                     | 16000/43598 [00:01<00:02, 11485.09 examples/s]Normalizing raw HH preferences (train):  40%|███████████████████████▊                                   | 17571/43598 [00:01<00:02, 12336.01 examples/s]Normalizing raw HH preferences (train):  40%|███████████████████████▎                                   | 17250/43598 [00:01<00:02, 11753.03 examples/s]Normalizing raw HH preferences (train):  43%|█████████████████████████▌                                 | 18844/43598 [00:01<00:01, 12446.12 examples/s]Normalizing raw HH preferences (train):  43%|█████████████████████████▎                                 | 18718/43598 [00:01<00:02, 12285.39 examples/s]Normalizing raw HH preferences (train):  43%|█████████████████████████▎                                 | 18685/43598 [00:01<00:02, 12303.20 examples/s]Normalizing raw HH preferences (train):  42%|█████████████████████████                                  | 18483/43598 [00:01<00:02, 11911.59 examples/s]Normalizing raw HH preferences (train):  46%|███████████████████████████                                | 19994/43598 [00:01<00:01, 12404.54 examples/s]Normalizing raw HH preferences (train):  46%|███████████████████████████                                | 19967/43598 [00:01<00:01, 12437.93 examples/s]Normalizing raw HH preferences (train):  48%|████████████████████████████                               | 20731/43598 [00:01<00:01, 12494.42 examples/s]Normalizing raw HH preferences (train):  45%|██████████████████████████▋                                | 19740/43598 [00:01<00:01, 12093.19 examples/s]Normalizing raw HH preferences (train):  50%|█████████████████████████████▌                             | 21884/43598 [00:01<00:01, 12468.71 examples/s]Normalizing raw HH preferences (train):  48%|████████████████████████████▍                              | 20970/43598 [00:01<00:01, 12143.72 examples/s]Normalizing raw HH preferences (train):  50%|█████████████████████████████▊                             | 22000/43598 [00:01<00:01, 12350.68 examples/s]Normalizing raw HH preferences (train):  50%|█████████████████████████████▌                             | 21837/43598 [00:01<00:01, 12445.58 examples/s]Normalizing raw HH preferences (train):  53%|███████████████████████████████▌                           | 23294/43598 [00:02<00:01, 12507.22 examples/s]Normalizing raw HH preferences (train):  55%|████████████████████████████████▏                          | 23788/43598 [00:02<00:01, 12541.55 examples/s]Normalizing raw HH preferences (train):  52%|██████████████████████████████▊                            | 22805/43598 [00:02<00:01, 12173.91 examples/s]Normalizing raw HH preferences (train):  54%|████████████████████████████████                           | 23723/43598 [00:02<00:01, 12486.74 examples/s]Normalizing raw HH preferences (train):  56%|█████████████████████████████████▎                         | 24579/43598 [00:02<00:01, 12598.15 examples/s]Normalizing raw HH preferences (train):  59%|██████████████████████████████████▊                        | 25700/43598 [00:02<00:01, 12503.98 examples/s]Normalizing raw HH preferences (train):  59%|██████████████████████████████████▉                        | 25849/43598 [00:02<00:01, 12626.27 examples/s]Normalizing raw HH preferences (train):  59%|██████████████████████████████████▌                        | 25564/43598 [00:02<00:01, 12412.57 examples/s]Normalizing raw HH preferences (train):  57%|█████████████████████████████████▍                         | 24674/43598 [00:02<00:01, 12184.50 examples/s]Normalizing raw HH preferences (train):  62%|████████████████████████████████████▍                      | 26961/43598 [00:02<00:01, 12527.91 examples/s]Normalizing raw HH preferences (train):  62%|████████████████████████████████████▎                      | 26837/43598 [00:02<00:01, 12484.83 examples/s]Normalizing raw HH preferences (train):  59%|███████████████████████████████████                        | 25914/43598 [00:02<00:01, 12236.11 examples/s]Normalizing raw HH preferences (train):  64%|█████████████████████████████████████▍                     | 27699/43598 [00:02<00:01, 12512.23 examples/s]Normalizing raw HH preferences (train):  66%|███████████████████████████████████████                    | 28836/43598 [00:02<00:01, 12516.02 examples/s]Normalizing raw HH preferences (train):  66%|███████████████████████████████████████▏                   | 28989/43598 [00:02<00:01, 12611.71 examples/s]Normalizing raw HH preferences (train):  66%|██████████████████████████████████████▊                    | 28703/43598 [00:02<00:01, 12451.64 examples/s]Normalizing raw HH preferences (train):  64%|█████████████████████████████████████▌                     | 27723/43598 [00:02<00:01, 12172.04 examples/s]Normalizing raw HH preferences (train):  69%|████████████████████████████████████████▌                  | 29979/43598 [00:02<00:01, 12523.30 examples/s]Normalizing raw HH preferences (train):  66%|███████████████████████████████████████▏                   | 28976/43598 [00:02<00:01, 12256.96 examples/s]Normalizing raw HH preferences (train):  71%|█████████████████████████████████████████▌                 | 30739/43598 [00:02<00:01, 12568.86 examples/s]Normalizing raw HH preferences (train):  71%|█████████████████████████████████████████▊                 | 30894/43598 [00:02<00:01, 12637.56 examples/s]Normalizing raw HH preferences (train):  73%|███████████████████████████████████████████                | 31851/43598 [00:02<00:00, 12506.26 examples/s]Normalizing raw HH preferences (train):  71%|█████████████████████████████████████████▋                 | 30827/43598 [00:02<00:01, 12282.35 examples/s]Normalizing raw HH preferences (train):  73%|███████████████████████████████████████████▎               | 32000/43598 [00:02<00:00, 12418.16 examples/s]Normalizing raw HH preferences (train):  75%|████████████████████████████████████████████▎              | 32789/43598 [00:02<00:00, 12631.90 examples/s]Normalizing raw HH preferences (train):  76%|█████████████████████████████████████████████              | 33285/43598 [00:02<00:00, 12523.25 examples/s]Normalizing raw HH preferences (train):  77%|█████████████████████████████████████████████▌             | 33714/43598 [00:02<00:00, 12476.65 examples/s]Normalizing raw HH preferences (train):  75%|████████████████████████████████████████████▏              | 32687/43598 [00:02<00:00, 12253.54 examples/s]Normalizing raw HH preferences (train):  80%|██████████████████████████████████████████████▉            | 34710/43598 [00:02<00:00, 12586.07 examples/s]Normalizing raw HH preferences (train):  79%|██████████████████████████████████████████████▊            | 34571/43598 [00:02<00:00, 12608.40 examples/s]Normalizing raw HH preferences (train):  80%|███████████████████████████████████████████████▎           | 34986/43598 [00:02<00:00, 12531.52 examples/s]Normalizing raw HH preferences (train):  78%|█████████████████████████████████████████████▉             | 33915/43598 [00:02<00:00, 12258.48 examples/s]Normalizing raw HH preferences (train):  82%|████████████████████████████████████████████████▍          | 35836/43598 [00:02<00:00, 12617.79 examples/s]Normalizing raw HH preferences (train):  84%|█████████████████████████████████████████████████▍         | 36563/43598 [00:03<00:00, 12510.30 examples/s]Normalizing raw HH preferences (train):  84%|█████████████████████████████████████████████████▊         | 36825/43598 [00:03<00:00, 12436.44 examples/s]Normalizing raw HH preferences (train):  82%|████████████████████████████████████████████████▎          | 35732/43598 [00:03<00:00, 12206.93 examples/s]Normalizing raw HH preferences (train):  87%|███████████████████████████████████████████████████▏       | 37843/43598 [00:03<00:00, 12575.89 examples/s]Normalizing raw HH preferences (train):  86%|███████████████████████████████████████████████████        | 37701/43598 [00:03<00:00, 12544.17 examples/s]Normalizing raw HH preferences (train):  85%|██████████████████████████████████████████████████         | 36962/43598 [00:03<00:00, 12229.01 examples/s]Normalizing raw HH preferences (train):  89%|████████████████████████████████████████████████████▎      | 38699/43598 [00:03<00:00, 12387.63 examples/s]Normalizing raw HH preferences (train):  89%|████████████████████████████████████████████████████▋      | 38966/43598 [00:03<00:00, 12567.52 examples/s]Normalizing raw HH preferences (train):  91%|█████████████████████████████████████████████████████▋     | 39705/43598 [00:03<00:00, 12516.27 examples/s]Normalizing raw HH preferences (train):  92%|██████████████████████████████████████████████████████     | 39959/43598 [00:03<00:00, 12433.82 examples/s]Normalizing raw HH preferences (train):  89%|████████████████████████████████████████████████████▍      | 38779/43598 [00:03<00:00, 12185.05 examples/s]Normalizing raw HH preferences (train):  94%|███████████████████████████████████████████████████████▍   | 40980/43598 [00:03<00:00, 12571.41 examples/s]Normalizing raw HH preferences (train):  94%|███████████████████████████████████████████████████████▎   | 40836/43598 [00:03<00:00, 12528.90 examples/s]Normalizing raw HH preferences (train):  96%|████████████████████████████████████████████████████████▌  | 41823/43598 [00:03<00:00, 12431.03 examples/s]Normalizing raw HH preferences (train):  93%|██████████████████████████████████████████████████████▉    | 40569/43598 [00:03<00:00, 12099.02 examples/s]Normalizing raw HH preferences (train):  98%|█████████████████████████████████████████████████████████▉ | 42858/43598 [00:03<00:00, 12549.82 examples/s]Normalizing raw HH preferences (train):  98%|█████████████████████████████████████████████████████████▊ | 42714/43598 [00:03<00:00, 12523.58 examples/s]Normalizing raw HH preferences (train):  96%|████████████████████████████████████████████████████████▌  | 41818/43598 [00:03<00:00, 12191.25 examples/s]Normalizing raw HH preferences (train):  99%|███████████████████████████████████████████████████████████▎| 43083/43598 [00:03<00:00, 8786.31 examples/s]Normalizing raw HH preferences (train):  99%|███████████████████████████████████████████████████████████▎| 43083/43598 [00:03<00:00, 8732.21 examples/s]Normalizing raw HH preferences (train): 100%|███████████████████████████████████████████████████████████| 43598/43598 [00:04<00:00, 10864.79 examples/s]
Normalizing raw HH preferences (train): 100%|███████████████████████████████████████████████████████████| 43598/43598 [00:04<00:00, 10740.18 examples/s]
Normalizing raw HH preferences (train): 100%|███████████████████████████████████████████████████████████| 43598/43598 [00:04<00:00, 10744.84 examples/s]
Normalizing raw HH preferences (train): 100%|███████████████████████████████████████████████████████████| 43598/43598 [00:04<00:00, 10738.81 examples/s]
2026-04-23 23:40:21 - WARNING - __main__ - Dropped 15 non-canonical HH preference examples from split `test` before normalization (9 x HH preprocessing expects exactly one final assistant response in chosen/rejected suffixes., 6 x HH chosen/rejected transcripts must each contain a divergent assistant response.).
Normalizing raw HH preferences (test):   0%|                                                                            | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test):   0%|                                                                            | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test):   0%|                                                                            | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test):  50%|███████████████████████████████▏                              | 1175/2339 [00:00<00:00, 11702.88 examples/s]Normalizing raw HH preferences (test):  49%|██████████████████████████████                                | 1135/2339 [00:00<00:00, 11296.95 examples/s]Normalizing raw HH preferences (test):   0%|                                                                            | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test):  37%|███████████████████████▌                                        | 859/2339 [00:00<00:00, 8526.28 examples/s]Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 11168.23 examples/s]Normalizing raw HH preferences (test):  37%|███████████████████████▍                                        | 855/2339 [00:00<00:00, 8495.18 examples/s]Normalizing raw HH preferences (test): 100%|███████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 9677.05 examples/s]
Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 10209.94 examples/s]
2026-04-23 23:40:21 - INFO - __main__ - Training on the following splits: ['train : 43598', 'test : 2339']
[INFO|tokenization_utils_base.py:2058] 2026-04-23 23:40:21,939 >> loading file vocab.json
[INFO|tokenization_utils_base.py:2058] 2026-04-23 23:40:21,939 >> loading file merges.txt
[INFO|tokenization_utils_base.py:2058] 2026-04-23 23:40:21,939 >> loading file tokenizer.json
[INFO|tokenization_utils_base.py:2058] 2026-04-23 23:40:21,939 >> loading file added_tokens.json
[INFO|tokenization_utils_base.py:2058] 2026-04-23 23:40:21,939 >> loading file special_tokens_map.json
[INFO|tokenization_utils_base.py:2058] 2026-04-23 23:40:21,939 >> loading file tokenizer_config.json
[INFO|tokenization_utils_base.py:2058] 2026-04-23 23:40:21,939 >> loading file chat_template.jinja
Normalizing raw HH preferences (test):  76%|███████████████████████████████████████████████▊               | 1774/2339 [00:00<00:00, 8894.52 examples/s]Normalizing raw HH preferences (test):  91%|█████████████████████████████████████████████████████████▍     | 2131/2339 [00:00<00:00, 8487.80 examples/s]Normalizing raw HH preferences (test): 100%|███████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 8055.23 examples/s]
Normalizing raw HH preferences (test): 100%|███████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 8438.50 examples/s]
[INFO|tokenization_utils_base.py:2323] 2026-04-23 23:40:22,270 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Formatting comparisons with prompt template (num_proc=12):   0%|                                                       | 0/43598 [00:00<?, ? examples/s]Formatting comparisons with prompt template (num_proc=12):   0%|                                                       | 0/43598 [00:00<?, ? examples/s]Formatting comparisons with prompt template (num_proc=12):   0%|                                                       | 0/43598 [00:00<?, ? examples/s]Formatting comparisons with prompt template (num_proc=12):   0%|                                                       | 0/43598 [00:00<?, ? examples/s]Formatting comparisons with prompt template (num_proc=12):   0%|                                              | 17/43598 [00:00<28:41, 25.32 examples/s]Formatting comparisons with prompt template (num_proc=12):   1%|▎                                           | 332/43598 [00:00<01:20, 535.21 examples/s]Formatting comparisons with prompt template (num_proc=12):   0%|                                              | 30/43598 [00:00<20:44, 35.01 examples/s]Formatting comparisons with prompt template (num_proc=12):   0%|                                              | 40/43598 [00:00<16:37, 43.66 examples/s]Formatting comparisons with prompt template (num_proc=12):   0%|                                              | 29/43598 [00:00<23:49, 30.48 examples/s]Formatting comparisons with prompt template (num_proc=12):   1%|▋                                           | 620/43598 [00:01<00:52, 812.59 examples/s]Formatting comparisons with prompt template (num_proc=12):   2%|▊                                           | 856/43598 [00:01<00:46, 927.26 examples/s]Formatting comparisons with prompt template (num_proc=12):   2%|▉                                          | 948/43598 [00:01<00:39, 1069.71 examples/s]Formatting comparisons with prompt template (num_proc=12):   2%|▊                                           | 836/43598 [00:01<00:49, 872.04 examples/s]Formatting comparisons with prompt template (num_proc=12):   3%|█                                         | 1124/43598 [00:01<00:38, 1107.80 examples/s]Formatting comparisons with prompt template (num_proc=12):   4%|█▌                                        | 1630/43598 [00:01<00:24, 1719.67 examples/s]Formatting comparisons with prompt template (num_proc=12):   4%|█▋                                        | 1816/43598 [00:01<00:26, 1559.80 examples/s]Formatting comparisons with prompt template (num_proc=12):   5%|██                                        | 2170/43598 [00:01<00:21, 1918.87 examples/s]Formatting comparisons with prompt template (num_proc=12):   6%|██▎                                       | 2402/43598 [00:01<00:17, 2361.67 examples/s]Formatting comparisons with prompt template (num_proc=12):   6%|██▋                                       | 2783/43598 [00:01<00:16, 2453.58 examples/s]Formatting comparisons with prompt template (num_proc=12):   8%|███▎                                      | 3426/43598 [00:01<00:15, 2650.18 examples/s]Formatting comparisons with prompt template (num_proc=12):   7%|██▊                                       | 2878/43598 [00:01<00:20, 2030.67 examples/s]Formatting comparisons with prompt template (num_proc=12):   9%|███▊                                      | 3925/43598 [00:01<00:13, 2894.28 examples/s]Formatting comparisons with prompt template (num_proc=12):   8%|███▏                                      | 3315/43598 [00:01<00:15, 2558.32 examples/s]Formatting comparisons with prompt template (num_proc=12):  10%|████▏                                     | 4331/43598 [00:02<00:14, 2647.38 examples/s]Formatting comparisons with prompt template (num_proc=12):  11%|████▋                                     | 4905/43598 [00:02<00:13, 2880.18 examples/s]Formatting comparisons with prompt template (num_proc=12):  11%|████▌                                     | 4799/43598 [00:02<00:11, 3294.15 examples/s]Formatting comparisons with prompt template (num_proc=12):  10%|████▏                                     | 4387/43598 [00:02<00:15, 2547.03 examples/s]Formatting comparisons with prompt template (num_proc=12):  16%|██████▌                                   | 6850/43598 [00:02<00:06, 5676.57 examples/s]Formatting comparisons with prompt template (num_proc=12):  13%|█████▍                                    | 5587/43598 [00:02<00:12, 3106.73 examples/s]Formatting comparisons with prompt template (num_proc=12):  18%|███████▍                                  | 7726/43598 [00:02<00:06, 5677.07 examples/s]Formatting comparisons with prompt template (num_proc=12):  14%|██████                                    | 6236/43598 [00:02<00:12, 3027.04 examples/s]Formatting comparisons with prompt template (num_proc=12):  20%|████████▏                                 | 8523/43598 [00:02<00:06, 5657.28 examples/s]Formatting comparisons with prompt template (num_proc=12):  15%|██████▎                                   | 6525/43598 [00:02<00:10, 3450.62 examples/s]Formatting comparisons with prompt template (num_proc=12):  16%|██████▊                                   | 7030/43598 [00:02<00:10, 3599.47 examples/s]Formatting comparisons with prompt template (num_proc=12):  21%|████████▉                                 | 9254/43598 [00:02<00:05, 5768.58 examples/s]Formatting comparisons with prompt template (num_proc=12):  20%|████████▎                                 | 8679/43598 [00:02<00:06, 5112.63 examples/s]Formatting comparisons with prompt template (num_proc=12):  23%|█████████▌                                | 9933/43598 [00:02<00:05, 5884.88 examples/s]Formatting comparisons with prompt template (num_proc=12):  22%|█████████                                 | 9417/43598 [00:02<00:06, 5185.98 examples/s]Formatting comparisons with prompt template (num_proc=12):  24%|█████████▉                               | 10604/43598 [00:03<00:05, 5817.88 examples/s]Formatting comparisons with prompt template (num_proc=12):  18%|███████▋                                  | 8022/43598 [00:03<00:10, 3474.37 examples/s]Formatting comparisons with prompt template (num_proc=12):  26%|██████████▌                              | 11242/43598 [00:03<00:05, 5925.07 examples/s]Formatting comparisons with prompt template (num_proc=12):  23%|█████████▌                               | 10116/43598 [00:03<00:06, 5048.07 examples/s]Formatting comparisons with prompt template (num_proc=12):  19%|████████▏                                 | 8482/43598 [00:03<00:09, 3799.96 examples/s]Formatting comparisons with prompt template (num_proc=12):  24%|█████████▋                               | 10353/43598 [00:03<00:05, 5552.34 examples/s]Formatting comparisons with prompt template (num_proc=12):  27%|███████████▏                             | 11883/43598 [00:03<00:05, 5798.96 examples/s]Formatting comparisons with prompt template (num_proc=12):  26%|██████████▌                              | 11276/43598 [00:03<00:05, 6134.88 examples/s]Formatting comparisons with prompt template (num_proc=12):  25%|██████████                               | 10732/43598 [00:03<00:06, 4941.20 examples/s]Formatting comparisons with prompt template (num_proc=12):  29%|███████████▊                             | 12574/43598 [00:03<00:05, 5884.94 examples/s]Formatting comparisons with prompt template (num_proc=12):  26%|██████████▋                              | 11352/43598 [00:03<00:06, 5313.64 examples/s]Formatting comparisons with prompt template (num_proc=12):  26%|██████████▋                              | 11328/43598 [00:03<00:06, 5043.00 examples/s]Formatting comparisons with prompt template (num_proc=12):  31%|████████████▌                            | 13322/43598 [00:03<00:04, 6301.54 examples/s]Formatting comparisons with prompt template (num_proc=12):  28%|███████████▋                             | 12386/43598 [00:03<00:05, 6074.52 examples/s]Formatting comparisons with prompt template (num_proc=12):  27%|███████████▏                             | 11908/43598 [00:03<00:06, 5032.88 examples/s]Formatting comparisons with prompt template (num_proc=12):  32%|█████████████▏                           | 13979/43598 [00:03<00:04, 6346.24 examples/s]Formatting comparisons with prompt template (num_proc=12):  28%|███████████▍                             | 12176/43598 [00:03<00:05, 5281.63 examples/s]Formatting comparisons with prompt template (num_proc=12):  31%|████████████▌                            | 13335/43598 [00:03<00:05, 6021.24 examples/s]Formatting comparisons with prompt template (num_proc=12):  29%|███████████▋                             | 12486/43598 [00:03<00:06, 4917.57 examples/s]Formatting comparisons with prompt template (num_proc=12):  34%|█████████████▊                           | 14706/43598 [00:03<00:04, 6436.65 examples/s]Formatting comparisons with prompt template (num_proc=12):  30%|████████████▏                            | 12913/43598 [00:03<00:05, 5451.83 examples/s]Formatting comparisons with prompt template (num_proc=12):  30%|████████████▎                            | 13113/43598 [00:03<00:05, 5194.73 examples/s]Formatting comparisons with prompt template (num_proc=12):  33%|█████████████▎                           | 14183/43598 [00:03<00:04, 6262.53 examples/s]Formatting comparisons with prompt template (num_proc=12):  35%|██████████████▍                          | 15366/43598 [00:03<00:04, 6460.66 examples/s]Formatting comparisons with prompt template (num_proc=12):  31%|████████████▊                            | 13605/43598 [00:03<00:05, 5611.78 examples/s]Formatting comparisons with prompt template (num_proc=12):  32%|████████████▉                            | 13765/43598 [00:03<00:05, 5521.28 examples/s]Formatting comparisons with prompt template (num_proc=12):  37%|███████████████▏                         | 16172/43598 [00:03<00:03, 6893.92 examples/s]Formatting comparisons with prompt template (num_proc=12):  34%|██████████████                           | 15003/43598 [00:03<00:04, 6456.60 examples/s]Formatting comparisons with prompt template (num_proc=12):  33%|█████████████▍                           | 14284/43598 [00:03<00:05, 5582.49 examples/s]Formatting comparisons with prompt template (num_proc=12):  33%|█████████████▌                           | 14366/43598 [00:03<00:05, 5623.12 examples/s]Formatting comparisons with prompt template (num_proc=12):  39%|███████████████▉                         | 16966/43598 [00:03<00:03, 6989.07 examples/s]Formatting comparisons with prompt template (num_proc=12):  36%|██████████████▊                          | 15797/43598 [00:03<00:04, 6667.00 examples/s]Formatting comparisons with prompt template (num_proc=12):  34%|██████████████                           | 14941/43598 [00:03<00:04, 5790.02 examples/s]Formatting comparisons with prompt template (num_proc=12):  34%|██████████████                           | 14978/43598 [00:04<00:04, 5739.80 examples/s]Formatting comparisons with prompt template (num_proc=12):  41%|████████████████▊                        | 17813/43598 [00:04<00:03, 7242.30 examples/s]Formatting comparisons with prompt template (num_proc=12):  38%|███████████████▌                         | 16581/43598 [00:04<00:03, 6815.64 examples/s]Formatting comparisons with prompt template (num_proc=12):  36%|██████████████▋                          | 15664/43598 [00:04<00:04, 6007.33 examples/s]Formatting comparisons with prompt template (num_proc=12):  36%|██████████████▋                          | 15604/43598 [00:04<00:04, 5871.87 examples/s]Formatting comparisons with prompt template (num_proc=12):  43%|█████████████████▌                       | 18617/43598 [00:04<00:03, 7381.03 examples/s]Formatting comparisons with prompt template (num_proc=12):  40%|████████████████▎                        | 17350/43598 [00:04<00:03, 6904.56 examples/s]Formatting comparisons with prompt template (num_proc=12):  38%|███████████████▌                         | 16517/43598 [00:04<00:04, 6517.34 examples/s]Formatting comparisons with prompt template (num_proc=12):  37%|███████████████▎                         | 16217/43598 [00:04<00:04, 5888.23 examples/s]Formatting comparisons with prompt template (num_proc=12):  45%|██████████████████▎                      | 19465/43598 [00:04<00:03, 7403.51 examples/s]Formatting comparisons with prompt template (num_proc=12):  42%|█████████████████                        | 18105/43598 [00:04<00:03, 6913.46 examples/s]Formatting comparisons with prompt template (num_proc=12):  40%|████████████████▎                        | 17386/43598 [00:04<00:03, 6884.89 examples/s]Formatting comparisons with prompt template (num_proc=12):  39%|███████████████▉                         | 16959/43598 [00:04<00:04, 6319.10 examples/s]Formatting comparisons with prompt template (num_proc=12):  46%|███████████████████                      | 20257/43598 [00:04<00:03, 7486.76 examples/s]Formatting comparisons with prompt template (num_proc=12):  43%|█████████████████▋                       | 18847/43598 [00:04<00:03, 6786.53 examples/s]Formatting comparisons with prompt template (num_proc=12):  42%|█████████████████                        | 18192/43598 [00:04<00:03, 7078.82 examples/s]Formatting comparisons with prompt template (num_proc=12):  40%|████████████████▌                        | 17626/43598 [00:04<00:04, 6320.25 examples/s]Formatting comparisons with prompt template (num_proc=12):  48%|███████████████████▊                     | 21043/43598 [00:04<00:02, 7530.72 examples/s]Formatting comparisons with prompt template (num_proc=12):  45%|██████████████████▍                      | 19556/43598 [00:04<00:03, 6795.67 examples/s]Formatting comparisons with prompt template (num_proc=12):  44%|█████████████████▉                       | 19039/43598 [00:04<00:03, 7310.90 examples/s]Formatting comparisons with prompt template (num_proc=12):  42%|█████████████████▎                       | 18352/43598 [00:04<00:03, 6475.75 examples/s]Formatting comparisons with prompt template (num_proc=12):  50%|████████████████████▌                    | 21866/43598 [00:04<00:02, 7665.22 examples/s]Formatting comparisons with prompt template (num_proc=12):  47%|███████████████████▏                     | 20340/43598 [00:04<00:03, 7015.11 examples/s]Formatting comparisons with prompt template (num_proc=12):  46%|██████████████████▋                      | 19902/43598 [00:04<00:03, 7611.72 examples/s]Formatting comparisons with prompt template (num_proc=12):  44%|█████████████████▉                       | 19103/43598 [00:04<00:03, 6772.15 examples/s]Formatting comparisons with prompt template (num_proc=12):  52%|█████████████████████▎                   | 22655/43598 [00:04<00:02, 7609.83 examples/s]Formatting comparisons with prompt template (num_proc=12):  48%|███████████████████▊                     | 21098/43598 [00:04<00:03, 6909.15 examples/s]Formatting comparisons with prompt template (num_proc=12):  47%|███████████████████▍                     | 20684/43598 [00:04<00:03, 7344.15 examples/s]Formatting comparisons with prompt template (num_proc=12):  45%|██████████████████▌                      | 19805/43598 [00:04<00:03, 6663.46 examples/s]Formatting comparisons with prompt template (num_proc=12):  54%|██████████████████████▏                  | 23607/43598 [00:04<00:02, 7987.24 examples/s]Formatting comparisons with prompt template (num_proc=12):  50%|████████████████████▌                    | 21910/43598 [00:04<00:03, 7215.49 examples/s]Formatting comparisons with prompt template (num_proc=12):  49%|████████████████████▏                    | 21440/43598 [00:04<00:03, 7150.28 examples/s]Formatting comparisons with prompt template (num_proc=12):  47%|███████████████████▎                     | 20538/43598 [00:04<00:03, 6843.19 examples/s]Formatting comparisons with prompt template (num_proc=12):  56%|███████████████████████                  | 24524/43598 [00:04<00:02, 8236.06 examples/s]Formatting comparisons with prompt template (num_proc=12):  52%|█████████████████████▎                   | 22666/43598 [00:04<00:02, 7280.22 examples/s]Formatting comparisons with prompt template (num_proc=12):  51%|████████████████████▊                    | 22183/43598 [00:04<00:02, 7145.30 examples/s]Formatting comparisons with prompt template (num_proc=12):  49%|████████████████████                     | 21326/43598 [00:04<00:03, 7064.66 examples/s]Formatting comparisons with prompt template (num_proc=12):  58%|███████████████████████▉                 | 25388/43598 [00:05<00:02, 8327.88 examples/s]Formatting comparisons with prompt template (num_proc=12):  54%|██████████████████████                   | 23440/43598 [00:05<00:02, 7380.38 examples/s]Formatting comparisons with prompt template (num_proc=12):  51%|████████████████████▋                    | 22058/43598 [00:05<00:03, 6889.06 examples/s]Formatting comparisons with prompt template (num_proc=12):  53%|█████████████████████▌                   | 22936/43598 [00:05<00:02, 6944.14 examples/s]Formatting comparisons with prompt template (num_proc=12):  60%|████████████████████████▊                | 26335/43598 [00:05<00:01, 8637.21 examples/s]Formatting comparisons with prompt template (num_proc=12):  56%|██████████████████████▊                  | 24288/43598 [00:05<00:02, 7598.92 examples/s]Formatting comparisons with prompt template (num_proc=12):  52%|█████████████████████▍                   | 22786/43598 [00:05<00:02, 6955.55 examples/s]Formatting comparisons with prompt template (num_proc=12):  54%|██████████████████████▎                  | 23666/43598 [00:05<00:02, 6954.47 examples/s]Formatting comparisons with prompt template (num_proc=12):  62%|█████████████████████████▌               | 27234/43598 [00:05<00:01, 8394.90 examples/s]Formatting comparisons with prompt template (num_proc=12):  58%|███████████████████████▋                 | 25227/43598 [00:05<00:02, 8109.37 examples/s]Formatting comparisons with prompt template (num_proc=12):  56%|██████████████████████▉                  | 24449/43598 [00:05<00:02, 7126.87 examples/s]Formatting comparisons with prompt template (num_proc=12):  54%|██████████████████████                   | 23507/43598 [00:05<00:02, 6872.66 examples/s]Formatting comparisons with prompt template (num_proc=12):  64%|██████████████████████████▍              | 28086/43598 [00:05<00:01, 8288.74 examples/s]Formatting comparisons with prompt template (num_proc=12):  60%|████████████████████████▍                | 26052/43598 [00:05<00:02, 7771.53 examples/s]Formatting comparisons with prompt template (num_proc=12):  56%|██████████████████████▊                  | 24301/43598 [00:05<00:02, 7094.44 examples/s]Formatting comparisons with prompt template (num_proc=12):  58%|███████████████████████▋                 | 25179/43598 [00:05<00:02, 7019.60 examples/s]Formatting comparisons with prompt template (num_proc=12):  66%|███████████████████████████▏             | 28923/43598 [00:05<00:01, 7982.18 examples/s]Formatting comparisons with prompt template (num_proc=12):  62%|█████████████████████████▎               | 26925/43598 [00:05<00:02, 8020.21 examples/s]Formatting comparisons with prompt template (num_proc=12):  59%|████████████████████████▎                | 25917/43598 [00:05<00:02, 7027.24 examples/s]Formatting comparisons with prompt template (num_proc=12):  57%|███████████████████████▌                 | 25033/43598 [00:05<00:02, 6932.20 examples/s]Formatting comparisons with prompt template (num_proc=12):  64%|██████████████████████████               | 27777/43598 [00:05<00:01, 8074.93 examples/s]Formatting comparisons with prompt template (num_proc=12):  68%|███████████████████████████▉             | 29745/43598 [00:05<00:01, 7789.33 examples/s]Formatting comparisons with prompt template (num_proc=12):  61%|█████████████████████████                | 26656/43598 [00:05<00:02, 7102.21 examples/s]Formatting comparisons with prompt template (num_proc=12):  59%|████████████████████████▏                | 25736/43598 [00:05<00:02, 6683.75 examples/s]Formatting comparisons with prompt template (num_proc=12):  66%|██████████████████████████▉              | 28602/43598 [00:05<00:01, 7936.01 examples/s]Formatting comparisons with prompt template (num_proc=12):  70%|████████████████████████████▊            | 30631/43598 [00:05<00:01, 8005.09 examples/s]Formatting comparisons with prompt template (num_proc=12):  63%|█████████████████████████▋               | 27377/43598 [00:05<00:02, 6817.13 examples/s]Formatting comparisons with prompt template (num_proc=12):  61%|████████████████████████▉                | 26502/43598 [00:05<00:02, 6897.61 examples/s]Formatting comparisons with prompt template (num_proc=12):  72%|█████████████████████████████▌           | 31436/43598 [00:05<00:01, 7898.47 examples/s]Formatting comparisons with prompt template (num_proc=12):  68%|███████████████████████████▋             | 29429/43598 [00:05<00:01, 7731.65 examples/s]Formatting comparisons with prompt template (num_proc=12):  64%|██████████████████████████▍              | 28066/43598 [00:05<00:02, 6801.20 examples/s]Formatting comparisons with prompt template (num_proc=12):  63%|█████████████████████████▋               | 27342/43598 [00:05<00:02, 7291.25 examples/s]Formatting comparisons with prompt template (num_proc=12):  74%|██████████████████████████████▍          | 32380/43598 [00:05<00:01, 8239.08 examples/s]Formatting comparisons with prompt template (num_proc=12):  69%|████████████████████████████▍            | 30252/43598 [00:05<00:01, 7509.12 examples/s]Formatting comparisons with prompt template (num_proc=12):  65%|██████████████████████████▌              | 28256/43598 [00:05<00:01, 7780.03 examples/s]Formatting comparisons with prompt template (num_proc=12):  66%|███████████████████████████              | 28767/43598 [00:05<00:02, 6580.46 examples/s]Formatting comparisons with prompt template (num_proc=12):  76%|███████████████████████████████▎         | 33294/43598 [00:06<00:01, 8471.56 examples/s]Formatting comparisons with prompt template (num_proc=12):  71%|█████████████████████████████▏           | 31039/43598 [00:06<00:01, 7263.76 examples/s]Formatting comparisons with prompt template (num_proc=12):  67%|███████████████████████████▍             | 29155/43598 [00:06<00:01, 7939.08 examples/s]Formatting comparisons with prompt template (num_proc=12):  68%|███████████████████████████▋             | 29429/43598 [00:06<00:02, 6464.07 examples/s]Formatting comparisons with prompt template (num_proc=12):  79%|████████████████████████████████▎        | 34301/43598 [00:06<00:01, 8799.57 examples/s]Formatting comparisons with prompt template (num_proc=12):  73%|█████████████████████████████▉           | 31810/43598 [00:06<00:01, 7203.08 examples/s]Formatting comparisons with prompt template (num_proc=12):  69%|████████████████████████████▏            | 29974/43598 [00:06<00:01, 7724.88 examples/s]Formatting comparisons with prompt template (num_proc=12):  69%|████████████████████████████▎            | 30100/43598 [00:06<00:02, 6341.51 examples/s]Formatting comparisons with prompt template (num_proc=12):  81%|█████████████████████████████████▏       | 35267/43598 [00:06<00:00, 8990.27 examples/s]Formatting comparisons with prompt template (num_proc=12):  75%|██████████████████████████████▋          | 32631/43598 [00:06<00:01, 7474.54 examples/s]Formatting comparisons with prompt template (num_proc=12):  71%|████████████████████████████▉            | 30761/43598 [00:06<00:01, 7641.77 examples/s]Formatting comparisons with prompt template (num_proc=12):  71%|████████████████████████████▉            | 30780/43598 [00:06<00:02, 6400.97 examples/s]Formatting comparisons with prompt template (num_proc=12):  83%|██████████████████████████████████▏      | 36330/43598 [00:06<00:00, 9386.87 examples/s]Formatting comparisons with prompt template (num_proc=12):  77%|███████████████████████████████▍         | 33417/43598 [00:06<00:01, 7096.98 examples/s]Formatting comparisons with prompt template (num_proc=12):  72%|█████████████████████████████▋           | 31562/43598 [00:06<00:01, 7582.48 examples/s]Formatting comparisons with prompt template (num_proc=12):  72%|█████████████████████████████▌           | 31449/43598 [00:06<00:01, 6390.72 examples/s]Formatting comparisons with prompt template (num_proc=12):  86%|███████████████████████████████████▏     | 37366/43598 [00:06<00:00, 9663.33 examples/s]Formatting comparisons with prompt template (num_proc=12):  78%|████████████████████████████████▏        | 34199/43598 [00:06<00:01, 6960.63 examples/s]Formatting comparisons with prompt template (num_proc=12):  74%|██████████████████████████████▍          | 32352/43598 [00:06<00:01, 7659.98 examples/s]Formatting comparisons with prompt template (num_proc=12):  74%|██████████████████████████████▏          | 32098/43598 [00:06<00:01, 6369.23 examples/s]Formatting comparisons with prompt template (num_proc=12):  88%|████████████████████████████████████▏    | 38439/43598 [00:06<00:00, 9926.24 examples/s]Formatting comparisons with prompt template (num_proc=12):  80%|████████████████████████████████▊        | 34930/43598 [00:06<00:01, 6781.07 examples/s]Formatting comparisons with prompt template (num_proc=12):  75%|██████████████████████████████▊          | 32759/43598 [00:06<00:01, 6411.83 examples/s]Formatting comparisons with prompt template (num_proc=12):  76%|███████████████████████████████▏         | 33141/43598 [00:06<00:01, 7498.40 examples/s]Formatting comparisons with prompt template (num_proc=12):  90%|█████████████████████████████████████    | 39437/43598 [00:06<00:00, 8628.98 examples/s]Formatting comparisons with prompt template (num_proc=12):  82%|█████████████████████████████████▌       | 35755/43598 [00:06<00:01, 7088.59 examples/s]Formatting comparisons with prompt template (num_proc=12):  78%|███████████████████████████████▉         | 33916/43598 [00:06<00:01, 7455.26 examples/s]Formatting comparisons with prompt template (num_proc=12):  77%|███████████████████████████████▌         | 33593/43598 [00:06<00:01, 6547.91 examples/s]Formatting comparisons with prompt template (num_proc=12):  84%|██████████████████████████████████▎      | 36499/43598 [00:06<00:00, 7141.05 examples/s]Formatting comparisons with prompt template (num_proc=12):  80%|████████████████████████████████▊        | 34866/43598 [00:06<00:01, 7974.72 examples/s]Formatting comparisons with prompt template (num_proc=12):  93%|█████████████████████████████████████▉   | 40384/43598 [00:06<00:00, 7721.23 examples/s]Formatting comparisons with prompt template (num_proc=12):  79%|████████████████████████████████▌        | 34575/43598 [00:06<00:01, 7340.53 examples/s]Formatting comparisons with prompt template (num_proc=12):  85%|███████████████████████████████████      | 37231/43598 [00:06<00:00, 7184.25 examples/s]Formatting comparisons with prompt template (num_proc=12):  82%|█████████████████████████████████▋       | 35867/43598 [00:06<00:00, 8550.02 examples/s]Formatting comparisons with prompt template (num_proc=12):  82%|█████████████████████████████████▍       | 35579/43598 [00:06<00:00, 8094.49 examples/s]Formatting comparisons with prompt template (num_proc=12):  84%|██████████████████████████████████▌      | 36765/43598 [00:06<00:00, 8656.61 examples/s]Formatting comparisons with prompt template (num_proc=12):  87%|███████████████████████████████████▊     | 38017/43598 [00:07<00:00, 7127.69 examples/s]Formatting comparisons with prompt template (num_proc=12):  95%|██████████████████████████████████████▊  | 41247/43598 [00:07<00:00, 6238.23 examples/s]Formatting comparisons with prompt template (num_proc=12):  84%|██████████████████████████████████▌      | 36688/43598 [00:06<00:00, 8943.00 examples/s]Formatting comparisons with prompt template (num_proc=12):  87%|███████████████████████████████████▌     | 37777/43598 [00:07<00:00, 9072.55 examples/s]Formatting comparisons with prompt template (num_proc=12):  86%|███████████████████████████████████▍     | 37651/43598 [00:07<00:00, 9122.95 examples/s]Formatting comparisons with prompt template (num_proc=12):  89%|████████████████████████████████████▍    | 38766/43598 [00:07<00:00, 6818.92 examples/s]Formatting comparisons with prompt template (num_proc=12):  96%|███████████████████████████████████████▍ | 41953/43598 [00:07<00:00, 5869.22 examples/s]Formatting comparisons with prompt template (num_proc=12):  89%|████████████████████████████████████▌    | 38876/43598 [00:07<00:00, 9623.62 examples/s]Formatting comparisons with prompt template (num_proc=12):  91%|█████████████████████████████████████▏   | 39506/43598 [00:07<00:00, 6917.05 examples/s]Formatting comparisons with prompt template (num_proc=12):  88%|████████████████████████████████████▎    | 38571/43598 [00:07<00:00, 8637.83 examples/s]Formatting comparisons with prompt template (num_proc=12):  98%|████████████████████████████████████████ | 42598/43598 [00:07<00:00, 5438.35 examples/s]Formatting comparisons with prompt template (num_proc=12):  91%|█████████████████████████████████████▌   | 39883/43598 [00:07<00:00, 9736.73 examples/s]Formatting comparisons with prompt template (num_proc=12):  92%|█████████████████████████████████████▉   | 40292/43598 [00:07<00:00, 7062.97 examples/s]Formatting comparisons with prompt template (num_proc=12):  91%|█████████████████████████████████████▏   | 39504/43598 [00:07<00:00, 8833.70 examples/s]Formatting comparisons with prompt template (num_proc=12):  94%|██████████████████████████████████████▍  | 40865/43598 [00:07<00:00, 9754.04 examples/s]Formatting comparisons with prompt template (num_proc=12):  93%|██████████████████████████████████████   | 40479/43598 [00:07<00:00, 9090.74 examples/s]Formatting comparisons with prompt template (num_proc=12):  94%|██████████████████████████████████████▌  | 41015/43598 [00:07<00:00, 6878.59 examples/s]Formatting comparisons with prompt template (num_proc=12):  99%|████████████████████████████████████████▌| 43175/43598 [00:07<00:00, 4897.64 examples/s]Formatting comparisons with prompt template (num_proc=12):  95%|██████████████████████████████████████▉  | 41445/43598 [00:07<00:00, 8976.30 examples/s]Formatting comparisons with prompt template (num_proc=12):  96%|███████████████████████████████████████▍ | 41922/43598 [00:07<00:00, 8538.50 examples/s]Formatting comparisons with prompt template (num_proc=12):  96%|███████████████████████████████████████▎ | 41811/43598 [00:07<00:00, 6912.62 examples/s]Formatting comparisons with prompt template (num_proc=12):  98%|████████████████████████████████████████ | 42610/43598 [00:07<00:00, 7212.16 examples/s]Formatting comparisons with prompt template (num_proc=12):  98%|████████████████████████████████████████ | 42571/43598 [00:07<00:00, 9096.40 examples/s]Formatting comparisons with prompt template (num_proc=12): 100%|█████████████████████████████████████████| 43598/43598 [00:07<00:00, 5658.67 examples/s]
Formatting comparisons with prompt template (num_proc=12):  98%|████████████████████████████████████████▎| 42857/43598 [00:07<00:00, 6901.83 examples/s]Formatting comparisons with prompt template (num_proc=12): 100%|████████████████████████████████████████▉| 43484/43598 [00:07<00:00, 8808.35 examples/s]Formatting comparisons with prompt template (num_proc=12):  99%|████████████████████████████████████████▊| 43366/43598 [00:07<00:00, 6202.93 examples/s]Formatting comparisons with prompt template (num_proc=12): 100%|█████████████████████████████████████████| 43598/43598 [00:07<00:00, 5543.42 examples/s]
Formatting comparisons with prompt template (num_proc=12):   0%|                                                        | 0/2339 [00:00<?, ? examples/s]Formatting comparisons with prompt template (num_proc=12): 100%|█████████████████████████████████████████| 43598/43598 [00:08<00:00, 5444.42 examples/s]
Formatting comparisons with prompt template (num_proc=12): 100%|█████████████████████████████████████████| 43598/43598 [00:08<00:00, 5373.92 examples/s]
Formatting comparisons with prompt template (num_proc=12):   0%|                                                        | 0/2339 [00:00<?, ? examples/s]Formatting comparisons with prompt template (num_proc=12):   0%|                                                        | 0/2339 [00:00<?, ? examples/s]Formatting comparisons with prompt template (num_proc=12):   0%|                                                        | 0/2339 [00:00<?, ? examples/s]Formatting comparisons with prompt template (num_proc=12):   2%|▊                                              | 38/2339 [00:00<00:35, 65.21 examples/s]Formatting comparisons with prompt template (num_proc=12):   6%|██▉                                          | 152/2339 [00:00<00:08, 255.21 examples/s]Formatting comparisons with prompt template (num_proc=12):  12%|█████▎                                       | 276/2339 [00:00<00:04, 437.36 examples/s]Formatting comparisons with prompt template (num_proc=12):   1%|▍                                              | 22/2339 [00:00<01:17, 29.71 examples/s]Formatting comparisons with prompt template (num_proc=12):   1%|▍                                              | 22/2339 [00:00<01:17, 29.87 examples/s]Formatting comparisons with prompt template (num_proc=12):  17%|███████▌                                     | 391/2339 [00:01<00:04, 469.66 examples/s]Formatting comparisons with prompt template (num_proc=12):   8%|███▊                                         | 196/2339 [00:00<00:08, 253.12 examples/s]Formatting comparisons with prompt template (num_proc=12):   8%|███▍                                         | 177/2339 [00:00<00:08, 243.81 examples/s]Formatting comparisons with prompt template (num_proc=12):  34%|███████████████▎                             | 797/2339 [00:01<00:01, 969.67 examples/s]Formatting comparisons with prompt template (num_proc=12):  18%|████████                                     | 417/2339 [00:01<00:03, 558.06 examples/s]Formatting comparisons with prompt template (num_proc=12):   0%|                                                | 1/2339 [00:00<36:25,  1.07 examples/s]Formatting comparisons with prompt template (num_proc=12):  25%|███████████▎                                 | 588/2339 [00:01<00:02, 608.11 examples/s]Formatting comparisons with prompt template (num_proc=12):  47%|████████████████████▏                      | 1096/2339 [00:01<00:01, 1049.84 examples/s]Formatting comparisons with prompt template (num_proc=12):   8%|███▊                                         | 195/2339 [00:01<00:08, 239.55 examples/s]Formatting comparisons with prompt template (num_proc=12):  25%|███████████▏                                 | 584/2339 [00:01<00:02, 650.04 examples/s]Formatting comparisons with prompt template (num_proc=12):  33%|███████████████                              | 780/2339 [00:01<00:02, 731.39 examples/s]Formatting comparisons with prompt template (num_proc=12):  60%|█████████████████████████▉                 | 1411/2339 [00:01<00:00, 1163.28 examples/s]Formatting comparisons with prompt template (num_proc=12):  18%|████████▎                                    | 429/2339 [00:01<00:04, 446.86 examples/s]Formatting comparisons with prompt template (num_proc=12):  67%|████████████████████████████▉              | 1577/2339 [00:01<00:00, 1193.48 examples/s]Formatting comparisons with prompt template (num_proc=12):  41%|██████████████████▌                          | 963/2339 [00:01<00:01, 775.81 examples/s]Formatting comparisons with prompt template (num_proc=12):  31%|█████████████▊                               | 717/2339 [00:01<00:02, 545.06 examples/s]Formatting comparisons with prompt template (num_proc=12):  48%|█████████████████████▎                      | 1131/2339 [00:01<00:01, 887.06 examples/s]Formatting comparisons with prompt template (num_proc=12):  75%|████████████████████████████████▎          | 1756/2339 [00:02<00:00, 1201.63 examples/s]Formatting comparisons with prompt template (num_proc=12):  25%|███████████▎                                 | 585/2339 [00:01<00:03, 518.19 examples/s]Formatting comparisons with prompt template (num_proc=12):  35%|███████████████▌                             | 808/2339 [00:01<00:02, 565.68 examples/s]Formatting comparisons with prompt template (num_proc=12):  55%|████████████████████████                    | 1278/2339 [00:01<00:01, 921.20 examples/s]Formatting comparisons with prompt template (num_proc=12):  83%|███████████████████████████████████▍       | 1930/2339 [00:02<00:00, 1184.85 examples/s]Formatting comparisons with prompt template (num_proc=12):  49%|█████████████████████▌                      | 1143/2339 [00:01<00:01, 899.73 examples/s]Formatting comparisons with prompt template (num_proc=12):  40%|██████████████████▏                          | 944/2339 [00:01<00:01, 792.72 examples/s]Formatting comparisons with prompt template (num_proc=12):  71%|██████████████████████████████▋            | 1672/2339 [00:02<00:00, 1412.29 examples/s]Formatting comparisons with prompt template (num_proc=12):  58%|█████████████████████████                  | 1363/2339 [00:02<00:00, 1050.79 examples/s]Formatting comparisons with prompt template (num_proc=12):  58%|█████████████████████████                  | 1365/2339 [00:01<00:00, 1236.41 examples/s]Formatting comparisons with prompt template (num_proc=12):  91%|███████████████████████████████████████▉    | 2123/2339 [00:02<00:00, 985.75 examples/s]Formatting comparisons with prompt template (num_proc=12):  82%|███████████████████████████████████▏       | 1916/2339 [00:02<00:00, 1429.34 examples/s]Formatting comparisons with prompt template (num_proc=12):  67%|████████████████████████████▋              | 1560/2339 [00:02<00:00, 1314.47 examples/s]Formatting comparisons with prompt template (num_proc=12): 100%|████████████████████████████████████████████| 2339/2339 [00:02<00:00, 907.60 examples/s]
Formatting comparisons with prompt template (num_proc=12):  91%|██████████████████████████████████████▉    | 2117/2339 [00:02<00:00, 1334.65 examples/s]Formatting comparisons with prompt template (num_proc=12):  67%|█████████████████████████████▎              | 1561/2339 [00:02<00:00, 949.37 examples/s]/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
Formatting comparisons with prompt template (num_proc=12):  75%|████████████████████████████████           | 1747/2339 [00:02<00:00, 1340.63 examples/s][WARNING|logging.py:328] 2026-04-23 23:40:33,124 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Formatting comparisons with prompt template (num_proc=12):  98%|█████████████████████████████████████████▉ | 2284/2339 [00:02<00:00, 1401.47 examples/s]Formatting comparisons with prompt template (num_proc=12):  81%|███████████████████████████████████        | 1905/2339 [00:02<00:00, 1358.59 examples/s]Formatting comparisons with prompt template (num_proc=12):  83%|███████████████████████████████████▊       | 1950/2339 [00:02<00:00, 1294.35 examples/s]Formatting comparisons with prompt template (num_proc=12):  96%|█████████████████████████████████████████▎ | 2244/2339 [00:02<00:00, 1732.10 examples/s]Formatting comparisons with prompt template (num_proc=12): 100%|████████████████████████████████████████████| 2339/2339 [00:02<00:00, 886.62 examples/s]
Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 201.49it/s]
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
[WARNING|logging.py:328] 2026-04-23 23:40:33,360 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Formatting comparisons with prompt template (num_proc=12): 100%|████████████████████████████████████████████| 2339/2339 [00:02<00:00, 879.37 examples/s]
Formatting comparisons with prompt template (num_proc=12):  91%|███████████████████████████████████████    | 2128/2339 [00:02<00:00, 1294.05 examples/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 379.90it/s]
[WARNING|trainer.py:821] 2026-04-23 23:40:33,421 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 578.65it/s]
2026-04-23 23:40:33 - INFO - __main__ - Processed train sample 41905:

Prompt:
<|im_start|>system
<|im_end|>
<|im_start|>user
What is the best way to clean my refrigerator?<|im_end|>
<|im_start|>assistant
Well, I have a few ideas, but the best way to know what works best is to run some tests and then analyze the data to figure out which technique works best.<|im_end|>
<|im_start|>user
What are your ideas?<|im_end|>


Chosen:
<|im_start|>assistant
Some of my ideas include wiping down the interior with a rag, using bleach and water to wipe down the door, emptying the contents of the fridge to scrub the shelves with a clean cloth, cleaning the interior of the fridge with vinegar and water, and using a vacuum cleaner to clean the interior.<|im_end|>


Rejected:
<|im_start|>assistant
I was thinking that you could try different types of soap, which could be a variation of “soap,” like antibacterial soap.  I was also thinking that you could try using different tools, like a toothbrush, to clean the inside.  Or I was thinking that you could try different ways to get the gunk out, like using a squeegee, or using a paper towel.  I was also thinking you could try other types of cleaning, like vacuuming, but I think that could have the opposite of the desired effect.<|im_end|>

/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
[INFO|configuration_utils.py:691] 2026-04-23 23:40:33,469 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/config.json
[INFO|configuration_utils.py:765] 2026-04-23 23:40:33,470 >> Model config Qwen3Config {
  "architectures": [
    "Qwen3ForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 12288,
  "max_position_embeddings": 32768,
  "max_window_layers": 36,
  "model_type": "qwen3",
  "num_attention_heads": 32,
  "num_hidden_layers": 36,
  "num_key_value_heads": 8,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 1000000,
  "sliding_window": null,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.51.0",
  "use_cache": false,
  "use_sliding_window": false,
  "vocab_size": 151936
}

[INFO|modeling_utils.py:1121] 2026-04-23 23:40:33,478 >> loading weights file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/model.safetensors.index.json
[INFO|modeling_utils.py:2167] 2026-04-23 23:40:33,479 >> Instantiating Qwen3ForCausalLM model under default dtype torch.bfloat16.
[WARNING|logging.py:328] 2026-04-23 23:40:33,481 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[INFO|configuration_utils.py:1142] 2026-04-23 23:40:33,482 >> Generate config GenerationConfig {
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "use_cache": false
}

Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 717.69it/s]
[WARNING|trainer.py:821] 2026-04-23 23:40:33,502 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Formatting comparisons with prompt template (num_proc=12): 100%|████████████████████████████████████████████| 2339/2339 [00:02<00:00, 869.22 examples/s]
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
[WARNING|logging.py:328] 2026-04-23 23:40:33,644 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 520.89it/s]
Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 455.73it/s]
[WARNING|trainer.py:821] 2026-04-23 23:40:33,780 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
Loading checkpoint shards:  14%|████████████▊                                                                             | 1/7 [00:09<00:55,  9.26s/it]Loading checkpoint shards:  29%|█████████████████████████▋                                                                | 2/7 [00:20<00:51, 10.25s/it]Loading checkpoint shards:  43%|██████████████████████████████████████▌                                                   | 3/7 [00:31<00:42, 10.58s/it]Loading checkpoint shards:  57%|███████████████████████████████████████████████████▍                                      | 4/7 [00:40<00:29,  9.94s/it]Loading checkpoint shards:  71%|████████████████████████████████████████████████████████████████▎                         | 5/7 [00:48<00:19,  9.53s/it]Loading checkpoint shards:  86%|█████████████████████████████████████████████████████████████████████████████▏            | 6/7 [01:09<00:13, 13.42s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 7/7 [01:16<00:00, 11.03s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 7/7 [01:16<00:00, 10.86s/it]
[INFO|modeling_utils.py:4926] 2026-04-23 23:41:49,544 >> All model checkpoint weights were used when initializing Qwen3ForCausalLM.

[INFO|modeling_utils.py:4934] 2026-04-23 23:41:49,544 >> All the weights of Qwen3ForCausalLM were initialized from the model checkpoint at /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452.
If your task is similar to the task the model of the checkpoint was trained on, you can already use Qwen3ForCausalLM for predictions without further training.
[INFO|configuration_utils.py:1095] 2026-04-23 23:41:49,547 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/generation_config.json
[INFO|configuration_utils.py:1142] 2026-04-23 23:41:49,548 >> Generate config GenerationConfig {
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "max_new_tokens": 2048
}

[INFO|configuration_utils.py:691] 2026-04-23 23:41:49,549 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/config.json
[INFO|configuration_utils.py:765] 2026-04-23 23:41:49,550 >> Model config Qwen3Config {
  "architectures": [
    "Qwen3ForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 12288,
  "max_position_embeddings": 32768,
  "max_window_layers": 36,
  "model_type": "qwen3",
  "num_attention_heads": 32,
  "num_hidden_layers": 36,
  "num_key_value_heads": 8,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 1000000,
  "sliding_window": null,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.51.0",
  "use_cache": false,
  "use_sliding_window": false,
  "vocab_size": 151936
}

[INFO|modeling_utils.py:1121] 2026-04-23 23:41:49,551 >> loading weights file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/model.safetensors.index.json
[INFO|modeling_utils.py:2167] 2026-04-23 23:41:49,551 >> Instantiating Qwen3ForCausalLM model under default dtype torch.bfloat16.
[INFO|configuration_utils.py:1142] 2026-04-23 23:41:49,584 >> Generate config GenerationConfig {
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "use_cache": false
}

Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards:  14%|████████████▊                                                                             | 1/7 [00:01<00:09,  1.60s/it]Loading checkpoint shards:  29%|█████████████████████████▋                                                                | 2/7 [00:03<00:07,  1.54s/it]Loading checkpoint shards:  43%|██████████████████████████████████████▌                                                   | 3/7 [00:04<00:05,  1.48s/it]Loading checkpoint shards:  57%|███████████████████████████████████████████████████▍                                      | 4/7 [00:05<00:04,  1.47s/it]Loading checkpoint shards:  71%|████████████████████████████████████████████████████████████████▎                         | 5/7 [00:07<00:03,  1.50s/it]Loading checkpoint shards:  86%|█████████████████████████████████████████████████████████████████████████████▏            | 6/7 [00:09<00:01,  1.55s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:10<00:00,  1.42s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:10<00:00,  1.47s/it]
[INFO|modeling_utils.py:4926] 2026-04-23 23:41:59,922 >> All model checkpoint weights were used when initializing Qwen3ForCausalLM.

[INFO|modeling_utils.py:4934] 2026-04-23 23:41:59,922 >> All the weights of Qwen3ForCausalLM were initialized from the model checkpoint at /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452.
If your task is similar to the task the model of the checkpoint was trained on, you can already use Qwen3ForCausalLM for predictions without further training.
[INFO|configuration_utils.py:1095] 2026-04-23 23:41:59,925 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/generation_config.json
[INFO|configuration_utils.py:1142] 2026-04-23 23:41:59,925 >> Generate config GenerationConfig {
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "max_new_tokens": 2048
}

[WARNING|trainer.py:821] 2026-04-23 23:41:59,927 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
[WARNING|trainer.py:816] 2026-04-23 23:41:59,928 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Tokenizing train (num_proc=12):   0%|                                                                                  | 0/43598 [00:00<?, ? examples/s]Tokenizing train (num_proc=12):   0%|▏                                                                     | 128/43598 [00:35<3:20:31,  3.61 examples/s]Tokenizing train (num_proc=12):   1%|▍                                                                     | 256/43598 [00:35<1:22:45,  8.73 examples/s]Tokenizing train (num_proc=12):   1%|▋                                                                       | 384/43598 [00:35<45:10, 15.94 examples/s]Tokenizing train (num_proc=12):   1%|▊                                                                       | 512/43598 [00:35<27:34, 26.04 examples/s]Tokenizing train (num_proc=12):   1%|█                                                                       | 640/43598 [00:35<17:52, 40.06 examples/s]Tokenizing train (num_proc=12):   2%|█▎                                                                      | 768/43598 [00:36<12:00, 59.44 examples/s]Tokenizing train (num_proc=12):   2%|█▍                                                                      | 896/43598 [00:36<08:17, 85.75 examples/s]Tokenizing train (num_proc=12):   2%|█▋                                                                    | 1024/43598 [00:36<05:52, 120.82 examples/s]Tokenizing train (num_proc=12):   3%|█▊                                                                    | 1152/43598 [00:36<04:15, 166.43 examples/s]Tokenizing train (num_proc=12):   3%|██                                                                    | 1280/43598 [00:36<03:09, 223.36 examples/s]Tokenizing train (num_proc=12):   3%|██▎                                                                   | 1408/43598 [00:36<02:24, 292.07 examples/s]Tokenizing train (num_proc=12):   4%|██▍                                                                   | 1536/43598 [00:36<01:53, 370.49 examples/s]Tokenizing train (num_proc=12):   4%|██▋                                                                   | 1664/43598 [00:37<01:32, 454.00 examples/s]Tokenizing train (num_proc=12):   4%|██▉                                                                   | 1792/43598 [00:37<01:17, 536.01 examples/s]Tokenizing train (num_proc=12):   4%|███                                                                   | 1920/43598 [00:37<01:08, 606.71 examples/s]Tokenizing train (num_proc=12):   5%|███▎                                                                  | 2048/43598 [00:37<01:01, 677.11 examples/s]Tokenizing train (num_proc=12):   5%|███▍                                                                  | 2176/43598 [00:37<00:56, 729.59 examples/s]Tokenizing train (num_proc=12):   5%|███▋                                                                  | 2304/43598 [00:37<00:53, 769.18 examples/s]Tokenizing train (num_proc=12):   6%|███▉                                                                  | 2432/43598 [00:37<00:50, 809.26 examples/s]Tokenizing train (num_proc=12):   6%|████                                                                  | 2560/43598 [00:38<00:50, 819.58 examples/s]Tokenizing train (num_proc=12):   6%|████▎                                                                 | 2688/43598 [00:38<00:47, 862.99 examples/s]Tokenizing train (num_proc=12):   6%|████▌                                                                 | 2816/43598 [00:38<00:46, 877.34 examples/s]Tokenizing train (num_proc=12):   7%|████▋                                                                 | 2944/43598 [00:38<00:44, 922.08 examples/s]Tokenizing train (num_proc=12):   7%|████▉                                                                 | 3072/43598 [00:38<00:44, 915.11 examples/s]Tokenizing train (num_proc=12):   7%|█████▏                                                                | 3200/43598 [00:38<00:43, 920.71 examples/s]Tokenizing train (num_proc=12):   8%|█████▎                                                                | 3328/43598 [00:38<00:44, 913.95 examples/s]Tokenizing train (num_proc=12):   8%|█████▌                                                                | 3456/43598 [00:38<00:42, 934.98 examples/s]Tokenizing train (num_proc=12):   8%|█████▊                                                                | 3584/43598 [00:39<00:41, 955.47 examples/s]Tokenizing train (num_proc=12):   8%|█████▊                                                                | 3634/43598 [00:51<00:41, 955.47 examples/s]Tokenizing train (num_proc=12):   9%|██████▏                                                                | 3762/43598 [01:00<30:32, 21.74 examples/s]Tokenizing train (num_proc=12):   9%|██████▎                                                                | 3890/43598 [01:00<22:15, 29.74 examples/s]Tokenizing train (num_proc=12):   9%|██████▌                                                                | 4018/43598 [01:01<16:06, 40.97 examples/s]Tokenizing train (num_proc=12):  10%|██████▊                                                                | 4146/43598 [01:01<11:38, 56.46 examples/s]Tokenizing train (num_proc=12):  10%|██████▉                                                                | 4274/43598 [01:01<08:26, 77.63 examples/s]Tokenizing train (num_proc=12):  10%|███████                                                               | 4402/43598 [01:01<06:10, 105.80 examples/s]Tokenizing train (num_proc=12):  10%|███████▎                                                              | 4530/43598 [01:01<04:34, 142.55 examples/s]Tokenizing train (num_proc=12):  11%|███████▍                                                              | 4658/43598 [01:01<03:26, 188.53 examples/s]Tokenizing train (num_proc=12):  11%|███████▋                                                              | 4786/43598 [01:02<02:41, 240.85 examples/s]Tokenizing train (num_proc=12):  11%|███████▉                                                              | 4914/43598 [01:02<02:10, 296.24 examples/s]Tokenizing train (num_proc=12):  12%|████████                                                              | 5042/43598 [01:02<01:47, 357.61 examples/s]Tokenizing train (num_proc=12):  12%|████████▎                                                             | 5170/43598 [01:02<01:31, 421.09 examples/s]Tokenizing train (num_proc=12):  12%|████████▌                                                             | 5298/43598 [01:02<01:19, 481.29 examples/s]Tokenizing train (num_proc=12):  12%|████████▋                                                             | 5426/43598 [01:02<01:09, 551.99 examples/s]Tokenizing train (num_proc=12):  13%|████████▉                                                             | 5554/43598 [01:03<01:03, 595.61 examples/s]Tokenizing train (num_proc=12):  13%|█████████                                                             | 5682/43598 [01:03<01:00, 630.40 examples/s]Tokenizing train (num_proc=12):  13%|█████████▎                                                            | 5810/43598 [01:03<00:55, 680.91 examples/s]Tokenizing train (num_proc=12):  14%|█████████▌                                                            | 5938/43598 [01:03<00:53, 702.97 examples/s]Tokenizing train (num_proc=12):  14%|█████████▋                                                            | 6066/43598 [01:03<00:52, 720.61 examples/s]Tokenizing train (num_proc=12):  14%|█████████▉                                                            | 6194/43598 [01:03<00:51, 728.07 examples/s]Tokenizing train (num_proc=12):  15%|██████████▏                                                           | 6322/43598 [01:04<00:52, 705.52 examples/s]Tokenizing train (num_proc=12):  15%|██████████▎                                                           | 6450/43598 [01:04<00:49, 745.85 examples/s]Tokenizing train (num_proc=12):  15%|██████████▌                                                           | 6578/43598 [01:04<00:45, 806.89 examples/s]Tokenizing train (num_proc=12):  15%|██████████▊                                                           | 6706/43598 [01:04<00:44, 833.87 examples/s]Tokenizing train (num_proc=12):  16%|██████████▉                                                           | 6834/43598 [01:04<00:42, 874.12 examples/s]Tokenizing train (num_proc=12):  16%|███████████▏                                                          | 6962/43598 [01:04<00:41, 890.79 examples/s]Tokenizing train (num_proc=12):  16%|███████████▍                                                          | 7090/43598 [01:04<00:40, 911.79 examples/s]Tokenizing train (num_proc=12):  17%|███████████▌                                                          | 7218/43598 [01:05<00:39, 930.26 examples/s]Tokenizing train (num_proc=12):  17%|███████████▋                                                          | 7268/43598 [01:22<00:39, 930.26 examples/s]Tokenizing train (num_proc=12):  17%|████████████                                                           | 7396/43598 [01:24<24:45, 24.37 examples/s]Tokenizing train (num_proc=12):  17%|████████████▎                                                          | 7524/43598 [01:24<17:59, 33.41 examples/s]Tokenizing train (num_proc=12):  18%|████████████▍                                                          | 7652/43598 [01:24<13:01, 45.98 examples/s]Tokenizing train (num_proc=12):  18%|████████████▋                                                          | 7780/43598 [01:24<09:25, 63.35 examples/s]Tokenizing train (num_proc=12):  18%|████████████▉                                                          | 7908/43598 [01:24<06:49, 87.25 examples/s]Tokenizing train (num_proc=12):  18%|████████████▉                                                         | 8036/43598 [01:24<04:59, 118.80 examples/s]Tokenizing train (num_proc=12):  19%|█████████████                                                         | 8164/43598 [01:25<03:41, 160.30 examples/s]Tokenizing train (num_proc=12):  19%|█████████████▎                                                        | 8292/43598 [01:25<02:44, 214.05 examples/s]Tokenizing train (num_proc=12):  19%|█████████████▌                                                        | 8420/43598 [01:25<02:06, 278.10 examples/s]Tokenizing train (num_proc=12):  20%|█████████████▋                                                        | 8548/43598 [01:25<01:39, 351.45 examples/s]Tokenizing train (num_proc=12):  20%|█████████████▉                                                        | 8676/43598 [01:25<01:19, 436.98 examples/s]Tokenizing train (num_proc=12):  20%|██████████████▏                                                       | 8804/43598 [01:25<01:07, 515.47 examples/s]Tokenizing train (num_proc=12):  20%|██████████████▎                                                       | 8932/43598 [01:25<00:57, 600.90 examples/s]Tokenizing train (num_proc=12):  21%|██████████████▌                                                       | 9060/43598 [01:26<00:52, 662.82 examples/s]Tokenizing train (num_proc=12):  21%|██████████████▊                                                       | 9188/43598 [01:26<00:48, 716.15 examples/s]Tokenizing train (num_proc=12):  21%|██████████████▉                                                       | 9316/43598 [01:26<00:44, 767.45 examples/s]Tokenizing train (num_proc=12):  22%|███████████████▏                                                      | 9444/43598 [01:26<00:42, 803.98 examples/s]Tokenizing train (num_proc=12):  22%|███████████████▎                                                      | 9572/43598 [01:26<00:40, 831.30 examples/s]Tokenizing train (num_proc=12):  22%|███████████████▌                                                      | 9700/43598 [01:26<00:39, 857.78 examples/s]Tokenizing train (num_proc=12):  23%|███████████████▊                                                      | 9828/43598 [01:26<00:39, 861.92 examples/s]Tokenizing train (num_proc=12):  23%|███████████████▉                                                      | 9956/43598 [01:27<00:38, 871.76 examples/s]Tokenizing train (num_proc=12):  23%|███████████████▉                                                     | 10084/43598 [01:27<00:37, 884.09 examples/s]Tokenizing train (num_proc=12):  23%|████████████████▏                                                    | 10212/43598 [01:27<00:37, 897.06 examples/s]Tokenizing train (num_proc=12):  24%|████████████████▎                                                    | 10340/43598 [01:27<00:35, 926.10 examples/s]Tokenizing train (num_proc=12):  24%|████████████████▌                                                    | 10468/43598 [01:27<00:34, 958.46 examples/s]Tokenizing train (num_proc=12):  24%|████████████████▊                                                    | 10596/43598 [01:27<00:34, 966.99 examples/s]Tokenizing train (num_proc=12):  25%|████████████████▉                                                    | 10724/43598 [01:27<00:33, 984.38 examples/s]Tokenizing train (num_proc=12):  25%|█████████████████▏                                                   | 10852/43598 [01:27<00:33, 970.34 examples/s]Tokenizing train (num_proc=12):  25%|█████████████████▎                                                   | 10901/43598 [01:42<00:33, 970.34 examples/s]Tokenizing train (num_proc=12):  25%|█████████████████▋                                                    | 11029/43598 [01:45<20:22, 26.63 examples/s]Tokenizing train (num_proc=12):  26%|█████████████████▉                                                    | 11157/43598 [01:45<14:48, 36.50 examples/s]Tokenizing train (num_proc=12):  26%|██████████████████                                                    | 11285/43598 [01:45<10:43, 50.23 examples/s]Tokenizing train (num_proc=12):  26%|██████████████████▎                                                   | 11413/43598 [01:45<07:45, 69.15 examples/s]Tokenizing train (num_proc=12):  26%|██████████████████▌                                                   | 11541/43598 [01:46<05:38, 94.68 examples/s]Tokenizing train (num_proc=12):  27%|██████████████████▍                                                  | 11669/43598 [01:46<04:08, 128.52 examples/s]Tokenizing train (num_proc=12):  27%|██████████████████▋                                                  | 11797/43598 [01:46<03:04, 172.40 examples/s]Tokenizing train (num_proc=12):  27%|██████████████████▊                                                  | 11925/43598 [01:46<02:19, 227.32 examples/s]Tokenizing train (num_proc=12):  28%|███████████████████                                                  | 12053/43598 [01:46<01:48, 291.85 examples/s]Tokenizing train (num_proc=12):  28%|███████████████████▎                                                 | 12181/43598 [01:46<01:23, 374.75 examples/s]Tokenizing train (num_proc=12):  28%|███████████████████▍                                                 | 12309/43598 [01:46<01:07, 461.67 examples/s]Tokenizing train (num_proc=12):  29%|███████████████████▋                                                 | 12437/43598 [01:46<00:57, 545.41 examples/s]Tokenizing train (num_proc=12):  29%|███████████████████▉                                                 | 12565/43598 [01:47<00:48, 639.95 examples/s]Tokenizing train (num_proc=12):  29%|████████████████████                                                 | 12693/43598 [01:47<00:42, 731.56 examples/s]Tokenizing train (num_proc=12):  29%|████████████████████▎                                                | 12821/43598 [01:47<00:39, 788.06 examples/s]Tokenizing train (num_proc=12):  30%|████████████████████▍                                                | 12949/43598 [01:47<00:37, 817.68 examples/s]Tokenizing train (num_proc=12):  30%|████████████████████▋                                                | 13077/43598 [01:47<00:35, 855.19 examples/s]Tokenizing train (num_proc=12):  30%|████████████████████▉                                                | 13205/43598 [01:47<00:35, 863.77 examples/s]Tokenizing train (num_proc=12):  31%|█████████████████████                                                | 13333/43598 [01:47<00:34, 876.61 examples/s]Tokenizing train (num_proc=12):  31%|█████████████████████▎                                               | 13461/43598 [01:48<00:34, 883.52 examples/s]Tokenizing train (num_proc=12):  31%|█████████████████████▌                                               | 13589/43598 [01:48<00:33, 892.84 examples/s]Tokenizing train (num_proc=12):  31%|█████████████████████▋                                               | 13717/43598 [01:48<00:32, 905.77 examples/s]Tokenizing train (num_proc=12):  32%|█████████████████████▉                                               | 13845/43598 [01:48<00:32, 911.97 examples/s]Tokenizing train (num_proc=12):  32%|██████████████████████                                               | 13973/43598 [01:48<00:32, 910.78 examples/s]Tokenizing train (num_proc=12):  32%|██████████████████████▎                                              | 14101/43598 [01:48<00:32, 917.77 examples/s]Tokenizing train (num_proc=12):  33%|██████████████████████▌                                              | 14229/43598 [01:48<00:31, 942.81 examples/s]Tokenizing train (num_proc=12):  33%|██████████████████████▋                                              | 14357/43598 [01:48<00:30, 969.29 examples/s]Tokenizing train (num_proc=12):  33%|██████████████████████▌                                             | 14485/43598 [01:49<00:28, 1012.01 examples/s]Tokenizing train (num_proc=12):  33%|██████████████████████▋                                             | 14534/43598 [02:02<00:28, 1012.01 examples/s]Tokenizing train (num_proc=12):  34%|███████████████████████▌                                              | 14662/43598 [02:10<21:47, 22.14 examples/s]Tokenizing train (num_proc=12):  34%|███████████████████████▋                                              | 14790/43598 [02:10<15:48, 30.38 examples/s]Tokenizing train (num_proc=12):  34%|███████████████████████▉                                              | 14918/43598 [02:10<11:24, 41.89 examples/s]Tokenizing train (num_proc=12):  35%|████████████████████████▏                                             | 15046/43598 [02:10<08:13, 57.89 examples/s]Tokenizing train (num_proc=12):  35%|████████████████████████▎                                             | 15174/43598 [02:10<05:55, 79.88 examples/s]Tokenizing train (num_proc=12):  35%|████████████████████████▏                                            | 15302/43598 [02:10<04:18, 109.63 examples/s]Tokenizing train (num_proc=12):  35%|████████████████████████▍                                            | 15430/43598 [02:11<03:09, 148.86 examples/s]Tokenizing train (num_proc=12):  36%|████████████████████████▌                                            | 15558/43598 [02:11<02:20, 198.97 examples/s]Tokenizing train (num_proc=12):  36%|████████████████████████▊                                            | 15686/43598 [02:11<01:46, 262.17 examples/s]Tokenizing train (num_proc=12):  36%|█████████████████████████                                            | 15814/43598 [02:11<01:22, 336.33 examples/s]Tokenizing train (num_proc=12):  37%|█████████████████████████▏                                           | 15942/43598 [02:11<01:06, 415.45 examples/s]Tokenizing train (num_proc=12):  37%|█████████████████████████▍                                           | 16070/43598 [02:11<00:55, 494.82 examples/s]Tokenizing train (num_proc=12):  37%|█████████████████████████▋                                           | 16198/43598 [02:11<00:48, 568.42 examples/s]Tokenizing train (num_proc=12):  37%|█████████████████████████▊                                           | 16326/43598 [02:12<00:42, 647.85 examples/s]Tokenizing train (num_proc=12):  38%|██████████████████████████                                           | 16454/43598 [02:12<00:38, 712.31 examples/s]Tokenizing train (num_proc=12):  38%|██████████████████████████▏                                          | 16582/43598 [02:12<00:35, 765.05 examples/s]Tokenizing train (num_proc=12):  38%|██████████████████████████▍                                          | 16710/43598 [02:12<00:34, 789.77 examples/s]Tokenizing train (num_proc=12):  39%|██████████████████████████▋                                          | 16838/43598 [02:12<00:32, 821.63 examples/s]Tokenizing train (num_proc=12):  39%|██████████████████████████▊                                          | 16966/43598 [02:12<00:30, 863.07 examples/s]Tokenizing train (num_proc=12):  39%|███████████████████████████                                          | 17094/43598 [02:12<00:30, 864.77 examples/s]Tokenizing train (num_proc=12):  40%|███████████████████████████▎                                         | 17222/43598 [02:13<00:29, 895.22 examples/s]Tokenizing train (num_proc=12):  40%|███████████████████████████▍                                         | 17350/43598 [02:13<00:28, 908.36 examples/s]Tokenizing train (num_proc=12):  40%|███████████████████████████▋                                         | 17478/43598 [02:13<00:28, 923.50 examples/s]Tokenizing train (num_proc=12):  40%|███████████████████████████▊                                         | 17606/43598 [02:13<00:27, 944.44 examples/s]Tokenizing train (num_proc=12):  41%|████████████████████████████                                         | 17734/43598 [02:13<00:27, 947.34 examples/s]Tokenizing train (num_proc=12):  41%|████████████████████████████▎                                        | 17862/43598 [02:13<00:26, 983.35 examples/s]Tokenizing train (num_proc=12):  41%|████████████████████████████▍                                        | 17990/43598 [02:13<00:25, 992.59 examples/s]Tokenizing train (num_proc=12):  42%|████████████████████████████▋                                        | 18118/43598 [02:13<00:25, 998.22 examples/s]Tokenizing train (num_proc=12):  42%|████████████████████████████▊                                        | 18167/43598 [02:32<00:25, 998.22 examples/s]Tokenizing train (num_proc=12):  42%|█████████████████████████████▎                                        | 18295/43598 [02:33<17:47, 23.70 examples/s]Tokenizing train (num_proc=12):  42%|█████████████████████████████▌                                        | 18423/43598 [02:33<12:53, 32.53 examples/s]Tokenizing train (num_proc=12):  43%|█████████████████████████████▊                                        | 18551/43598 [02:33<09:18, 44.87 examples/s]Tokenizing train (num_proc=12):  43%|█████████████████████████████▉                                        | 18679/43598 [02:34<06:42, 61.97 examples/s]Tokenizing train (num_proc=12):  43%|██████████████████████████████▏                                       | 18807/43598 [02:34<04:50, 85.25 examples/s]Tokenizing train (num_proc=12):  43%|█████████████████████████████▉                                       | 18935/43598 [02:34<03:31, 116.42 examples/s]Tokenizing train (num_proc=12):  44%|██████████████████████████████▏                                      | 19063/43598 [02:34<02:36, 156.63 examples/s]Tokenizing train (num_proc=12):  44%|██████████████████████████████▎                                      | 19191/43598 [02:34<01:55, 210.65 examples/s]Tokenizing train (num_proc=12):  44%|██████████████████████████████▌                                      | 19319/43598 [02:34<01:28, 274.15 examples/s]Tokenizing train (num_proc=12):  45%|██████████████████████████████▊                                      | 19447/43598 [02:34<01:09, 349.06 examples/s]Tokenizing train (num_proc=12):  45%|██████████████████████████████▉                                      | 19575/43598 [02:34<00:55, 431.15 examples/s]Tokenizing train (num_proc=12):  45%|███████████████████████████████▏                                     | 19703/43598 [02:35<00:45, 521.54 examples/s]Tokenizing train (num_proc=12):  45%|███████████████████████████████▍                                     | 19831/43598 [02:35<00:39, 594.65 examples/s]Tokenizing train (num_proc=12):  46%|███████████████████████████████▌                                     | 19959/43598 [02:35<00:35, 660.59 examples/s]Tokenizing train (num_proc=12):  46%|███████████████████████████████▊                                     | 20087/43598 [02:35<00:32, 713.24 examples/s]Tokenizing train (num_proc=12):  46%|███████████████████████████████▉                                     | 20215/43598 [02:35<00:30, 754.93 examples/s]Tokenizing train (num_proc=12):  47%|████████████████████████████████▏                                    | 20343/43598 [02:35<00:29, 797.68 examples/s]Tokenizing train (num_proc=12):  47%|████████████████████████████████▍                                    | 20471/43598 [02:35<00:26, 857.23 examples/s]Tokenizing train (num_proc=12):  47%|████████████████████████████████▌                                    | 20599/43598 [02:36<00:26, 858.78 examples/s]Tokenizing train (num_proc=12):  48%|████████████████████████████████▊                                    | 20727/43598 [02:36<00:26, 858.89 examples/s]Tokenizing train (num_proc=12):  48%|█████████████████████████████████                                    | 20855/43598 [02:36<00:27, 837.88 examples/s]Tokenizing train (num_proc=12):  48%|█████████████████████████████████▏                                   | 20983/43598 [02:36<00:26, 862.02 examples/s]Tokenizing train (num_proc=12):  48%|█████████████████████████████████▍                                   | 21111/43598 [02:36<00:25, 890.04 examples/s]Tokenizing train (num_proc=12):  49%|█████████████████████████████████▌                                   | 21239/43598 [02:36<00:24, 922.72 examples/s]Tokenizing train (num_proc=12):  49%|█████████████████████████████████▊                                   | 21367/43598 [02:36<00:23, 944.92 examples/s]Tokenizing train (num_proc=12):  49%|██████████████████████████████████                                   | 21495/43598 [02:37<00:23, 960.96 examples/s]Tokenizing train (num_proc=12):  50%|██████████████████████████████████▏                                  | 21623/43598 [02:37<00:23, 953.92 examples/s]Tokenizing train (num_proc=12):  50%|██████████████████████████████████▍                                  | 21751/43598 [02:37<00:22, 950.70 examples/s]Tokenizing train (num_proc=12):  50%|██████████████████████████████████▌                                  | 21800/43598 [02:53<00:22, 950.70 examples/s]Tokenizing train (num_proc=12):  50%|███████████████████████████████████▏                                  | 21928/43598 [02:58<16:39, 21.68 examples/s]Tokenizing train (num_proc=12):  51%|███████████████████████████████████▍                                  | 22056/43598 [02:59<12:04, 29.73 examples/s]Tokenizing train (num_proc=12):  51%|███████████████████████████████████▌                                  | 22184/43598 [02:59<08:41, 41.03 examples/s]Tokenizing train (num_proc=12):  51%|███████████████████████████████████▊                                  | 22312/43598 [02:59<06:15, 56.76 examples/s]Tokenizing train (num_proc=12):  51%|████████████████████████████████████                                  | 22440/43598 [02:59<04:30, 78.31 examples/s]Tokenizing train (num_proc=12):  52%|███████████████████████████████████▋                                 | 22568/43598 [02:59<03:16, 107.18 examples/s]Tokenizing train (num_proc=12):  52%|███████████████████████████████████▉                                 | 22696/43598 [02:59<02:23, 145.74 examples/s]Tokenizing train (num_proc=12):  52%|████████████████████████████████████                                 | 22824/43598 [02:59<01:46, 194.71 examples/s]Tokenizing train (num_proc=12):  53%|████████████████████████████████████▎                                | 22952/43598 [03:00<01:20, 254.98 examples/s]Tokenizing train (num_proc=12):  53%|████████████████████████████████████▌                                | 23080/43598 [03:00<01:03, 323.88 examples/s]Tokenizing train (num_proc=12):  53%|████████████████████████████████████▋                                | 23208/43598 [03:00<00:50, 402.01 examples/s]Tokenizing train (num_proc=12):  54%|████████████████████████████████████▉                                | 23336/43598 [03:00<00:41, 483.68 examples/s]Tokenizing train (num_proc=12):  54%|█████████████████████████████████████▏                               | 23464/43598 [03:00<00:35, 563.11 examples/s]Tokenizing train (num_proc=12):  54%|█████████████████████████████████████▎                               | 23592/43598 [03:00<00:31, 630.91 examples/s]Tokenizing train (num_proc=12):  54%|█████████████████████████████████████▌                               | 23720/43598 [03:00<00:28, 688.40 examples/s]Tokenizing train (num_proc=12):  55%|█████████████████████████████████████▋                               | 23848/43598 [03:01<00:26, 740.75 examples/s]Tokenizing train (num_proc=12):  55%|█████████████████████████████████████▉                               | 23976/43598 [03:01<00:25, 783.37 examples/s]Tokenizing train (num_proc=12):  55%|██████████████████████████████████████▏                              | 24104/43598 [03:01<00:23, 822.37 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████████████████████████▎                              | 24232/43598 [03:01<00:22, 846.37 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████████████████████████▌                              | 24360/43598 [03:01<00:22, 866.93 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████████████████████████▊                              | 24488/43598 [03:01<00:21, 908.26 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████████████████████████▉                              | 24616/43598 [03:01<00:20, 936.48 examples/s]Tokenizing train (num_proc=12):  57%|███████████████████████████████████████▏                             | 24744/43598 [03:01<00:19, 961.36 examples/s]Tokenizing train (num_proc=12):  57%|███████████████████████████████████████▎                             | 24872/43598 [03:02<00:19, 969.96 examples/s]Tokenizing train (num_proc=12):  57%|███████████████████████████████████████▌                             | 25000/43598 [03:02<00:18, 991.08 examples/s]Tokenizing train (num_proc=12):  58%|███████████████████████████████████████▊                             | 25128/43598 [03:02<00:19, 958.43 examples/s]Tokenizing train (num_proc=12):  58%|███████████████████████████████████████▉                             | 25256/43598 [03:02<00:19, 954.93 examples/s]Tokenizing train (num_proc=12):  58%|████████████████████████████████████████▏                            | 25384/43598 [03:02<00:19, 942.76 examples/s]Tokenizing train (num_proc=12):  58%|████████████████████████████████████████▎                            | 25433/43598 [03:13<00:19, 942.76 examples/s]Tokenizing train (num_proc=12):  59%|█████████████████████████████████████████                             | 25561/43598 [03:24<13:51, 21.69 examples/s]Tokenizing train (num_proc=12):  59%|█████████████████████████████████████████▏                            | 25689/43598 [03:24<10:01, 29.76 examples/s]Tokenizing train (num_proc=12):  59%|█████████████████████████████████████████▍                            | 25817/43598 [03:24<07:13, 41.06 examples/s]Tokenizing train (num_proc=12):  60%|█████████████████████████████████████████▋                            | 25945/43598 [03:24<05:10, 56.89 examples/s]Tokenizing train (num_proc=12):  60%|█████████████████████████████████████████▊                            | 26073/43598 [03:24<03:42, 78.60 examples/s]Tokenizing train (num_proc=12):  60%|█████████████████████████████████████████▍                           | 26201/43598 [03:24<02:41, 107.93 examples/s]Tokenizing train (num_proc=12):  60%|█████████████████████████████████████████▋                           | 26329/43598 [03:24<01:57, 146.85 examples/s]Tokenizing train (num_proc=12):  61%|█████████████████████████████████████████▊                           | 26457/43598 [03:25<01:26, 197.59 examples/s]Tokenizing train (num_proc=12):  61%|██████████████████████████████████████████                           | 26585/43598 [03:25<01:05, 260.08 examples/s]Tokenizing train (num_proc=12):  61%|██████████████████████████████████████████▎                          | 26713/43598 [03:25<00:51, 330.98 examples/s]Tokenizing train (num_proc=12):  62%|██████████████████████████████████████████▍                          | 26841/43598 [03:25<00:41, 408.50 examples/s]Tokenizing train (num_proc=12):  62%|██████████████████████████████████████████▋                          | 26969/43598 [03:25<00:33, 491.63 examples/s]Tokenizing train (num_proc=12):  62%|██████████████████████████████████████████▉                          | 27097/43598 [03:25<00:29, 567.64 examples/s]Tokenizing train (num_proc=12):  62%|███████████████████████████████████████████                          | 27225/43598 [03:25<00:25, 643.30 examples/s]Tokenizing train (num_proc=12):  63%|███████████████████████████████████████████▎                         | 27353/43598 [03:26<00:22, 708.59 examples/s]Tokenizing train (num_proc=12):  63%|███████████████████████████████████████████▍                         | 27481/43598 [03:26<00:20, 772.19 examples/s]Tokenizing train (num_proc=12):  63%|███████████████████████████████████████████▋                         | 27609/43598 [03:26<00:19, 809.23 examples/s]Tokenizing train (num_proc=12):  64%|███████████████████████████████████████████▉                         | 27737/43598 [03:26<00:18, 840.62 examples/s]Tokenizing train (num_proc=12):  64%|████████████████████████████████████████████                         | 27865/43598 [03:26<00:18, 846.12 examples/s]Tokenizing train (num_proc=12):  64%|████████████████████████████████████████████▎                        | 27993/43598 [03:26<00:17, 872.78 examples/s]Tokenizing train (num_proc=12):  65%|████████████████████████████████████████████▌                        | 28121/43598 [03:26<00:17, 896.03 examples/s]Tokenizing train (num_proc=12):  65%|████████████████████████████████████████████▋                        | 28249/43598 [03:27<00:16, 918.32 examples/s]Tokenizing train (num_proc=12):  65%|████████████████████████████████████████████▉                        | 28377/43598 [03:27<00:16, 945.15 examples/s]Tokenizing train (num_proc=12):  65%|█████████████████████████████████████████████                        | 28505/43598 [03:27<00:15, 971.59 examples/s]Tokenizing train (num_proc=12):  66%|████████████████████████████████████████████▋                       | 28633/43598 [03:27<00:14, 1006.60 examples/s]Tokenizing train (num_proc=12):  66%|████████████████████████████████████████████▊                       | 28761/43598 [03:27<00:14, 1008.29 examples/s]Tokenizing train (num_proc=12):  66%|█████████████████████████████████████████████▋                       | 28889/43598 [03:27<00:14, 992.20 examples/s]Tokenizing train (num_proc=12):  67%|█████████████████████████████████████████████▉                       | 29017/43598 [03:27<00:15, 970.84 examples/s]Tokenizing train (num_proc=12):  67%|██████████████████████████████████████████████                       | 29066/43598 [03:43<00:14, 970.84 examples/s]Tokenizing train (num_proc=12):  67%|██████████████████████████████████████████████▊                       | 29194/43598 [03:48<10:43, 22.38 examples/s]Tokenizing train (num_proc=12):  67%|███████████████████████████████████████████████                       | 29322/43598 [03:48<07:44, 30.74 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████████████████████████████▎                      | 29450/43598 [03:48<05:33, 42.44 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████████████████████████████▍                      | 29578/43598 [03:49<03:58, 58.70 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████████████████████████████▋                      | 29706/43598 [03:49<02:51, 81.19 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████████████████████████████▏                     | 29834/43598 [03:49<02:03, 111.63 examples/s]Tokenizing train (num_proc=12):  69%|███████████████████████████████████████████████▍                     | 29962/43598 [03:49<01:29, 151.96 examples/s]Tokenizing train (num_proc=12):  69%|███████████████████████████████████████████████▌                     | 30090/43598 [03:49<01:06, 204.41 examples/s]Tokenizing train (num_proc=12):  69%|███████████████████████████████████████████████▊                     | 30218/43598 [03:49<00:49, 269.12 examples/s]Tokenizing train (num_proc=12):  70%|████████████████████████████████████████████████                     | 30346/43598 [03:49<00:37, 350.21 examples/s]Tokenizing train (num_proc=12):  70%|████████████████████████████████████████████████▏                    | 30474/43598 [03:49<00:30, 435.15 examples/s]Tokenizing train (num_proc=12):  70%|████████████████████████████████████████████████▍                    | 30602/43598 [03:50<00:24, 527.74 examples/s]Tokenizing train (num_proc=12):  70%|████████████████████████████████████████████████▋                    | 30730/43598 [03:50<00:20, 629.01 examples/s]Tokenizing train (num_proc=12):  71%|████████████████████████████████████████████████▊                    | 30858/43598 [03:50<00:17, 718.37 examples/s]Tokenizing train (num_proc=12):  71%|█████████████████████████████████████████████████                    | 30986/43598 [03:50<00:15, 797.03 examples/s]Tokenizing train (num_proc=12):  71%|█████████████████████████████████████████████████▏                   | 31114/43598 [03:50<00:14, 859.56 examples/s]Tokenizing train (num_proc=12):  72%|█████████████████████████████████████████████████▍                   | 31242/43598 [03:50<00:13, 907.69 examples/s]Tokenizing train (num_proc=12):  72%|█████████████████████████████████████████████████▋                   | 31370/43598 [03:50<00:12, 953.66 examples/s]Tokenizing train (num_proc=12):  72%|█████████████████████████████████████████████████▊                   | 31498/43598 [03:50<00:12, 984.56 examples/s]Tokenizing train (num_proc=12):  73%|██████████████████████████████████████████████████                   | 31626/43598 [03:51<00:12, 982.47 examples/s]Tokenizing train (num_proc=12):  73%|█████████████████████████████████████████████████▌                  | 31754/43598 [03:51<00:11, 1020.10 examples/s]Tokenizing train (num_proc=12):  73%|█████████████████████████████████████████████████▋                  | 31882/43598 [03:51<00:11, 1008.44 examples/s]Tokenizing train (num_proc=12):  73%|█████████████████████████████████████████████████▉                  | 32010/43598 [03:51<00:11, 1013.48 examples/s]Tokenizing train (num_proc=12):  74%|██████████████████████████████████████████████████▏                 | 32138/43598 [03:51<00:11, 1029.37 examples/s]Tokenizing train (num_proc=12):  74%|██████████████████████████████████████████████████▎                 | 32266/43598 [03:51<00:11, 1002.67 examples/s]Tokenizing train (num_proc=12):  74%|██████████████████████████████████████████████████▌                 | 32394/43598 [03:51<00:10, 1044.48 examples/s]Tokenizing train (num_proc=12):  75%|██████████████████████████████████████████████████▋                 | 32522/43598 [03:51<00:10, 1022.08 examples/s]Tokenizing train (num_proc=12):  75%|███████████████████████████████████████████████████▋                 | 32650/43598 [03:52<00:11, 992.55 examples/s]Tokenizing train (num_proc=12):  75%|███████████████████████████████████████████████████▊                 | 32699/43598 [04:03<00:10, 992.55 examples/s]Tokenizing train (num_proc=12):  75%|████████████████████████████████████████████████████▋                 | 32827/43598 [04:13<08:05, 22.19 examples/s]Tokenizing train (num_proc=12):  76%|████████████████████████████████████████████████████▉                 | 32955/43598 [04:13<05:49, 30.43 examples/s]Tokenizing train (num_proc=12):  76%|█████████████████████████████████████████████████████                 | 33083/43598 [04:13<04:10, 41.99 examples/s]Tokenizing train (num_proc=12):  76%|█████████████████████████████████████████████████████▎                | 33211/43598 [04:13<02:59, 58.02 examples/s]Tokenizing train (num_proc=12):  76%|█████████████████████████████████████████████████████▌                | 33339/43598 [04:13<02:08, 80.01 examples/s]Tokenizing train (num_proc=12):  77%|████████████████████████████████████████████████████▉                | 33467/43598 [04:13<01:32, 109.55 examples/s]Tokenizing train (num_proc=12):  77%|█████████████████████████████████████████████████████▏               | 33595/43598 [04:13<01:07, 148.26 examples/s]Tokenizing train (num_proc=12):  77%|█████████████████████████████████████████████████████▎               | 33723/43598 [04:14<00:49, 197.67 examples/s]Tokenizing train (num_proc=12):  78%|█████████████████████████████████████████████████████▌               | 33851/43598 [04:14<00:37, 257.21 examples/s]Tokenizing train (num_proc=12):  78%|█████████████████████████████████████████████████████▊               | 33979/43598 [04:14<00:29, 327.61 examples/s]Tokenizing train (num_proc=12):  78%|█████████████████████████████████████████████████████▉               | 34107/43598 [04:14<00:23, 406.10 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████████████████████████████████▏              | 34235/43598 [04:14<00:19, 487.45 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████████████████████████████████▍              | 34363/43598 [04:14<00:16, 565.03 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████████████████████████████████▌              | 34491/43598 [04:14<00:14, 634.99 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████████████████████████████████▊              | 34619/43598 [04:15<00:13, 689.38 examples/s]Tokenizing train (num_proc=12):  80%|██████████████████████████████████████████████████████▉              | 34747/43598 [04:15<00:11, 757.89 examples/s]Tokenizing train (num_proc=12):  80%|███████████████████████████████████████████████████████▏             | 34875/43598 [04:15<00:10, 795.95 examples/s]Tokenizing train (num_proc=12):  80%|███████████████████████████████████████████████████████▍             | 35003/43598 [04:15<00:10, 852.88 examples/s]Tokenizing train (num_proc=12):  81%|███████████████████████████████████████████████████████▌             | 35131/43598 [04:15<00:09, 889.91 examples/s]Tokenizing train (num_proc=12):  81%|███████████████████████████████████████████████████████▊             | 35259/43598 [04:15<00:09, 890.83 examples/s]Tokenizing train (num_proc=12):  81%|████████████████████████████████████████████████████████             | 35387/43598 [04:15<00:08, 916.63 examples/s]Tokenizing train (num_proc=12):  81%|████████████████████████████████████████████████████████▏            | 35515/43598 [04:16<00:08, 933.97 examples/s]Tokenizing train (num_proc=12):  82%|████████████████████████████████████████████████████████▍            | 35643/43598 [04:16<00:08, 935.72 examples/s]Tokenizing train (num_proc=12):  82%|████████████████████████████████████████████████████████▌            | 35771/43598 [04:16<00:08, 957.32 examples/s]Tokenizing train (num_proc=12):  82%|████████████████████████████████████████████████████████▊            | 35899/43598 [04:16<00:08, 951.69 examples/s]Tokenizing train (num_proc=12):  83%|█████████████████████████████████████████████████████████            | 36027/43598 [04:16<00:07, 955.01 examples/s]Tokenizing train (num_proc=12):  83%|█████████████████████████████████████████████████████████▏           | 36155/43598 [04:16<00:07, 987.11 examples/s]Tokenizing train (num_proc=12):  83%|████████████████████████████████████████████████████████▌           | 36283/43598 [04:16<00:07, 1004.96 examples/s]Tokenizing train (num_proc=12):  83%|████████████████████████████████████████████████████████▋           | 36332/43598 [04:33<00:07, 1004.96 examples/s]Tokenizing train (num_proc=12):  84%|██████████████████████████████████████████████████████████▌           | 36460/43598 [04:36<05:01, 23.69 examples/s]Tokenizing train (num_proc=12):  84%|██████████████████████████████████████████████████████████▋           | 36588/43598 [04:36<03:36, 32.42 examples/s]Tokenizing train (num_proc=12):  84%|██████████████████████████████████████████████████████████▉           | 36716/43598 [04:36<02:34, 44.56 examples/s]Tokenizing train (num_proc=12):  85%|███████████████████████████████████████████████████████████▏          | 36844/43598 [04:37<01:50, 61.34 examples/s]Tokenizing train (num_proc=12):  85%|███████████████████████████████████████████████████████████▎          | 36972/43598 [04:37<01:18, 84.23 examples/s]Tokenizing train (num_proc=12):  85%|██████████████████████████████████████████████████████████▋          | 37100/43598 [04:37<00:56, 114.44 examples/s]Tokenizing train (num_proc=12):  85%|██████████████████████████████████████████████████████████▉          | 37228/43598 [04:37<00:41, 153.42 examples/s]Tokenizing train (num_proc=12):  86%|███████████████████████████████████████████████████████████          | 37356/43598 [04:37<00:31, 199.12 examples/s]Tokenizing train (num_proc=12):  86%|███████████████████████████████████████████████████████████▎         | 37484/43598 [04:37<00:24, 254.61 examples/s]Tokenizing train (num_proc=12):  86%|███████████████████████████████████████████████████████████▌         | 37612/43598 [04:38<00:18, 319.53 examples/s]Tokenizing train (num_proc=12):  87%|███████████████████████████████████████████████████████████▋         | 37740/43598 [04:38<00:14, 397.78 examples/s]Tokenizing train (num_proc=12):  87%|███████████████████████████████████████████████████████████▉         | 37868/43598 [04:38<00:11, 477.71 examples/s]Tokenizing train (num_proc=12):  87%|████████████████████████████████████████████████████████████▏        | 37996/43598 [04:38<00:10, 550.97 examples/s]Tokenizing train (num_proc=12):  87%|████████████████████████████████████████████████████████████▎        | 38124/43598 [04:38<00:08, 635.76 examples/s]Tokenizing train (num_proc=12):  88%|████████████████████████████████████████████████████████████▌        | 38252/43598 [04:38<00:07, 685.96 examples/s]Tokenizing train (num_proc=12):  88%|████████████████████████████████████████████████████████████▋        | 38380/43598 [04:38<00:06, 745.97 examples/s]Tokenizing train (num_proc=12):  88%|████████████████████████████████████████████████████████████▉        | 38508/43598 [04:39<00:06, 796.70 examples/s]Tokenizing train (num_proc=12):  89%|█████████████████████████████████████████████████████████████▏       | 38636/43598 [04:39<00:05, 866.60 examples/s]Tokenizing train (num_proc=12):  89%|█████████████████████████████████████████████████████████████▎       | 38764/43598 [04:39<00:05, 891.22 examples/s]Tokenizing train (num_proc=12):  89%|█████████████████████████████████████████████████████████████▌       | 38892/43598 [04:39<00:05, 919.49 examples/s]Tokenizing train (num_proc=12):  89%|█████████████████████████████████████████████████████████████▊       | 39020/43598 [04:39<00:05, 914.34 examples/s]Tokenizing train (num_proc=12):  90%|█████████████████████████████████████████████████████████████▉       | 39148/43598 [04:39<00:04, 931.59 examples/s]Tokenizing train (num_proc=12):  90%|██████████████████████████████████████████████████████████████▏      | 39276/43598 [04:39<00:04, 948.99 examples/s]Tokenizing train (num_proc=12):  90%|██████████████████████████████████████████████████████████████▎      | 39404/43598 [04:39<00:04, 961.21 examples/s]Tokenizing train (num_proc=12):  91%|██████████████████████████████████████████████████████████████▌      | 39532/43598 [04:40<00:04, 966.93 examples/s]Tokenizing train (num_proc=12):  91%|██████████████████████████████████████████████████████████████▊      | 39660/43598 [04:40<00:04, 936.63 examples/s]Tokenizing train (num_proc=12):  91%|██████████████████████████████████████████████████████████████▉      | 39788/43598 [04:40<00:03, 979.78 examples/s]Tokenizing train (num_proc=12):  92%|███████████████████████████████████████████████████████████████▏     | 39916/43598 [04:40<00:03, 963.79 examples/s]Tokenizing train (num_proc=12):  92%|███████████████████████████████████████████████████████████████▎     | 39965/43598 [04:53<00:03, 963.79 examples/s]Tokenizing train (num_proc=12):  92%|████████████████████████████████████████████████████████████████▎     | 40093/43598 [05:00<02:26, 23.89 examples/s]Tokenizing train (num_proc=12):  92%|████████████████████████████████████████████████████████████████▌     | 40221/43598 [05:00<01:43, 32.78 examples/s]Tokenizing train (num_proc=12):  93%|████████████████████████████████████████████████████████████████▊     | 40349/43598 [05:00<01:11, 45.25 examples/s]Tokenizing train (num_proc=12):  93%|████████████████████████████████████████████████████████████████▉     | 40477/43598 [05:00<00:49, 62.52 examples/s]Tokenizing train (num_proc=12):  93%|█████████████████████████████████████████████████████████████████▏    | 40605/43598 [05:00<00:34, 86.25 examples/s]Tokenizing train (num_proc=12):  93%|████████████████████████████████████████████████████████████████▍    | 40733/43598 [05:00<00:24, 118.39 examples/s]Tokenizing train (num_proc=12):  94%|████████████████████████████████████████████████████████████████▋    | 40861/43598 [05:00<00:16, 161.24 examples/s]Tokenizing train (num_proc=12):  94%|████████████████████████████████████████████████████████████████▊    | 40989/43598 [05:00<00:12, 215.29 examples/s]Tokenizing train (num_proc=12):  94%|█████████████████████████████████████████████████████████████████    | 41117/43598 [05:01<00:08, 281.48 examples/s]Tokenizing train (num_proc=12):  95%|█████████████████████████████████████████████████████████████████▎   | 41245/43598 [05:01<00:06, 356.20 examples/s]Tokenizing train (num_proc=12):  95%|█████████████████████████████████████████████████████████████████▍   | 41373/43598 [05:01<00:05, 443.49 examples/s]Tokenizing train (num_proc=12):  95%|█████████████████████████████████████████████████████████████████▋   | 41501/43598 [05:01<00:03, 536.12 examples/s]Tokenizing train (num_proc=12):  95%|█████████████████████████████████████████████████████████████████▉   | 41629/43598 [05:01<00:03, 626.84 examples/s]Tokenizing train (num_proc=12):  96%|██████████████████████████████████████████████████████████████████   | 41757/43598 [05:01<00:02, 711.50 examples/s]Tokenizing train (num_proc=12):  96%|██████████████████████████████████████████████████████████████████▎  | 41885/43598 [05:01<00:02, 792.46 examples/s]Tokenizing train (num_proc=12):  96%|██████████████████████████████████████████████████████████████████▍  | 42013/43598 [05:01<00:01, 860.10 examples/s]Tokenizing train (num_proc=12):  97%|██████████████████████████████████████████████████████████████████▋  | 42141/43598 [05:01<00:01, 908.46 examples/s]Tokenizing train (num_proc=12):  97%|██████████████████████████████████████████████████████████████████▉  | 42269/43598 [05:02<00:01, 952.61 examples/s]Tokenizing train (num_proc=12):  97%|██████████████████████████████████████████████████████████████████▏ | 42397/43598 [05:02<00:01, 1011.12 examples/s]Tokenizing train (num_proc=12):  98%|██████████████████████████████████████████████████████████████████▎ | 42525/43598 [05:02<00:01, 1012.56 examples/s]Tokenizing train (num_proc=12):  98%|██████████████████████████████████████████████████████████████████▌ | 42653/43598 [05:02<00:00, 1025.41 examples/s]Tokenizing train (num_proc=12):  98%|██████████████████████████████████████████████████████████████████▋ | 42781/43598 [05:02<00:00, 1044.99 examples/s]Tokenizing train (num_proc=12):  98%|██████████████████████████████████████████████████████████████████▉ | 42909/43598 [05:02<00:00, 1059.03 examples/s]Tokenizing train (num_proc=12):  99%|███████████████████████████████████████████████████████████████████▏| 43037/43598 [05:02<00:00, 1059.80 examples/s]Tokenizing train (num_proc=12):  99%|███████████████████████████████████████████████████████████████████▎| 43165/43598 [05:02<00:00, 1110.45 examples/s]Tokenizing train (num_proc=12):  99%|███████████████████████████████████████████████████████████████████▌| 43293/43598 [05:03<00:00, 1141.41 examples/s]Tokenizing train (num_proc=12): 100%|███████████████████████████████████████████████████████████████████▋| 43421/43598 [05:03<00:00, 1100.68 examples/s]Tokenizing train (num_proc=12): 100%|███████████████████████████████████████████████████████████████████▉| 43549/43598 [05:03<00:00, 1104.89 examples/s]Tokenizing train (num_proc=12): 100%|█████████████████████████████████████████████████████████████████████| 43598/43598 [05:03<00:00, 143.61 examples/s]
[WARNING|trainer.py:816] 2026-04-23 23:48:06,607 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Saving the dataset (0/2 shards):   0%|                                                                                 | 0/43598 [00:00<?, ? examples/s]Saving the dataset (0/2 shards):  21%|█████████████▊                                                     | 9000/43598 [00:00<00:00, 70711.70 examples/s]Saving the dataset (0/2 shards):  44%|████████████████████████████▊                                     | 19000/43598 [00:00<00:00, 77515.45 examples/s]Saving the dataset (1/2 shards):  50%|█████████████████████████████████                                 | 21799/43598 [00:00<00:00, 77515.45 examples/s]Saving the dataset (1/2 shards):  68%|█████████████████████████████████████████████                     | 29799/43598 [00:00<00:00, 42390.06 examples/s]Saving the dataset (1/2 shards):  89%|██████████████████████████████████████████████████████████▋       | 38799/43598 [00:00<00:00, 51087.07 examples/s]Saving the dataset (2/2 shards): 100%|██████████████████████████████████████████████████████████████████| 43598/43598 [00:01<00:00, 51087.07 examples/s]Saving the dataset (2/2 shards): 100%|██████████████████████████████████████████████████████████████████| 43598/43598 [00:01<00:00, 42979.60 examples/s]
[WARNING|trainer.py:816] 2026-04-23 23:48:08,441 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Tokenizing test (num_proc=12):   0%|                                                                                    | 0/2339 [00:00<?, ? examples/s]Tokenizing test (num_proc=12):   5%|████                                                                      | 128/2339 [00:42<12:22,  2.98 examples/s]Tokenizing test (num_proc=12):  14%|██████████▏                                                               | 323/2339 [01:13<07:09,  4.69 examples/s]Tokenizing test (num_proc=12):  22%|████████████████▍                                                         | 518/2339 [01:41<05:27,  5.57 examples/s]Tokenizing test (num_proc=12):  30%|██████████████████████▌                                                   | 713/2339 [02:09<04:27,  6.08 examples/s]Tokenizing test (num_proc=12):  39%|████████████████████████████▋                                             | 908/2339 [02:36<03:40,  6.49 examples/s]Tokenizing test (num_proc=12):  42%|██████████████████████████████▊                                           | 975/2339 [02:36<02:57,  7.66 examples/s]Tokenizing test (num_proc=12):  42%|██████████████████████████████▊                                           | 975/2339 [02:56<02:57,  7.66 examples/s]Tokenizing test (num_proc=12):  47%|██████████████████████████████████▍                                      | 1103/2339 [03:10<03:31,  5.85 examples/s]Tokenizing test (num_proc=12):  55%|████████████████████████████████████████▌                                | 1298/2339 [03:36<02:43,  6.38 examples/s]Tokenizing test (num_proc=12):  64%|██████████████████████████████████████████████▌                          | 1493/2339 [04:05<02:08,  6.56 examples/s]Tokenizing test (num_proc=12):  72%|████████████████████████████████████████████████████▋                    | 1688/2339 [04:32<01:36,  6.75 examples/s]Tokenizing test (num_proc=12):  81%|██████████████████████████████████████████████████████████▊              | 1883/2339 [04:56<01:03,  7.13 examples/s]Tokenizing test (num_proc=12):  89%|████████████████████████████████████████████████████████████████▊        | 2078/2339 [05:23<00:36,  7.17 examples/s]Tokenizing test (num_proc=12):  97%|██████████████████████████████████████████████████████████████████████▉  | 2273/2339 [05:50<00:09,  7.19 examples/s]Tokenizing test (num_proc=12): 100%|█████████████████████████████████████████████████████████████████████████| 2339/2339 [05:50<00:00,  6.67 examples/s]
[WARNING|trainer.py:816] 2026-04-23 23:54:51,050 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Saving the dataset (0/1 shards):   0%|                                                                                  | 0/2339 [00:00<?, ? examples/s]Saving the dataset (1/1 shards): 100%|████████████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 31919.56 examples/s]Saving the dataset (1/1 shards): 100%|████████████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 31831.43 examples/s]
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `MarginDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
[WARNING|trainer.py:816] 2026-04-23 23:54:52,421 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-23 23:54:52,422 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-23 23:54:52,422 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-23 23:54:52,560 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-23 23:54:52,561 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-23 23:54:52,561 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-23 23:54:52,561 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-23 23:54:52,561 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-23 23:54:52,561 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-23 23:54:52,575 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `MarginDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
[WARNING|trainer.py:816] 2026-04-23 23:54:52,576 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-23 23:54:52,576 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `MarginDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `MarginDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
[INFO|trainer.py:748] 2026-04-23 23:54:52,688 >> Using auto half precision backend
/home/qu.yang1/.conda/envs/dpo_v4/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in Qwen3ForCausalLM because mixed precision turned on in FSDP. Affects: model.embed_tokens.weight, model.norm.weight, lm_head.weight.
  warnings.warn(
/home/qu.yang1/.conda/envs/dpo_v4/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in Qwen3DecoderLayer because mixed precision turned on in FSDP. Affects: self_attn.q_proj.weight, self_attn.k_proj.weight, self_attn.v_proj.weight, self_attn.o_proj.weight, self_attn.q_norm.weight, self_attn.k_norm.weight, mlp.gate_proj.weight, mlp.up_proj.weight, mlp.down_proj.weight, input_layernorm.weight, post_attention_layernorm.weight.
  warnings.warn(
/home/qu.yang1/.conda/envs/dpo_v4/lib/python3.11/site-packages/accelerate/accelerator.py:1563: UserWarning: FSDP upcast of low precision parameters may affect the precision of model checkpoints.
  warnings.warn(
[INFO|trainer.py:2414] 2026-04-23 23:55:00,030 >> ***** Running training *****
[INFO|trainer.py:2415] 2026-04-23 23:55:00,030 >>   Num examples = 43,598
[INFO|trainer.py:2416] 2026-04-23 23:55:00,030 >>   Num Epochs = 1
[INFO|trainer.py:2417] 2026-04-23 23:55:00,030 >>   Instantaneous batch size per device = 8
[INFO|trainer.py:2420] 2026-04-23 23:55:00,030 >>   Total train batch size (w. parallel, distributed & accumulation) = 64
[INFO|trainer.py:2421] 2026-04-23 23:55:00,030 >>   Gradient Accumulation steps = 2
[INFO|trainer.py:2422] 2026-04-23 23:55:00,030 >>   Total optimization steps = 681
[INFO|trainer.py:2423] 2026-04-23 23:55:00,031 >>   Number of trainable parameters = 2,047,683,840
[INFO|integration_utils.py:831] 2026-04-23 23:55:00,032 >> Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
wandb: Currently logged in as: feng-cheng (feng-cheng-northeastern-university). Use `wandb login --relogin` to force relogin
wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: wandb version 0.26.1 is available!  To upgrade, please run:
wandb:  $ pip install wandb --upgrade
wandb: Tracking run with wandb version 0.17.5
wandb: Run data is saved locally in /scratch/qu.yang1/wandb/wandb/run-20260423_235502-3smfot9g
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948
wandb: ⭐️ View project at https://wandb.ai/feng-cheng-northeastern-university/qwen3_hh_4xh200_beta_0.1
wandb: 🚀 View run at https://wandb.ai/feng-cheng-northeastern-university/qwen3_hh_4xh200_beta_0.1/runs/3smfot9g
  0%|                                                                                                                           | 0/681 [00:00<?, ?it/s][WARNING|modeling_utils.py:1713] 2026-04-23 23:55:09,103 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
[WARNING|modeling_utils.py:1713] 2026-04-23 23:55:09,103 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
[WARNING|modeling_utils.py:1713] 2026-04-23 23:55:09,103 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
[WARNING|modeling_utils.py:1713] 2026-04-23 23:55:09,104 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
  0%|▏                                                                                                                  | 1/681 [00:03<39:22,  3.47s/it]                                                                                                                                                        {'loss': 1.3807, 'grad_norm': 38.81923294067383, 'learning_rate': 0.0, 'margin_dpo/margin_mean': 0.17585086822509766, 'margin_dpo/margin_std': 0.4164121747016907, 'logps/chosen': -93.47865295410156, 'logps/rejected': -87.99055480957031, 'logps/ref_chosen': -93.52638244628906, 'logps/ref_rejected': -87.86244201660156, 'logits/chosen': -0.1428939700126648, 'logits/rejected': 0.2641817033290863, 'epoch': 0.0}
  0%|▏                                                                                                                  | 1/681 [00:03<39:22,  3.47s/it]  0%|▎                                                                                                                  | 2/681 [00:06<36:42,  3.24s/it]                                                                                                                                                        {'loss': 1.3992, 'grad_norm': 29.758581161499023, 'learning_rate': 7.246376811594203e-09, 'margin_dpo/margin_mean': -0.21839451789855957, 'margin_dpo/margin_std': 0.35581544041633606, 'logps/chosen': -73.25503540039062, 'logps/rejected': -89.52894592285156, 'logps/ref_chosen': -73.14814758300781, 'logps/ref_rejected': -89.64044952392578, 'logits/chosen': 0.512961745262146, 'logits/rejected': 0.6081655621528625, 'epoch': 0.0}
  0%|▎                                                                                                                  | 2/681 [00:06<36:42,  3.24s/it]  0%|▌                                                                                                                  | 3/681 [00:09<35:35,  3.15s/it]                                                                                                                                                        {'loss': 1.3837, 'grad_norm': 26.006439208984375, 'learning_rate': 1.4492753623188406e-08, 'margin_dpo/margin_mean': -0.05109751224517822, 'margin_dpo/margin_std': 0.4686650037765503, 'logps/chosen': -87.74197387695312, 'logps/rejected': -79.21536254882812, 'logps/ref_chosen': -87.6579818725586, 'logps/ref_rejected': -79.18247985839844, 'logits/chosen': 0.19662049412727356, 'logits/rejected': 0.37471911311149597, 'epoch': 0.0}
  0%|▌                                                                                                                  | 3/681 [00:09<35:35,  3.15s/it]  1%|▋                                                                                                                  | 4/681 [00:12<35:16,  3.13s/it]                                                                                                                                                        {'loss': 1.3874, 'grad_norm': 32.8250846862793, 'learning_rate': 2.1739130434782606e-08, 'margin_dpo/margin_mean': -0.0798501968383789, 'margin_dpo/margin_std': 0.3638986647129059, 'logps/chosen': -105.30754089355469, 'logps/rejected': -102.12972259521484, 'logps/ref_chosen': -105.203125, 'logps/ref_rejected': -102.10517120361328, 'logits/chosen': 0.915730357170105, 'logits/rejected': 1.033768653869629, 'epoch': 0.01}
  1%|▋                                                                                                                  | 4/681 [00:12<35:16,  3.13s/it]  1%|▊                                                                                                                  | 5/681 [00:15<34:43,  3.08s/it]                                                                                                                                                        {'loss': 1.3839, 'grad_norm': 35.19728469848633, 'learning_rate': 2.898550724637681e-08, 'margin_dpo/margin_mean': 0.04048585891723633, 'margin_dpo/margin_std': 0.3670598566532135, 'logps/chosen': -100.4297103881836, 'logps/rejected': -85.85408020019531, 'logps/ref_chosen': -100.44102478027344, 'logps/ref_rejected': -85.82490539550781, 'logits/chosen': 0.7488752007484436, 'logits/rejected': 1.0472900867462158, 'epoch': 0.01}
  1%|▊                                                                                                                  | 5/681 [00:15<34:43,  3.08s/it]  1%|█                                                                                                                  | 6/681 [00:18<32:46,  2.91s/it]                                                                                                                                                        {'loss': 1.3876, 'grad_norm': 36.038734436035156, 'learning_rate': 3.6231884057971014e-08, 'margin_dpo/margin_mean': -0.04591703414916992, 'margin_dpo/margin_std': 0.4173058867454529, 'logps/chosen': -80.59754943847656, 'logps/rejected': -98.21786499023438, 'logps/ref_chosen': -80.54146575927734, 'logps/ref_rejected': -98.20770263671875, 'logits/chosen': 0.8637112379074097, 'logits/rejected': 1.1790170669555664, 'epoch': 0.01}
  1%|█                                                                                                                  | 6/681 [00:18<32:46,  2.91s/it]  1%|█▏                                                                                                                 | 7/681 [00:21<32:31,  2.90s/it]                                                                                                                                                        {'loss': 1.3861, 'grad_norm': 37.97282791137695, 'learning_rate': 4.347826086956521e-08, 'margin_dpo/margin_mean': 0.09017288684844971, 'margin_dpo/margin_std': 0.35818028450012207, 'logps/chosen': -73.5165786743164, 'logps/rejected': -140.79434204101562, 'logps/ref_chosen': -73.49665832519531, 'logps/ref_rejected': -140.68423461914062, 'logits/chosen': 0.5081789493560791, 'logits/rejected': 0.3699849247932434, 'epoch': 0.01}
  1%|█▏                                                                                                                 | 7/681 [00:21<32:31,  2.90s/it]  1%|█▎                                                                                                                 | 8/681 [00:24<32:29,  2.90s/it]                                                                                                                                                        {'loss': 1.3838, 'grad_norm': 32.7470588684082, 'learning_rate': 5.0724637681159424e-08, 'margin_dpo/margin_mean': 0.049311161041259766, 'margin_dpo/margin_std': 0.30581894516944885, 'logps/chosen': -98.04469299316406, 'logps/rejected': -81.3835678100586, 'logps/ref_chosen': -98.0727310180664, 'logps/ref_rejected': -81.36228942871094, 'logits/chosen': 0.4470105469226837, 'logits/rejected': 0.7369768619537354, 'epoch': 0.01}
  1%|█▎                                                                                                                 | 8/681 [00:24<32:29,  2.90s/it]  1%|█▌                                                                                                                 | 9/681 [00:27<32:46,  2.93s/it]                                                                                                                                                        {'loss': 1.3824, 'grad_norm': 35.992156982421875, 'learning_rate': 5.797101449275362e-08, 'margin_dpo/margin_mean': 0.14239072799682617, 'margin_dpo/margin_std': 0.3212544918060303, 'logps/chosen': -107.1036376953125, 'logps/rejected': -116.99057006835938, 'logps/ref_chosen': -107.1068115234375, 'logps/ref_rejected': -116.85135650634766, 'logits/chosen': 0.950916051864624, 'logits/rejected': 1.1352921724319458, 'epoch': 0.01}
  1%|█▌                                                                                                                 | 9/681 [00:27<32:46,  2.93s/it]  1%|█▋                                                                                                                | 10/681 [00:29<32:38,  2.92s/it]                                                                                                                                                        {'loss': 1.3932, 'grad_norm': 33.56389617919922, 'learning_rate': 6.521739130434782e-08, 'margin_dpo/margin_mean': -0.027948379516601562, 'margin_dpo/margin_std': 0.4402916133403778, 'logps/chosen': -70.4057388305664, 'logps/rejected': -82.73629760742188, 'logps/ref_chosen': -70.45864868164062, 'logps/ref_rejected': -82.8171615600586, 'logits/chosen': 0.49613165855407715, 'logits/rejected': 0.59611976146698, 'epoch': 0.01}
  1%|█▋                                                                                                                | 10/681 [00:29<32:38,  2.92s/it]  2%|█▊                                                                                                                | 11/681 [00:32<32:51,  2.94s/it]                                                                                                                                                        {'loss': 1.3795, 'grad_norm': 36.561405181884766, 'learning_rate': 7.246376811594203e-08, 'margin_dpo/margin_mean': 0.1353701949119568, 'margin_dpo/margin_std': 0.31776195764541626, 'logps/chosen': -98.91744232177734, 'logps/rejected': -64.2801742553711, 'logps/ref_chosen': -98.9473876953125, 'logps/ref_rejected': -64.17475128173828, 'logits/chosen': 0.7130615711212158, 'logits/rejected': 0.9787681102752686, 'epoch': 0.02}
  2%|█▊                                                                                                                | 11/681 [00:32<32:51,  2.94s/it]  2%|██                                                                                                                | 12/681 [00:35<32:58,  2.96s/it]                                                                                                                                                        {'loss': 1.3757, 'grad_norm': 39.813255310058594, 'learning_rate': 7.971014492753623e-08, 'margin_dpo/margin_mean': 0.005125999450683594, 'margin_dpo/margin_std': 0.4299471974372864, 'logps/chosen': -104.32192993164062, 'logps/rejected': -128.5462646484375, 'logps/ref_chosen': -104.27352142333984, 'logps/ref_rejected': -128.4927215576172, 'logits/chosen': -0.26005640625953674, 'logits/rejected': -0.09152386337518692, 'epoch': 0.02}
  2%|██                                                                                                                | 12/681 [00:35<32:58,  2.96s/it]  2%|██▏                                                                                                               | 13/681 [00:39<33:32,  3.01s/it]                                                                                                                                                        {'loss': 1.382, 'grad_norm': 41.7731819152832, 'learning_rate': 8.695652173913042e-08, 'margin_dpo/margin_mean': 0.041529059410095215, 'margin_dpo/margin_std': 0.49482065439224243, 'logps/chosen': -101.96672058105469, 'logps/rejected': -78.45487976074219, 'logps/ref_chosen': -102.03691101074219, 'logps/ref_rejected': -78.48355102539062, 'logits/chosen': 0.3225553631782532, 'logits/rejected': 0.6485546827316284, 'epoch': 0.02}
  2%|██▏                                                                                                               | 13/681 [00:39<33:32,  3.01s/it]  2%|██▎                                                                                                               | 14/681 [00:42<33:39,  3.03s/it]                                                                                                                                                        {'loss': 1.3945, 'grad_norm': 35.894309997558594, 'learning_rate': 9.420289855072464e-08, 'margin_dpo/margin_mean': -0.3216536045074463, 'margin_dpo/margin_std': 0.47595691680908203, 'logps/chosen': -119.18898010253906, 'logps/rejected': -117.81944274902344, 'logps/ref_chosen': -119.02677917480469, 'logps/ref_rejected': -117.97889709472656, 'logits/chosen': 0.40504711866378784, 'logits/rejected': 0.5168009400367737, 'epoch': 0.02}
  2%|██▎                                                                                                               | 14/681 [00:42<33:39,  3.03s/it]  2%|██▌                                                                                                               | 15/681 [00:45<34:01,  3.06s/it]                                                                                                                                                        {'loss': 1.3854, 'grad_norm': 31.745962142944336, 'learning_rate': 1.0144927536231885e-07, 'margin_dpo/margin_mean': -0.06406116485595703, 'margin_dpo/margin_std': 0.37379056215286255, 'logps/chosen': -74.27200317382812, 'logps/rejected': -95.67192077636719, 'logps/ref_chosen': -74.2003173828125, 'logps/ref_rejected': -95.664306640625, 'logits/chosen': 0.22957265377044678, 'logits/rejected': 0.4173096716403961, 'epoch': 0.02}
  2%|██▌                                                                                                               | 15/681 [00:45<34:01,  3.06s/it]  2%|██▋                                                                                                               | 16/681 [00:48<33:15,  3.00s/it]                                                                                                                                                        {'loss': 1.3769, 'grad_norm': 34.3470344543457, 'learning_rate': 1.0869565217391303e-07, 'margin_dpo/margin_mean': 0.24891865253448486, 'margin_dpo/margin_std': 0.6235331296920776, 'logps/chosen': -111.2186279296875, 'logps/rejected': -87.1607666015625, 'logps/ref_chosen': -111.30982208251953, 'logps/ref_rejected': -87.0030517578125, 'logits/chosen': -0.015835046768188477, 'logits/rejected': 0.32137343287467957, 'epoch': 0.02}
  2%|██▋                                                                                                               | 16/681 [00:48<33:15,  3.00s/it]  2%|██▊                                                                                                               | 17/681 [00:50<32:43,  2.96s/it]                                                                                                                                                        {'loss': 1.3844, 'grad_norm': 35.640289306640625, 'learning_rate': 1.1594202898550725e-07, 'margin_dpo/margin_mean': 0.13567650318145752, 'margin_dpo/margin_std': 0.3899996876716614, 'logps/chosen': -104.69229125976562, 'logps/rejected': -103.0672607421875, 'logps/ref_chosen': -104.84930419921875, 'logps/ref_rejected': -103.08859252929688, 'logits/chosen': 0.13770782947540283, 'logits/rejected': 0.37006980180740356, 'epoch': 0.02}
  2%|██▊                                                                                                               | 17/681 [00:51<32:43,  2.96s/it]  3%|███                                                                                                               | 18/681 [00:53<32:15,  2.92s/it]                                                                                                                                                        {'loss': 1.3876, 'grad_norm': 41.77239227294922, 'learning_rate': 1.2318840579710146e-07, 'margin_dpo/margin_mean': 0.03688061237335205, 'margin_dpo/margin_std': 0.48090770840644836, 'logps/chosen': -95.5035400390625, 'logps/rejected': -105.9694595336914, 'logps/ref_chosen': -95.57725524902344, 'logps/ref_rejected': -106.00630187988281, 'logits/chosen': 0.07230012118816376, 'logits/rejected': 0.59023118019104, 'epoch': 0.03}
  3%|███                                                                                                               | 18/681 [00:53<32:15,  2.92s/it]  3%|███▏                                                                                                              | 19/681 [00:56<32:25,  2.94s/it]                                                                                                                                                        {'loss': 1.3845, 'grad_norm': 31.308109283447266, 'learning_rate': 1.3043478260869563e-07, 'margin_dpo/margin_mean': -0.03345954418182373, 'margin_dpo/margin_std': 0.2865228056907654, 'logps/chosen': -81.89685821533203, 'logps/rejected': -86.17457580566406, 'logps/ref_chosen': -81.85494995117188, 'logps/ref_rejected': -86.16612243652344, 'logits/chosen': 0.2451936900615692, 'logits/rejected': 0.5206657648086548, 'epoch': 0.03}
  3%|███▏                                                                                                              | 19/681 [00:56<32:25,  2.94s/it]  3%|███▎                                                                                                              | 20/681 [00:59<32:22,  2.94s/it]                                                                                                                                                        {'loss': 1.3841, 'grad_norm': 32.505680084228516, 'learning_rate': 1.3768115942028986e-07, 'margin_dpo/margin_mean': -0.0009757280349731445, 'margin_dpo/margin_std': 0.45821622014045715, 'logps/chosen': -94.32595825195312, 'logps/rejected': -83.14512634277344, 'logps/ref_chosen': -94.21621704101562, 'logps/ref_rejected': -83.03634643554688, 'logits/chosen': 0.35453853011131287, 'logits/rejected': 0.6151764988899231, 'epoch': 0.03}
  3%|███▎                                                                                                              | 20/681 [00:59<32:22,  2.94s/it]  3%|███▌                                                                                                              | 21/681 [01:02<32:05,  2.92s/it]                                                                                                                                                        {'loss': 1.3781, 'grad_norm': 31.37238883972168, 'learning_rate': 1.4492753623188405e-07, 'margin_dpo/margin_mean': 0.12594342231750488, 'margin_dpo/margin_std': 0.3411893844604492, 'logps/chosen': -98.95984649658203, 'logps/rejected': -67.98387908935547, 'logps/ref_chosen': -99.03758239746094, 'logps/ref_rejected': -67.93568420410156, 'logits/chosen': 0.6882296800613403, 'logits/rejected': 1.0381821393966675, 'epoch': 0.03}
  3%|███▌                                                                                                              | 21/681 [01:02<32:05,  2.92s/it]  3%|███▋                                                                                                              | 22/681 [01:05<32:59,  3.00s/it]                                                                                                                                                        {'loss': 1.3815, 'grad_norm': 42.97276306152344, 'learning_rate': 1.5217391304347825e-07, 'margin_dpo/margin_mean': 0.040738582611083984, 'margin_dpo/margin_std': 0.3939288258552551, 'logps/chosen': -74.99850463867188, 'logps/rejected': -128.13372802734375, 'logps/ref_chosen': -74.9967041015625, 'logps/ref_rejected': -128.09115600585938, 'logits/chosen': 0.5317803621292114, 'logits/rejected': 0.4500496983528137, 'epoch': 0.03}
  3%|███▋                                                                                                              | 22/681 [01:05<32:59,  3.00s/it]  3%|███▊                                                                                                              | 23/681 [01:08<33:13,  3.03s/it]                                                                                                                                                        {'loss': 1.3858, 'grad_norm': 31.378528594970703, 'learning_rate': 1.5942028985507245e-07, 'margin_dpo/margin_mean': 0.05478942394256592, 'margin_dpo/margin_std': 0.2976340651512146, 'logps/chosen': -81.11967468261719, 'logps/rejected': -110.63468933105469, 'logps/ref_chosen': -81.07363891601562, 'logps/ref_rejected': -110.53385925292969, 'logits/chosen': 0.5977481007575989, 'logits/rejected': 0.6081861257553101, 'epoch': 0.03}
  3%|███▊                                                                                                              | 23/681 [01:08<33:13,  3.03s/it]  4%|████                                                                                                              | 24/681 [01:11<33:22,  3.05s/it]                                                                                                                                                        {'loss': 1.3832, 'grad_norm': 44.402305603027344, 'learning_rate': 1.6666666666666665e-07, 'margin_dpo/margin_mean': -0.02987229824066162, 'margin_dpo/margin_std': 0.22926175594329834, 'logps/chosen': -65.41180419921875, 'logps/rejected': -64.81765747070312, 'logps/ref_chosen': -65.40289306640625, 'logps/ref_rejected': -64.838623046875, 'logits/chosen': 0.6498656272888184, 'logits/rejected': 0.7695809602737427, 'epoch': 0.04}
  4%|████                                                                                                              | 24/681 [01:12<33:22,  3.05s/it]  4%|████▏                                                                                                             | 25/681 [01:15<33:29,  3.06s/it]                                                                                                                                                        {'loss': 1.3793, 'grad_norm': 36.98027038574219, 'learning_rate': 1.7391304347826085e-07, 'margin_dpo/margin_mean': -0.003041386604309082, 'margin_dpo/margin_std': 0.5337319374084473, 'logps/chosen': -85.75971984863281, 'logps/rejected': -121.53792572021484, 'logps/ref_chosen': -85.73371887207031, 'logps/ref_rejected': -121.51497650146484, 'logits/chosen': 0.8376168012619019, 'logits/rejected': 0.9103662967681885, 'epoch': 0.04}
  4%|████▏                                                                                                             | 25/681 [01:15<33:29,  3.06s/it]  4%|████▎                                                                                                             | 26/681 [01:17<31:51,  2.92s/it]                                                                                                                                                        {'loss': 1.3965, 'grad_norm': 41.38254165649414, 'learning_rate': 1.8115942028985507e-07, 'margin_dpo/margin_mean': -0.0806952714920044, 'margin_dpo/margin_std': 0.3255520761013031, 'logps/chosen': -81.58695220947266, 'logps/rejected': -150.1844482421875, 'logps/ref_chosen': -81.50300598144531, 'logps/ref_rejected': -150.1811981201172, 'logits/chosen': 0.19763419032096863, 'logits/rejected': 0.4370805025100708, 'epoch': 0.04}
  4%|████▎                                                                                                             | 26/681 [01:17<31:51,  2.92s/it]  4%|████▌                                                                                                             | 27/681 [01:20<31:37,  2.90s/it]                                                                                                                                                        {'loss': 1.3714, 'grad_norm': 44.32342529296875, 'learning_rate': 1.8840579710144927e-07, 'margin_dpo/margin_mean': 0.19344651699066162, 'margin_dpo/margin_std': 0.43172699213027954, 'logps/chosen': -80.22408294677734, 'logps/rejected': -113.37527465820312, 'logps/ref_chosen': -80.2718505859375, 'logps/ref_rejected': -113.22959899902344, 'logits/chosen': -0.14630630612373352, 'logits/rejected': 0.150857076048851, 'epoch': 0.04}
  4%|████▌                                                                                                             | 27/681 [01:20<31:37,  2.90s/it]  4%|████▋                                                                                                             | 28/681 [01:23<31:40,  2.91s/it]                                                                                                                                                        {'loss': 1.3747, 'grad_norm': 36.64478302001953, 'learning_rate': 1.9565217391304347e-07, 'margin_dpo/margin_mean': 0.19830501079559326, 'margin_dpo/margin_std': 0.31042030453681946, 'logps/chosen': -92.43882751464844, 'logps/rejected': -98.50408935546875, 'logps/ref_chosen': -92.57330322265625, 'logps/ref_rejected': -98.44024658203125, 'logits/chosen': 0.3271695375442505, 'logits/rejected': 0.4185149073600769, 'epoch': 0.04}
  4%|████▋                                                                                                             | 28/681 [01:23<31:40,  2.91s/it]  4%|████▊                                                                                                             | 29/681 [01:26<30:32,  2.81s/it]                                                                                                                                                        {'loss': 1.3787, 'grad_norm': 42.460182189941406, 'learning_rate': 2.028985507246377e-07, 'margin_dpo/margin_mean': 0.1480005383491516, 'margin_dpo/margin_std': 0.3144315779209137, 'logps/chosen': -79.79510498046875, 'logps/rejected': -96.49360656738281, 'logps/ref_chosen': -79.78430938720703, 'logps/ref_rejected': -96.3348159790039, 'logits/chosen': 0.35313108563423157, 'logits/rejected': 0.45420438051223755, 'epoch': 0.04}
  4%|████▊                                                                                                             | 29/681 [01:26<30:32,  2.81s/it]  4%|█████                                                                                                             | 30/681 [01:29<32:21,  2.98s/it]                                                                                                                                                        {'loss': 1.3812, 'grad_norm': 39.358245849609375, 'learning_rate': 2.1014492753623187e-07, 'margin_dpo/margin_mean': 0.17785942554473877, 'margin_dpo/margin_std': 0.42279767990112305, 'logps/chosen': -115.38392639160156, 'logps/rejected': -118.85655975341797, 'logps/ref_chosen': -115.44339752197266, 'logps/ref_rejected': -118.73816680908203, 'logits/chosen': 0.7991341948509216, 'logits/rejected': 0.8507763147354126, 'epoch': 0.04}
  4%|█████                                                                                                             | 30/681 [01:29<32:21,  2.98s/it]  5%|█████▏                                                                                                            | 31/681 [01:32<32:38,  3.01s/it]                                                                                                                                                        {'loss': 1.376, 'grad_norm': 31.34886360168457, 'learning_rate': 2.1739130434782607e-07, 'margin_dpo/margin_mean': -0.029139041900634766, 'margin_dpo/margin_std': 0.2328224629163742, 'logps/chosen': -80.2682113647461, 'logps/rejected': -72.02093505859375, 'logps/ref_chosen': -80.27281188964844, 'logps/ref_rejected': -72.05465698242188, 'logits/chosen': 0.7612583637237549, 'logits/rejected': 0.9483832120895386, 'epoch': 0.05}
  5%|█████▏                                                                                                            | 31/681 [01:32<32:38,  3.01s/it]  5%|█████▎                                                                                                            | 32/681 [01:35<32:39,  3.02s/it]                                                                                                                                                        {'loss': 1.3753, 'grad_norm': 35.19465255737305, 'learning_rate': 2.2463768115942027e-07, 'margin_dpo/margin_mean': 0.1294306516647339, 'margin_dpo/margin_std': 0.5172077417373657, 'logps/chosen': -106.95022583007812, 'logps/rejected': -101.90875244140625, 'logps/ref_chosen': -106.981201171875, 'logps/ref_rejected': -101.810302734375, 'logits/chosen': 0.9847223162651062, 'logits/rejected': 1.10117506980896, 'epoch': 0.05}
  5%|█████▎                                                                                                            | 32/681 [01:35<32:39,  3.02s/it]  5%|█████▌                                                                                                            | 33/681 [01:38<31:45,  2.94s/it]                                                                                                                                                        {'loss': 1.373, 'grad_norm': 33.5123291015625, 'learning_rate': 2.318840579710145e-07, 'margin_dpo/margin_mean': 0.16950154304504395, 'margin_dpo/margin_std': 0.31402474641799927, 'logps/chosen': -92.93179321289062, 'logps/rejected': -108.07872009277344, 'logps/ref_chosen': -92.88273620605469, 'logps/ref_rejected': -107.86016082763672, 'logits/chosen': 0.8942906856536865, 'logits/rejected': 1.0839948654174805, 'epoch': 0.05}
  5%|█████▌                                                                                                            | 33/681 [01:38<31:45,  2.94s/it]  5%|█████▋                                                                                                            | 34/681 [01:41<31:56,  2.96s/it]                                                                                                                                                        {'loss': 1.3738, 'grad_norm': 40.969905853271484, 'learning_rate': 2.391304347826087e-07, 'margin_dpo/margin_mean': 0.11852216720581055, 'margin_dpo/margin_std': 0.2863542437553406, 'logps/chosen': -96.10871887207031, 'logps/rejected': -111.40603637695312, 'logps/ref_chosen': -96.13287353515625, 'logps/ref_rejected': -111.3116683959961, 'logits/chosen': 0.3540779948234558, 'logits/rejected': 0.8411053419113159, 'epoch': 0.05}
  5%|█████▋                                                                                                            | 34/681 [01:41<31:56,  2.96s/it]  5%|█████▊                                                                                                            | 35/681 [01:44<31:37,  2.94s/it]                                                                                                                                                        {'loss': 1.3743, 'grad_norm': 43.0073127746582, 'learning_rate': 2.463768115942029e-07, 'margin_dpo/margin_mean': -0.04916191101074219, 'margin_dpo/margin_std': 0.3702870309352875, 'logps/chosen': -68.8739013671875, 'logps/rejected': -110.1253662109375, 'logps/ref_chosen': -68.71487426757812, 'logps/ref_rejected': -110.0155029296875, 'logits/chosen': 0.4877297878265381, 'logits/rejected': 0.7324085235595703, 'epoch': 0.05}
  5%|█████▊                                                                                                            | 35/681 [01:44<31:37,  2.94s/it]  5%|██████                                                                                                            | 36/681 [01:47<31:51,  2.96s/it]                                                                                                                                                        {'loss': 1.3695, 'grad_norm': 32.48810577392578, 'learning_rate': 2.536231884057971e-07, 'margin_dpo/margin_mean': 0.1472916603088379, 'margin_dpo/margin_std': 0.4905526340007782, 'logps/chosen': -65.26568603515625, 'logps/rejected': -72.68403625488281, 'logps/ref_chosen': -65.30921936035156, 'logps/ref_rejected': -72.58026885986328, 'logits/chosen': 0.265766441822052, 'logits/rejected': 0.3960006833076477, 'epoch': 0.05}
  5%|██████                                                                                                            | 36/681 [01:47<31:51,  2.96s/it]  5%|██████▏                                                                                                           | 37/681 [01:50<31:57,  2.98s/it]                                                                                                                                                        {'loss': 1.3602, 'grad_norm': 35.842777252197266, 'learning_rate': 2.6086956521739126e-07, 'margin_dpo/margin_mean': 0.21903866529464722, 'margin_dpo/margin_std': 0.4852628707885742, 'logps/chosen': -113.5171127319336, 'logps/rejected': -84.8321304321289, 'logps/ref_chosen': -113.48770141601562, 'logps/ref_rejected': -84.58368682861328, 'logits/chosen': 0.3955993056297302, 'logits/rejected': 0.6936404705047607, 'epoch': 0.05}
  5%|██████▏                                                                                                           | 37/681 [01:50<31:57,  2.98s/it]  6%|██████▎                                                                                                           | 38/681 [01:53<31:31,  2.94s/it]                                                                                                                                                        {'loss': 1.3655, 'grad_norm': 36.82903289794922, 'learning_rate': 2.681159420289855e-07, 'margin_dpo/margin_mean': 0.187727689743042, 'margin_dpo/margin_std': 0.7143464088439941, 'logps/chosen': -92.1820297241211, 'logps/rejected': -146.4608917236328, 'logps/ref_chosen': -92.26864624023438, 'logps/ref_rejected': -146.35977172851562, 'logits/chosen': 0.6250002384185791, 'logits/rejected': 0.7215943336486816, 'epoch': 0.06}
  6%|██████▎                                                                                                           | 38/681 [01:53<31:31,  2.94s/it]  6%|██████▌                                                                                                           | 39/681 [01:55<31:17,  2.93s/it]                                                                                                                                                        {'loss': 1.3574, 'grad_norm': 36.069664001464844, 'learning_rate': 2.753623188405797e-07, 'margin_dpo/margin_mean': 0.39781689643859863, 'margin_dpo/margin_std': 0.4662584066390991, 'logps/chosen': -81.108154296875, 'logps/rejected': -83.49285888671875, 'logps/ref_chosen': -81.08113098144531, 'logps/ref_rejected': -83.06800842285156, 'logits/chosen': 0.7301809191703796, 'logits/rejected': 1.0973470211029053, 'epoch': 0.06}
  6%|██████▌                                                                                                           | 39/681 [01:56<31:17,  2.93s/it]  6%|██████▋                                                                                                           | 40/681 [01:58<30:52,  2.89s/it]                                                                                                                                                        {'loss': 1.3609, 'grad_norm': 29.052732467651367, 'learning_rate': 2.8260869565217386e-07, 'margin_dpo/margin_mean': 0.1183696985244751, 'margin_dpo/margin_std': 0.33317673206329346, 'logps/chosen': -76.96479797363281, 'logps/rejected': -75.19844055175781, 'logps/ref_chosen': -76.87438201904297, 'logps/ref_rejected': -74.98965454101562, 'logits/chosen': 0.8642468452453613, 'logits/rejected': 0.9313390254974365, 'epoch': 0.06}
  6%|██████▋                                                                                                           | 40/681 [01:58<30:52,  2.89s/it]  6%|██████▊                                                                                                           | 41/681 [02:01<30:57,  2.90s/it]                                                                                                                                                        {'loss': 1.3571, 'grad_norm': 33.42491149902344, 'learning_rate': 2.898550724637681e-07, 'margin_dpo/margin_mean': 0.3881516456604004, 'margin_dpo/margin_std': 0.5789889693260193, 'logps/chosen': -113.77964782714844, 'logps/rejected': -106.6886215209961, 'logps/ref_chosen': -113.75234985351562, 'logps/ref_rejected': -106.27317810058594, 'logits/chosen': 0.7419478893280029, 'logits/rejected': 0.8945612907409668, 'epoch': 0.06}
  6%|██████▊                                                                                                           | 41/681 [02:01<30:57,  2.90s/it]  6%|███████                                                                                                           | 42/681 [02:04<30:49,  2.89s/it]                                                                                                                                                        {'loss': 1.3456, 'grad_norm': 40.86435317993164, 'learning_rate': 2.971014492753623e-07, 'margin_dpo/margin_mean': 0.4290355443954468, 'margin_dpo/margin_std': 0.652177631855011, 'logps/chosen': -93.4481430053711, 'logps/rejected': -138.0484619140625, 'logps/ref_chosen': -93.46589660644531, 'logps/ref_rejected': -137.63717651367188, 'logits/chosen': 0.7604937553405762, 'logits/rejected': 0.8403340578079224, 'epoch': 0.06}
  6%|███████                                                                                                           | 42/681 [02:04<30:49,  2.89s/it]  6%|███████▏                                                                                                          | 43/681 [02:07<30:59,  2.91s/it]                                                                                                                                                        {'loss': 1.3532, 'grad_norm': 38.23468017578125, 'learning_rate': 3.043478260869565e-07, 'margin_dpo/margin_mean': 0.3112701177597046, 'margin_dpo/margin_std': 0.5115389227867126, 'logps/chosen': -87.23843383789062, 'logps/rejected': -87.05091094970703, 'logps/ref_chosen': -87.20645141601562, 'logps/ref_rejected': -86.70765686035156, 'logits/chosen': 0.5066407322883606, 'logits/rejected': 0.628272294998169, 'epoch': 0.06}
  6%|███████▏                                                                                                          | 43/681 [02:07<30:59,  2.91s/it]  6%|███████▎                                                                                                          | 44/681 [02:10<30:49,  2.90s/it]                                                                                                                                                        {'loss': 1.3572, 'grad_norm': 34.67744445800781, 'learning_rate': 3.115942028985507e-07, 'margin_dpo/margin_mean': 0.32104432582855225, 'margin_dpo/margin_std': 0.7572367191314697, 'logps/chosen': -65.89019775390625, 'logps/rejected': -116.15614318847656, 'logps/ref_chosen': -65.7902603149414, 'logps/ref_rejected': -115.73516082763672, 'logits/chosen': 0.7453466057777405, 'logits/rejected': 0.9643809795379639, 'epoch': 0.06}
  6%|███████▎                                                                                                          | 44/681 [02:10<30:49,  2.90s/it]  7%|███████▌                                                                                                          | 45/681 [02:13<31:38,  2.98s/it]                                                                                                                                                        {'loss': 1.3571, 'grad_norm': 24.18403434753418, 'learning_rate': 3.188405797101449e-07, 'margin_dpo/margin_mean': 0.3061286211013794, 'margin_dpo/margin_std': 0.5986896753311157, 'logps/chosen': -85.85913848876953, 'logps/rejected': -83.0451889038086, 'logps/ref_chosen': -85.71604919433594, 'logps/ref_rejected': -82.59597778320312, 'logits/chosen': 0.4455117881298065, 'logits/rejected': 0.5920794010162354, 'epoch': 0.07}
  7%|███████▌                                                                                                          | 45/681 [02:13<31:38,  2.98s/it]  7%|███████▋                                                                                                          | 46/681 [02:16<32:16,  3.05s/it]                                                                                                                                                        {'loss': 1.3424, 'grad_norm': 33.199153900146484, 'learning_rate': 3.260869565217391e-07, 'margin_dpo/margin_mean': 0.4690542221069336, 'margin_dpo/margin_std': 0.6764923334121704, 'logps/chosen': -95.22297668457031, 'logps/rejected': -114.26651000976562, 'logps/ref_chosen': -95.29031372070312, 'logps/ref_rejected': -113.86479949951172, 'logits/chosen': 0.5929129719734192, 'logits/rejected': 0.8907681703567505, 'epoch': 0.07}
  7%|███████▋                                                                                                          | 46/681 [02:16<32:16,  3.05s/it]  7%|███████▊                                                                                                          | 47/681 [02:19<32:09,  3.04s/it]                                                                                                                                                        {'loss': 1.3475, 'grad_norm': 34.175819396972656, 'learning_rate': 3.333333333333333e-07, 'margin_dpo/margin_mean': 0.4314463138580322, 'margin_dpo/margin_std': 0.887498140335083, 'logps/chosen': -73.86705780029297, 'logps/rejected': -74.57892608642578, 'logps/ref_chosen': -73.91566467285156, 'logps/ref_rejected': -74.19608306884766, 'logits/chosen': -0.16016048192977905, 'logits/rejected': 0.03261171281337738, 'epoch': 0.07}
  7%|███████▊                                                                                                          | 47/681 [02:19<32:09,  3.04s/it]  7%|████████                                                                                                          | 48/681 [02:22<31:50,  3.02s/it]                                                                                                                                                        {'loss': 1.3388, 'grad_norm': 39.072574615478516, 'learning_rate': 3.4057971014492755e-07, 'margin_dpo/margin_mean': 0.4573037624359131, 'margin_dpo/margin_std': 1.0886731147766113, 'logps/chosen': -104.47331237792969, 'logps/rejected': -108.28083801269531, 'logps/ref_chosen': -104.229248046875, 'logps/ref_rejected': -107.5794677734375, 'logits/chosen': 0.28998929262161255, 'logits/rejected': 0.39170825481414795, 'epoch': 0.07}
  7%|████████                                                                                                          | 48/681 [02:22<31:50,  3.02s/it]  7%|████████▏                                                                                                         | 49/681 [02:25<31:31,  2.99s/it]                                                                                                                                                        {'loss': 1.3129, 'grad_norm': 39.3463134765625, 'learning_rate': 3.478260869565217e-07, 'margin_dpo/margin_mean': 0.5325143337249756, 'margin_dpo/margin_std': 0.7589560747146606, 'logps/chosen': -81.1698226928711, 'logps/rejected': -75.13246154785156, 'logps/ref_chosen': -81.32856750488281, 'logps/ref_rejected': -74.75869750976562, 'logits/chosen': 0.07694488763809204, 'logits/rejected': 0.623125433921814, 'epoch': 0.07}
  7%|████████▏                                                                                                         | 49/681 [02:25<31:31,  2.99s/it]  7%|████████▎                                                                                                         | 50/681 [02:28<30:58,  2.95s/it]                                                                                                                                                        {'loss': 1.3292, 'grad_norm': 33.31324768066406, 'learning_rate': 3.5507246376811595e-07, 'margin_dpo/margin_mean': 0.3646160364151001, 'margin_dpo/margin_std': 0.785099983215332, 'logps/chosen': -104.20743560791016, 'logps/rejected': -123.37358093261719, 'logps/ref_chosen': -103.97581481933594, 'logps/ref_rejected': -122.77733612060547, 'logits/chosen': 0.8446512222290039, 'logits/rejected': 1.1388261318206787, 'epoch': 0.07}
  7%|████████▎                                                                                                         | 50/681 [02:28<30:58,  2.95s/it]  7%|████████▌                                                                                                         | 51/681 [02:31<31:07,  2.96s/it]                                                                                                                                                        {'loss': 1.33, 'grad_norm': 30.007966995239258, 'learning_rate': 3.6231884057971015e-07, 'margin_dpo/margin_mean': 0.3508089780807495, 'margin_dpo/margin_std': 1.0862066745758057, 'logps/chosen': -110.92190551757812, 'logps/rejected': -90.43896484375, 'logps/ref_chosen': -110.60376739501953, 'logps/ref_rejected': -89.77001953125, 'logits/chosen': 0.6785503029823303, 'logits/rejected': 1.0297834873199463, 'epoch': 0.07}
  7%|████████▌                                                                                                         | 51/681 [02:31<31:07,  2.96s/it]  8%|████████▋                                                                                                         | 52/681 [02:34<30:33,  2.91s/it]                                                                                                                                                        {'loss': 1.3089, 'grad_norm': 32.3361701965332, 'learning_rate': 3.695652173913043e-07, 'margin_dpo/margin_mean': 0.6009612083435059, 'margin_dpo/margin_std': 0.7621315717697144, 'logps/chosen': -117.17269134521484, 'logps/rejected': -83.43679809570312, 'logps/ref_chosen': -116.8155517578125, 'logps/ref_rejected': -82.47869873046875, 'logits/chosen': 0.3316473960876465, 'logits/rejected': 0.5727195739746094, 'epoch': 0.08}
  8%|████████▋                                                                                                         | 52/681 [02:34<30:33,  2.91s/it]  8%|████████▊                                                                                                         | 53/681 [02:37<31:29,  3.01s/it]                                                                                                                                                        {'loss': 1.2854, 'grad_norm': 39.464393615722656, 'learning_rate': 3.7681159420289855e-07, 'margin_dpo/margin_mean': 1.3681297302246094, 'margin_dpo/margin_std': 1.9412078857421875, 'logps/chosen': -97.04790496826172, 'logps/rejected': -117.12537384033203, 'logps/ref_chosen': -97.222412109375, 'logps/ref_rejected': -115.93175506591797, 'logits/chosen': 0.769700288772583, 'logits/rejected': 0.8581574559211731, 'epoch': 0.08}
  8%|████████▊                                                                                                         | 53/681 [02:37<31:29,  3.01s/it]  8%|█████████                                                                                                         | 54/681 [02:40<30:36,  2.93s/it]                                                                                                                                                        {'loss': 1.2888, 'grad_norm': 40.05606460571289, 'learning_rate': 3.8405797101449274e-07, 'margin_dpo/margin_mean': 0.7888990640640259, 'margin_dpo/margin_std': 0.9890120029449463, 'logps/chosen': -68.86314392089844, 'logps/rejected': -87.76393127441406, 'logps/ref_chosen': -68.70967864990234, 'logps/ref_rejected': -86.82157135009766, 'logits/chosen': 0.8848798871040344, 'logits/rejected': 0.9821081757545471, 'epoch': 0.08}
  8%|█████████                                                                                                         | 54/681 [02:40<30:36,  2.93s/it]  8%|█████████▏                                                                                                        | 55/681 [02:42<29:27,  2.82s/it]                                                                                                                                                        {'loss': 1.2802, 'grad_norm': 35.246360778808594, 'learning_rate': 3.9130434782608694e-07, 'margin_dpo/margin_mean': 1.9652525186538696, 'margin_dpo/margin_std': 1.6538578271865845, 'logps/chosen': -98.69027709960938, 'logps/rejected': -113.6478271484375, 'logps/ref_chosen': -99.13316345214844, 'logps/ref_rejected': -112.1254653930664, 'logits/chosen': -0.12803569436073303, 'logits/rejected': 0.09957672655582428, 'epoch': 0.08}
  8%|█████████▏                                                                                                        | 55/681 [02:42<29:27,  2.82s/it]  8%|█████████▎                                                                                                        | 56/681 [02:45<29:57,  2.88s/it]                                                                                                                                                        {'loss': 1.2933, 'grad_norm': 33.27520751953125, 'learning_rate': 3.9855072463768114e-07, 'margin_dpo/margin_mean': 0.7786517143249512, 'margin_dpo/margin_std': 1.203643798828125, 'logps/chosen': -98.00480651855469, 'logps/rejected': -84.39903259277344, 'logps/ref_chosen': -97.85421752929688, 'logps/ref_rejected': -83.46979522705078, 'logits/chosen': -0.09207522869110107, 'logits/rejected': 0.29723483324050903, 'epoch': 0.08}
  8%|█████████▎                                                                                                        | 56/681 [02:45<29:57,  2.88s/it]  8%|█████████▌                                                                                                        | 57/681 [02:48<29:50,  2.87s/it]                                                                                                                                                        {'loss': 1.2831, 'grad_norm': 33.76715850830078, 'learning_rate': 4.057971014492754e-07, 'margin_dpo/margin_mean': 1.4195455312728882, 'margin_dpo/margin_std': 1.264824390411377, 'logps/chosen': -99.81153869628906, 'logps/rejected': -131.81729125976562, 'logps/ref_chosen': -100.10478973388672, 'logps/ref_rejected': -130.69100952148438, 'logits/chosen': 0.17622031271457672, 'logits/rejected': 0.25724083185195923, 'epoch': 0.08}
  8%|█████████▌                                                                                                        | 57/681 [02:48<29:50,  2.87s/it]  9%|█████████▋                                                                                                        | 58/681 [02:51<30:15,  2.91s/it]                                                                                                                                                        {'loss': 1.251, 'grad_norm': 38.04386901855469, 'learning_rate': 4.1304347826086954e-07, 'margin_dpo/margin_mean': 1.2433971166610718, 'margin_dpo/margin_std': 1.3449275493621826, 'logps/chosen': -109.82270812988281, 'logps/rejected': -71.33671569824219, 'logps/ref_chosen': -109.95325469970703, 'logps/ref_rejected': -70.22386169433594, 'logits/chosen': -0.1125476062297821, 'logits/rejected': 0.2727716565132141, 'epoch': 0.09}
  9%|█████████▋                                                                                                        | 58/681 [02:51<30:15,  2.91s/it]  9%|█████████▉                                                                                                        | 59/681 [02:54<30:14,  2.92s/it]                                                                                                                                                        {'loss': 1.2692, 'grad_norm': 33.97794723510742, 'learning_rate': 4.2028985507246374e-07, 'margin_dpo/margin_mean': 1.5013514757156372, 'margin_dpo/margin_std': 1.5745304822921753, 'logps/chosen': -100.960693359375, 'logps/rejected': -112.17672729492188, 'logps/ref_chosen': -100.9923095703125, 'logps/ref_rejected': -110.70699310302734, 'logits/chosen': 0.39747869968414307, 'logits/rejected': 0.5710791349411011, 'epoch': 0.09}
  9%|█████████▉                                                                                                        | 59/681 [02:54<30:14,  2.92s/it]  9%|██████████                                                                                                        | 60/681 [02:57<29:34,  2.86s/it]                                                                                                                                                        {'loss': 1.2738, 'grad_norm': 28.536787033081055, 'learning_rate': 4.2753623188405794e-07, 'margin_dpo/margin_mean': 1.3974266052246094, 'margin_dpo/margin_std': 1.2194509506225586, 'logps/chosen': -107.55908203125, 'logps/rejected': -69.468017578125, 'logps/ref_chosen': -108.16279602050781, 'logps/ref_rejected': -68.67430877685547, 'logits/chosen': 0.35590529441833496, 'logits/rejected': 0.8095076680183411, 'epoch': 0.09}
  9%|██████████                                                                                                        | 60/681 [02:57<29:34,  2.86s/it]  9%|██████████▏                                                                                                       | 61/681 [03:00<30:24,  2.94s/it]                                                                                                                                                        {'loss': 1.2856, 'grad_norm': 28.542030334472656, 'learning_rate': 4.3478260869565214e-07, 'margin_dpo/margin_mean': 1.2662101984024048, 'margin_dpo/margin_std': 1.339787483215332, 'logps/chosen': -80.26652526855469, 'logps/rejected': -85.35874938964844, 'logps/ref_chosen': -80.13163757324219, 'logps/ref_rejected': -83.95764923095703, 'logits/chosen': -0.4731886386871338, 'logits/rejected': -0.2491273283958435, 'epoch': 0.09}
  9%|██████████▏                                                                                                       | 61/681 [03:00<30:24,  2.94s/it]  9%|██████████▍                                                                                                       | 62/681 [03:03<30:54,  3.00s/it]                                                                                                                                                        {'loss': 1.285, 'grad_norm': 28.514225006103516, 'learning_rate': 4.420289855072464e-07, 'margin_dpo/margin_mean': 0.8554513454437256, 'margin_dpo/margin_std': 1.4367563724517822, 'logps/chosen': -50.487548828125, 'logps/rejected': -73.86290740966797, 'logps/ref_chosen': -50.332794189453125, 'logps/ref_rejected': -72.85269927978516, 'logits/chosen': 0.680814802646637, 'logits/rejected': 0.6677084565162659, 'epoch': 0.09}
  9%|██████████▍                                                                                                       | 62/681 [03:03<30:54,  3.00s/it]  9%|██████████▌                                                                                                       | 63/681 [03:06<30:22,  2.95s/it]                                                                                                                                                        {'loss': 1.246, 'grad_norm': 34.94499206542969, 'learning_rate': 4.4927536231884053e-07, 'margin_dpo/margin_mean': 1.2721160650253296, 'margin_dpo/margin_std': 1.2849652767181396, 'logps/chosen': -121.78221893310547, 'logps/rejected': -82.76856994628906, 'logps/ref_chosen': -121.70402526855469, 'logps/ref_rejected': -81.41825866699219, 'logits/chosen': 0.4011261463165283, 'logits/rejected': 0.6790079474449158, 'epoch': 0.09}
  9%|██████████▌                                                                                                       | 63/681 [03:06<30:22,  2.95s/it]  9%|██████████▋                                                                                                       | 64/681 [03:09<29:57,  2.91s/it]                                                                                                                                                        {'loss': 1.2345, 'grad_norm': 34.87194061279297, 'learning_rate': 4.5652173913043473e-07, 'margin_dpo/margin_mean': 0.7329847812652588, 'margin_dpo/margin_std': 1.2104127407073975, 'logps/chosen': -80.07738494873047, 'logps/rejected': -105.55560302734375, 'logps/ref_chosen': -79.740234375, 'logps/ref_rejected': -104.4854736328125, 'logits/chosen': 0.7611849308013916, 'logits/rejected': 0.9642089605331421, 'epoch': 0.09}
  9%|██████████▋                                                                                                       | 64/681 [03:09<29:57,  2.91s/it] 10%|██████████▉                                                                                                       | 65/681 [03:12<29:59,  2.92s/it]                                                                                                                                                        {'loss': 1.2297, 'grad_norm': 38.41434860229492, 'learning_rate': 4.63768115942029e-07, 'margin_dpo/margin_mean': 2.0177080631256104, 'margin_dpo/margin_std': 2.553192615509033, 'logps/chosen': -78.44050598144531, 'logps/rejected': -137.61776733398438, 'logps/ref_chosen': -78.41619873046875, 'logps/ref_rejected': -135.5757293701172, 'logits/chosen': 0.254086971282959, 'logits/rejected': 0.1695535033941269, 'epoch': 0.1}
 10%|██████████▉                                                                                                       | 65/681 [03:12<29:59,  2.92s/it] 10%|███████████                                                                                                       | 66/681 [03:15<30:08,  2.94s/it]                                                                                                                                                        {'loss': 1.2646, 'grad_norm': 25.3912410736084, 'learning_rate': 4.7101449275362313e-07, 'margin_dpo/margin_mean': 1.0436724424362183, 'margin_dpo/margin_std': 1.7997262477874756, 'logps/chosen': -65.99453735351562, 'logps/rejected': -77.69013214111328, 'logps/ref_chosen': -65.68583679199219, 'logps/ref_rejected': -76.33775329589844, 'logits/chosen': -0.09305822104215622, 'logits/rejected': 0.15512987971305847, 'epoch': 0.1}
 10%|███████████                                                                                                       | 66/681 [03:15<30:08,  2.94s/it] 10%|███████████▏                                                                                                      | 67/681 [03:17<29:11,  2.85s/it]                                                                                                                                                        {'loss': 1.3012, 'grad_norm': 24.43991470336914, 'learning_rate': 4.782608695652174e-07, 'margin_dpo/margin_mean': 1.6041903495788574, 'margin_dpo/margin_std': 2.0201072692871094, 'logps/chosen': -74.0006103515625, 'logps/rejected': -71.95913696289062, 'logps/ref_chosen': -73.65798950195312, 'logps/ref_rejected': -70.01232147216797, 'logits/chosen': 0.40889042615890503, 'logits/rejected': 0.5336402654647827, 'epoch': 0.1}
 10%|███████████▏                                                                                                      | 67/681 [03:17<29:11,  2.85s/it] 10%|███████████▍                                                                                                      | 68/681 [03:20<28:44,  2.81s/it]                                                                                                                                                        {'loss': 1.2043, 'grad_norm': 28.16604995727539, 'learning_rate': 4.855072463768116e-07, 'margin_dpo/margin_mean': 2.804673910140991, 'margin_dpo/margin_std': 2.7214131355285645, 'logps/chosen': -85.18283081054688, 'logps/rejected': -97.47535705566406, 'logps/ref_chosen': -84.98939514160156, 'logps/ref_rejected': -94.47724914550781, 'logits/chosen': -0.8838789463043213, 'logits/rejected': -0.6690104007720947, 'epoch': 0.1}
 10%|███████████▍                                                                                                      | 68/681 [03:20<28:44,  2.81s/it] 10%|███████████▌                                                                                                      | 69/681 [03:24<30:37,  3.00s/it]                                                                                                                                                        {'loss': 1.2047, 'grad_norm': 30.81968116760254, 'learning_rate': 4.927536231884058e-07, 'margin_dpo/margin_mean': 1.2108116149902344, 'margin_dpo/margin_std': 2.8251242637634277, 'logps/chosen': -86.99532318115234, 'logps/rejected': -120.83209228515625, 'logps/ref_chosen': -85.89825439453125, 'logps/ref_rejected': -118.52421569824219, 'logits/chosen': 0.12748196721076965, 'logits/rejected': 0.1792227327823639, 'epoch': 0.1}
 10%|███████████▌                                                                                                      | 69/681 [03:24<30:37,  3.00s/it] 10%|███████████▋                                                                                                      | 70/681 [03:26<29:53,  2.93s/it]                                                                                                                                                        {'loss': 1.1769, 'grad_norm': 29.18440818786621, 'learning_rate': 5e-07, 'margin_dpo/margin_mean': 2.2829203605651855, 'margin_dpo/margin_std': 4.698617458343506, 'logps/chosen': -125.14912414550781, 'logps/rejected': -102.61834716796875, 'logps/ref_chosen': -124.22589111328125, 'logps/ref_rejected': -99.41220092773438, 'logits/chosen': -0.12536486983299255, 'logits/rejected': 0.061571136116981506, 'epoch': 0.1}
 10%|███████████▋                                                                                                      | 70/681 [03:26<29:53,  2.93s/it] 10%|███████████▉                                                                                                      | 71/681 [03:29<29:47,  2.93s/it]                                                                                                                                                        {'loss': 1.0958, 'grad_norm': 34.87384796142578, 'learning_rate': 4.999967061337492e-07, 'margin_dpo/margin_mean': 2.7785582542419434, 'margin_dpo/margin_std': 2.691640853881836, 'logps/chosen': -80.64649963378906, 'logps/rejected': -92.06094360351562, 'logps/ref_chosen': -80.65885925292969, 'logps/ref_rejected': -89.29473876953125, 'logits/chosen': 0.3338947892189026, 'logits/rejected': 0.5460184812545776, 'epoch': 0.1}
 10%|███████████▉                                                                                                      | 71/681 [03:29<29:47,  2.93s/it] 11%|████████████                                                                                                      | 72/681 [03:32<29:23,  2.90s/it]                                                                                                                                                        {'loss': 1.1477, 'grad_norm': 29.42046356201172, 'learning_rate': 4.999868246217933e-07, 'margin_dpo/margin_mean': 1.9313820600509644, 'margin_dpo/margin_std': 3.1832776069641113, 'logps/chosen': -91.0280990600586, 'logps/rejected': -90.02912902832031, 'logps/ref_chosen': -90.32836151123047, 'logps/ref_rejected': -87.39801025390625, 'logits/chosen': 0.11558493971824646, 'logits/rejected': 0.336860328912735, 'epoch': 0.11}
 11%|████████████                                                                                                      | 72/681 [03:32<29:23,  2.90s/it] 11%|████████████▏                                                                                                     | 73/681 [03:35<29:24,  2.90s/it]                                                                                                                                                        {'loss': 1.1568, 'grad_norm': 27.79156494140625, 'learning_rate': 4.999703557245192e-07, 'margin_dpo/margin_mean': 2.4214420318603516, 'margin_dpo/margin_std': 4.514315605163574, 'logps/chosen': -113.90251159667969, 'logps/rejected': -100.67330169677734, 'logps/ref_chosen': -112.08250427246094, 'logps/ref_rejected': -96.43185424804688, 'logits/chosen': -1.0717291831970215, 'logits/rejected': -0.48407894372940063, 'epoch': 0.11}
 11%|████████████▏                                                                                                     | 73/681 [03:35<29:24,  2.90s/it] 11%|████████████▍                                                                                                     | 74/681 [03:38<29:18,  2.90s/it]                                                                                                                                                        {'loss': 1.1118, 'grad_norm': 31.334726333618164, 'learning_rate': 4.999472998758977e-07, 'margin_dpo/margin_mean': 4.710856914520264, 'margin_dpo/margin_std': 4.988119125366211, 'logps/chosen': -84.89183044433594, 'logps/rejected': -123.54209899902344, 'logps/ref_chosen': -84.09466552734375, 'logps/ref_rejected': -118.03408813476562, 'logits/chosen': -0.442888081073761, 'logits/rejected': -0.4210275411605835, 'epoch': 0.11}
 11%|████████████▍                                                                                                     | 74/681 [03:38<29:18,  2.90s/it] 11%|████████████▌                                                                                                     | 75/681 [03:41<29:03,  2.88s/it]                                                                                                                                                        {'loss': 1.0438, 'grad_norm': 32.42177963256836, 'learning_rate': 4.999176576834721e-07, 'margin_dpo/margin_mean': 4.149603366851807, 'margin_dpo/margin_std': 4.267527103424072, 'logps/chosen': -89.07445526123047, 'logps/rejected': -117.11609649658203, 'logps/ref_chosen': -88.38374328613281, 'logps/ref_rejected': -112.27578735351562, 'logits/chosen': -0.5751562714576721, 'logits/rejected': 0.15103864669799805, 'epoch': 0.11}
 11%|████████████▌                                                                                                     | 75/681 [03:41<29:03,  2.88s/it] 11%|████████████▋                                                                                                     | 76/681 [03:44<29:59,  2.97s/it]                                                                                                                                                        {'loss': 1.1557, 'grad_norm': 23.008657455444336, 'learning_rate': 4.998814299283415e-07, 'margin_dpo/margin_mean': 2.8992037773132324, 'margin_dpo/margin_std': 4.499299049377441, 'logps/chosen': -101.99429321289062, 'logps/rejected': -93.37272644042969, 'logps/ref_chosen': -100.0120849609375, 'logps/ref_rejected': -88.49131774902344, 'logits/chosen': -1.5539774894714355, 'logits/rejected': -1.1704045534133911, 'epoch': 0.11}
 11%|████████████▋                                                                                                     | 76/681 [03:44<29:59,  2.97s/it] 11%|████████████▉                                                                                                     | 77/681 [03:46<28:38,  2.85s/it]                                                                                                                                                        {'loss': 1.1272, 'grad_norm': 27.028614044189453, 'learning_rate': 4.998386175651409e-07, 'margin_dpo/margin_mean': 3.9930152893066406, 'margin_dpo/margin_std': 3.8414201736450195, 'logps/chosen': -74.51853942871094, 'logps/rejected': -107.80052185058594, 'logps/ref_chosen': -73.30534362792969, 'logps/ref_rejected': -102.59431457519531, 'logits/chosen': -0.5113037824630737, 'logits/rejected': -0.39275413751602173, 'epoch': 0.11}
 11%|████████████▉                                                                                                     | 77/681 [03:47<28:38,  2.85s/it] 11%|█████████████                                                                                                     | 78/681 [03:50<29:12,  2.91s/it]                                                                                                                                                        {'loss': 1.0955, 'grad_norm': 25.387378692626953, 'learning_rate': 4.997892217220159e-07, 'margin_dpo/margin_mean': 4.363163948059082, 'margin_dpo/margin_std': 4.845981597900391, 'logps/chosen': -72.970703125, 'logps/rejected': -121.18896484375, 'logps/ref_chosen': -72.40596008300781, 'logps/ref_rejected': -116.26104736328125, 'logits/chosen': 0.6262469291687012, 'logits/rejected': 0.7459644079208374, 'epoch': 0.11}
 11%|█████████████                                                                                                     | 78/681 [03:50<29:12,  2.91s/it] 12%|█████████████▏                                                                                                    | 79/681 [03:53<29:23,  2.93s/it]                                                                                                                                                        {'loss': 1.0431, 'grad_norm': 27.026376724243164, 'learning_rate': 4.997332437005931e-07, 'margin_dpo/margin_mean': 5.342948913574219, 'margin_dpo/margin_std': 7.4267473220825195, 'logps/chosen': -103.35887145996094, 'logps/rejected': -96.11433410644531, 'logps/ref_chosen': -101.26777648925781, 'logps/ref_rejected': -88.68028259277344, 'logits/chosen': -0.08271521329879761, 'logits/rejected': 0.5097367763519287, 'epoch': 0.12}
 12%|█████████████▏                                                                                                    | 79/681 [03:53<29:23,  2.93s/it] 12%|█████████████▍                                                                                                    | 80/681 [03:55<29:15,  2.92s/it]                                                                                                                                                        {'loss': 1.1065, 'grad_norm': 25.63165855407715, 'learning_rate': 4.996706849759452e-07, 'margin_dpo/margin_mean': 1.004472255706787, 'margin_dpo/margin_std': 3.0686776638031006, 'logps/chosen': -117.60404968261719, 'logps/rejected': -74.76948547363281, 'logps/ref_chosen': -114.87706756591797, 'logps/ref_rejected': -71.03803253173828, 'logits/chosen': -0.6737807393074036, 'logits/rejected': 0.1990889012813568, 'epoch': 0.12}
 12%|█████████████▍                                                                                                    | 80/681 [03:55<29:15,  2.92s/it] 12%|█████████████▌                                                                                                    | 81/681 [03:59<29:45,  2.98s/it]                                                                                                                                                        {'loss': 1.0254, 'grad_norm': 27.555042266845703, 'learning_rate': 4.996015471965529e-07, 'margin_dpo/margin_mean': 4.478157043457031, 'margin_dpo/margin_std': 5.330191612243652, 'logps/chosen': -91.39581298828125, 'logps/rejected': -158.87777709960938, 'logps/ref_chosen': -90.15489196777344, 'logps/ref_rejected': -153.15872192382812, 'logits/chosen': -0.7485864162445068, 'logits/rejected': -0.1424974799156189, 'epoch': 0.12}
 12%|█████████████▌                                                                                                    | 81/681 [03:59<29:45,  2.98s/it] 12%|█████████████▋                                                                                                    | 82/681 [04:01<29:08,  2.92s/it]                                                                                                                                                        {'loss': 1.1125, 'grad_norm': 25.869966506958008, 'learning_rate': 4.995258321842611e-07, 'margin_dpo/margin_mean': 4.871798992156982, 'margin_dpo/margin_std': 4.440828323364258, 'logps/chosen': -66.34426879882812, 'logps/rejected': -85.55947875976562, 'logps/ref_chosen': -65.0645751953125, 'logps/ref_rejected': -79.4079818725586, 'logits/chosen': -0.13274694979190826, 'logits/rejected': 0.08919930458068848, 'epoch': 0.12}
 12%|█████████████▋                                                                                                    | 82/681 [04:01<29:08,  2.92s/it] 12%|█████████████▉                                                                                                    | 83/681 [04:04<28:39,  2.87s/it]                                                                                                                                                        {'loss': 1.1083, 'grad_norm': 27.123699188232422, 'learning_rate': 4.994435419342304e-07, 'margin_dpo/margin_mean': 4.6751909255981445, 'margin_dpo/margin_std': 5.925076007843018, 'logps/chosen': -100.03043365478516, 'logps/rejected': -152.01702880859375, 'logps/ref_chosen': -97.5862045288086, 'logps/ref_rejected': -144.89761352539062, 'logits/chosen': -0.7392994165420532, 'logits/rejected': -0.6463851928710938, 'epoch': 0.12}
 12%|█████████████▉                                                                                                    | 83/681 [04:04<28:39,  2.87s/it] 12%|██████████████                                                                                                    | 84/681 [04:07<30:06,  3.03s/it]                                                                                                                                                        {'loss': 1.2085, 'grad_norm': 28.914873123168945, 'learning_rate': 4.993546786148857e-07, 'margin_dpo/margin_mean': 1.7986866235733032, 'margin_dpo/margin_std': 4.0745134353637695, 'logps/chosen': -107.0411148071289, 'logps/rejected': -115.09510040283203, 'logps/ref_chosen': -104.22205352783203, 'logps/ref_rejected': -110.47735595703125, 'logits/chosen': -1.024448275566101, 'logits/rejected': -0.6994166970252991, 'epoch': 0.12}
 12%|██████████████                                                                                                    | 84/681 [04:07<30:06,  3.03s/it] 12%|██████████████▏                                                                                                   | 85/681 [04:10<29:52,  3.01s/it]                                                                                                                                                        {'loss': 1.1649, 'grad_norm': 27.426593780517578, 'learning_rate': 4.992592445678582e-07, 'margin_dpo/margin_mean': 4.140119552612305, 'margin_dpo/margin_std': 8.340166091918945, 'logps/chosen': -67.73141479492188, 'logps/rejected': -84.1421127319336, 'logps/ref_chosen': -65.42636108398438, 'logps/ref_rejected': -77.69692993164062, 'logits/chosen': 0.10627250373363495, 'logits/rejected': 0.41944852471351624, 'epoch': 0.12}
 12%|██████████████▏                                                                                                   | 85/681 [04:10<29:52,  3.01s/it] 13%|██████████████▍                                                                                                   | 86/681 [04:13<29:19,  2.96s/it]                                                                                                                                                        {'loss': 1.0992, 'grad_norm': 22.034379959106445, 'learning_rate': 4.991572423079235e-07, 'margin_dpo/margin_mean': 3.323758125305176, 'margin_dpo/margin_std': 5.560352325439453, 'logps/chosen': -71.08971405029297, 'logps/rejected': -87.36192321777344, 'logps/ref_chosen': -68.32093811035156, 'logps/ref_rejected': -81.26939392089844, 'logits/chosen': -0.6100976467132568, 'logits/rejected': -0.47021234035491943, 'epoch': 0.13}
 13%|██████████████▍                                                                                                   | 86/681 [04:13<29:19,  2.96s/it] 13%|██████████████▌                                                                                                   | 87/681 [04:16<29:20,  2.96s/it]                                                                                                                                                        {'loss': 1.0929, 'grad_norm': 27.28897476196289, 'learning_rate': 4.990486745229364e-07, 'margin_dpo/margin_mean': 3.938999652862549, 'margin_dpo/margin_std': 4.811038017272949, 'logps/chosen': -109.26034545898438, 'logps/rejected': -121.74065399169922, 'logps/ref_chosen': -107.66572570800781, 'logps/ref_rejected': -116.20704650878906, 'logits/chosen': -1.008190631866455, 'logits/rejected': -0.7083594799041748, 'epoch': 0.13}
 13%|██████████████▌                                                                                                   | 87/681 [04:16<29:20,  2.96s/it] 13%|██████████████▋                                                                                                   | 88/681 [04:19<29:22,  2.97s/it]                                                                                                                                                        {'loss': 1.1388, 'grad_norm': 24.714147567749023, 'learning_rate': 4.989335440737586e-07, 'margin_dpo/margin_mean': 3.813239097595215, 'margin_dpo/margin_std': 7.841992378234863, 'logps/chosen': -97.98976135253906, 'logps/rejected': -117.9246826171875, 'logps/ref_chosen': -93.07302856445312, 'logps/ref_rejected': -109.19470977783203, 'logits/chosen': -0.6558359861373901, 'logits/rejected': -0.6540915966033936, 'epoch': 0.13}
 13%|██████████████▋                                                                                                   | 88/681 [04:19<29:22,  2.97s/it] 13%|██████████████▉                                                                                                   | 89/681 [04:22<28:47,  2.92s/it]                                                                                                                                                        {'loss': 1.1054, 'grad_norm': 24.070466995239258, 'learning_rate': 4.988118539941847e-07, 'margin_dpo/margin_mean': 4.629606246948242, 'margin_dpo/margin_std': 4.11317253112793, 'logps/chosen': -78.58067321777344, 'logps/rejected': -98.58912658691406, 'logps/ref_chosen': -76.54256439208984, 'logps/ref_rejected': -91.92141723632812, 'logits/chosen': 0.05120593309402466, 'logits/rejected': 0.2133779525756836, 'epoch': 0.13}
 13%|██████████████▉                                                                                                   | 89/681 [04:22<28:47,  2.92s/it] 13%|███████████████                                                                                                   | 90/681 [04:25<28:20,  2.88s/it]                                                                                                                                                        {'loss': 1.0281, 'grad_norm': 26.12279510498047, 'learning_rate': 4.986836074908615e-07, 'margin_dpo/margin_mean': 5.127821445465088, 'margin_dpo/margin_std': 6.227309226989746, 'logps/chosen': -85.04541015625, 'logps/rejected': -116.90010070800781, 'logps/ref_chosen': -83.1722640991211, 'logps/ref_rejected': -109.89913940429688, 'logits/chosen': -0.6932872533798218, 'logits/rejected': -0.4962659478187561, 'epoch': 0.13}
 13%|███████████████                                                                                                   | 90/681 [04:25<28:20,  2.88s/it] 13%|███████████████▏                                                                                                  | 91/681 [04:28<29:03,  2.95s/it]                                                                                                                                                        {'loss': 1.0875, 'grad_norm': 26.667461395263672, 'learning_rate': 4.985488079432037e-07, 'margin_dpo/margin_mean': 6.852234363555908, 'margin_dpo/margin_std': 7.726470947265625, 'logps/chosen': -76.52804565429688, 'logps/rejected': -102.70915222167969, 'logps/ref_chosen': -75.09698486328125, 'logps/ref_rejected': -94.42585754394531, 'logits/chosen': -0.5161850452423096, 'logits/rejected': -0.007033824920654297, 'epoch': 0.13}
 13%|███████████████▏                                                                                                  | 91/681 [04:28<29:03,  2.95s/it] 14%|███████████████▍                                                                                                  | 92/681 [04:31<28:57,  2.95s/it]                                                                                                                                                        {'loss': 1.1189, 'grad_norm': 23.602184295654297, 'learning_rate': 4.984074589033043e-07, 'margin_dpo/margin_mean': 2.3370065689086914, 'margin_dpo/margin_std': 6.140504837036133, 'logps/chosen': -83.0078125, 'logps/rejected': -83.26744842529297, 'logps/ref_chosen': -79.81562805175781, 'logps/ref_rejected': -77.73824310302734, 'logits/chosen': -1.3876515626907349, 'logits/rejected': -1.1129705905914307, 'epoch': 0.14}
 14%|███████████████▍                                                                                                  | 92/681 [04:31<28:57,  2.95s/it] 14%|███████████████▌                                                                                                  | 93/681 [04:33<27:21,  2.79s/it]                                                                                                                                                        {'loss': 1.1517, 'grad_norm': 27.450332641601562, 'learning_rate': 4.982595640958425e-07, 'margin_dpo/margin_mean': 4.376245498657227, 'margin_dpo/margin_std': 6.5292510986328125, 'logps/chosen': -94.47523498535156, 'logps/rejected': -108.31857299804688, 'logps/ref_chosen': -90.42925262451172, 'logps/ref_rejected': -99.89634704589844, 'logits/chosen': -1.3145904541015625, 'logits/rejected': -0.6349297761917114, 'epoch': 0.14}
 14%|███████████████▌                                                                                                  | 93/681 [04:33<27:21,  2.79s/it] 14%|███████████████▋                                                                                                  | 94/681 [04:36<28:12,  2.88s/it]                                                                                                                                                        {'loss': 1.0268, 'grad_norm': 27.18844223022461, 'learning_rate': 4.98105127417984e-07, 'margin_dpo/margin_mean': 2.7289280891418457, 'margin_dpo/margin_std': 6.002341270446777, 'logps/chosen': -87.33253479003906, 'logps/rejected': -68.11126708984375, 'logps/ref_chosen': -84.00141906738281, 'logps/ref_rejected': -62.051231384277344, 'logits/chosen': -0.6020889282226562, 'logits/rejected': -0.1479286551475525, 'epoch': 0.14}
 14%|███████████████▋                                                                                                  | 94/681 [04:36<28:12,  2.88s/it] 14%|███████████████▉                                                                                                  | 95/681 [04:39<27:51,  2.85s/it]                                                                                                                                                        {'loss': 1.0895, 'grad_norm': 22.77342987060547, 'learning_rate': 4.979441529392784e-07, 'margin_dpo/margin_mean': 6.590925693511963, 'margin_dpo/margin_std': 7.665090560913086, 'logps/chosen': -85.50116729736328, 'logps/rejected': -120.98870849609375, 'logps/ref_chosen': -83.24620056152344, 'logps/ref_rejected': -112.14282989501953, 'logits/chosen': -1.6398792266845703, 'logits/rejected': -0.8445466160774231, 'epoch': 0.14}
 14%|███████████████▉                                                                                                  | 95/681 [04:39<27:51,  2.85s/it] 14%|████████████████                                                                                                  | 96/681 [04:42<27:52,  2.86s/it]                                                                                                                                                        {'loss': 1.0107, 'grad_norm': 23.296894073486328, 'learning_rate': 4.977766449015534e-07, 'margin_dpo/margin_mean': 6.817150115966797, 'margin_dpo/margin_std': 9.70801067352295, 'logps/chosen': -123.06785583496094, 'logps/rejected': -115.217041015625, 'logps/ref_chosen': -120.4042739868164, 'logps/ref_rejected': -105.736328125, 'logits/chosen': -0.34511518478393555, 'logits/rejected': -0.08061528205871582, 'epoch': 0.14}
 14%|████████████████                                                                                                  | 96/681 [04:42<27:52,  2.86s/it] 14%|████████████████▏                                                                                                 | 97/681 [04:45<28:08,  2.89s/it]                                                                                                                                                        {'loss': 1.0255, 'grad_norm': 27.008302688598633, 'learning_rate': 4.976026077188012e-07, 'margin_dpo/margin_mean': 6.44036865234375, 'margin_dpo/margin_std': 6.640345096588135, 'logps/chosen': -92.0294189453125, 'logps/rejected': -81.84813690185547, 'logps/ref_chosen': -89.40409851074219, 'logps/ref_rejected': -72.7824478149414, 'logits/chosen': -0.5496343374252319, 'logits/rejected': 0.04007942974567413, 'epoch': 0.14}
 14%|████████████████▏                                                                                                 | 97/681 [04:45<28:08,  2.89s/it] 14%|████████████████▍                                                                                                 | 98/681 [04:48<27:40,  2.85s/it]                                                                                                                                                        {'loss': 0.9763, 'grad_norm': 24.74591636657715, 'learning_rate': 4.974220459770639e-07, 'margin_dpo/margin_mean': 7.034348964691162, 'margin_dpo/margin_std': 5.715366363525391, 'logps/chosen': -79.35165405273438, 'logps/rejected': -111.64566802978516, 'logps/ref_chosen': -77.14939880371094, 'logps/ref_rejected': -102.4090576171875, 'logits/chosen': -0.39552319049835205, 'logits/rejected': -0.35785946249961853, 'epoch': 0.14}
 14%|████████████████▍                                                                                                 | 98/681 [04:48<27:40,  2.85s/it] 15%|████████████████▌                                                                                                 | 99/681 [04:50<27:04,  2.79s/it]                                                                                                                                                        {'loss': 0.9865, 'grad_norm': 23.71422004699707, 'learning_rate': 4.972349644343108e-07, 'margin_dpo/margin_mean': 5.754771709442139, 'margin_dpo/margin_std': 6.445099353790283, 'logps/chosen': -69.09884643554688, 'logps/rejected': -87.75712585449219, 'logps/ref_chosen': -67.58863067626953, 'logps/ref_rejected': -80.49214172363281, 'logits/chosen': -0.6945886611938477, 'logits/rejected': -0.29277852177619934, 'epoch': 0.15}
 15%|████████████████▌                                                                                                 | 99/681 [04:50<27:04,  2.79s/it] 15%|████████████████▌                                                                                                | 100/681 [04:54<27:59,  2.89s/it]                                                                                                                                                        {'loss': 1.0426, 'grad_norm': 22.417694091796875, 'learning_rate': 4.970413680203148e-07, 'margin_dpo/margin_mean': 2.903665065765381, 'margin_dpo/margin_std': 4.343265056610107, 'logps/chosen': -73.37350463867188, 'logps/rejected': -83.2952880859375, 'logps/ref_chosen': -70.40953826904297, 'logps/ref_rejected': -77.42765808105469, 'logits/chosen': -1.128528356552124, 'logits/rejected': -0.9991703033447266, 'epoch': 0.15}
 15%|████████████████▌                                                                                                | 100/681 [04:54<27:59,  2.89s/it][INFO|trainer.py:4307] 2026-04-24 00:00:01,105 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 00:00:01,105 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 00:00:01,105 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:18,  3.83it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:28,  2.46it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:34,  2.00it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:34,  1.95it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.83it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:36,  1.82it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:03<00:34,  1.91it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:38,  1.67it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.69it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:38,  1.62it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:36,  1.66it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:36,  1.66it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:36,  1.64it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:35,  1.63it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.59it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.57it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:31,  1.72it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:10<00:35,  1.53it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:35,  1.50it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:34,  1.51it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:12<00:33,  1.54it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:31,  1.60it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.54it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.57it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:27,  1.69it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.75it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.68it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.70it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:25,  1.71it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.74it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:24,  1.68it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.69it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:19<00:21,  1.78it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:22,  1.68it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:21,  1.69it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.60it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:21,  1.65it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:21,  1.60it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:20,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:19,  1.68it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:17,  1.72it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:16,  1.77it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.62it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.57it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.67it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.65it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.62it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.64it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:13,  1.71it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.60it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:31<00:13,  1.55it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:13,  1.53it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.64it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.69it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.66it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:09,  1.60it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:07,  1.77it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:08,  1.62it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.69it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:37<00:06,  1.64it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.76it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:37<00:04,  1.84it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.71it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:03,  1.75it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.69it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.73it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:41<00:02,  1.67it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.58it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:43<00:00,  1.59it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.73it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.6031284928321838, 'eval_runtime': 44.1021, 'eval_samples_per_second': 53.036, 'eval_steps_per_second': 1.678, 'eval_margin_dpo/margin_mean': 2.754598617553711, 'eval_margin_dpo/margin_std': 5.884398937225342, 'eval_logps/chosen': -105.63566589355469, 'eval_logps/rejected': -99.1901626586914, 'eval_logps/ref_chosen': -101.88616943359375, 'eval_logps/ref_rejected': -92.68607330322266, 'eval_logits/chosen': -0.05655202642083168, 'eval_logits/rejected': 0.19737417995929718, 'epoch': 0.15}
 15%|████████████████▌                                                                                                | 100/681 [05:38<27:59,  2.89s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.73it/s][A
                                                                                                                                                        [A 15%|████████████████▍                                                                                              | 101/681 [05:40<2:35:22, 16.07s/it]                                                                                                                                                        {'loss': 1.1382, 'grad_norm': 28.25216293334961, 'learning_rate': 4.968412618365215e-07, 'margin_dpo/margin_mean': 6.950290203094482, 'margin_dpo/margin_std': 8.697531700134277, 'logps/chosen': -128.88844299316406, 'logps/rejected': -136.82745361328125, 'logps/ref_chosen': -123.95951843261719, 'logps/ref_rejected': -124.9482421875, 'logits/chosen': -0.1628236174583435, 'logits/rejected': -0.21538278460502625, 'epoch': 0.15}
 15%|████████████████▍                                                                                              | 101/681 [05:40<2:35:22, 16.07s/it] 15%|████████████████▋                                                                                              | 102/681 [05:43<1:56:36, 12.08s/it]                                                                                                                                                        {'loss': 1.1861, 'grad_norm': 35.67359924316406, 'learning_rate': 4.966346511559149e-07, 'margin_dpo/margin_mean': 1.6625572443008423, 'margin_dpo/margin_std': 7.926374912261963, 'logps/chosen': -133.60629272460938, 'logps/rejected': -90.74542236328125, 'logps/ref_chosen': -128.27081298828125, 'logps/ref_rejected': -83.74739074707031, 'logits/chosen': -0.657694935798645, 'logits/rejected': -0.1648797243833542, 'epoch': 0.15}
 15%|████████████████▋                                                                                              | 102/681 [05:43<1:56:36, 12.08s/it] 15%|████████████████▊                                                                                              | 103/681 [05:46<1:29:07,  9.25s/it]                                                                                                                                                        {'loss': 0.997, 'grad_norm': 26.774639129638672, 'learning_rate': 4.964215414228785e-07, 'margin_dpo/margin_mean': 2.47078800201416, 'margin_dpo/margin_std': 4.759175777435303, 'logps/chosen': -82.16940307617188, 'logps/rejected': -63.93667984008789, 'logps/ref_chosen': -79.08724212646484, 'logps/ref_rejected': -58.38372802734375, 'logits/chosen': -0.28504350781440735, 'logits/rejected': 0.10399870574474335, 'epoch': 0.15}
 15%|████████████████▊                                                                                              | 103/681 [05:46<1:29:07,  9.25s/it] 15%|████████████████▉                                                                                              | 104/681 [05:48<1:09:34,  7.24s/it]                                                                                                                                                        {'loss': 0.9781, 'grad_norm': 22.17858123779297, 'learning_rate': 4.96201938253052e-07, 'margin_dpo/margin_mean': 4.921270847320557, 'margin_dpo/margin_std': 6.682742118835449, 'logps/chosen': -81.82193756103516, 'logps/rejected': -85.17577362060547, 'logps/ref_chosen': -79.506103515625, 'logps/ref_rejected': -77.93867492675781, 'logits/chosen': -1.632993459701538, 'logits/rejected': -0.9502384066581726, 'epoch': 0.15}
 15%|████████████████▉                                                                                              | 104/681 [05:48<1:09:34,  7.24s/it] 15%|█████████████████▍                                                                                               | 105/681 [05:51<57:22,  5.98s/it]                                                                                                                                                        {'loss': 0.9886, 'grad_norm': 26.013565063476562, 'learning_rate': 4.959758474331832e-07, 'margin_dpo/margin_mean': 1.7764201164245605, 'margin_dpo/margin_std': 7.046723365783691, 'logps/chosen': -129.20193481445312, 'logps/rejected': -104.8051528930664, 'logps/ref_chosen': -123.54203796386719, 'logps/ref_rejected': -97.36883544921875, 'logits/chosen': -1.6654616594314575, 'logits/rejected': -1.016417384147644, 'epoch': 0.15}
 15%|█████████████████▍                                                                                               | 105/681 [05:51<57:22,  5.98s/it] 16%|█████████████████▌                                                                                               | 106/681 [05:54<48:45,  5.09s/it]                                                                                                                                                        {'loss': 1.0052, 'grad_norm': 25.039297103881836, 'learning_rate': 4.957432749209755e-07, 'margin_dpo/margin_mean': 5.261022090911865, 'margin_dpo/margin_std': 6.1609601974487305, 'logps/chosen': -68.43580627441406, 'logps/rejected': -82.34314727783203, 'logps/ref_chosen': -65.17315673828125, 'logps/ref_rejected': -73.81947326660156, 'logits/chosen': -0.7109205722808838, 'logits/rejected': -0.1984243392944336, 'epoch': 0.16}
 16%|█████████████████▌                                                                                               | 106/681 [05:54<48:45,  5.09s/it] 16%|█████████████████▊                                                                                               | 107/681 [05:57<42:44,  4.47s/it]                                                                                                                                                        {'loss': 0.9866, 'grad_norm': 25.406858444213867, 'learning_rate': 4.955042268449307e-07, 'margin_dpo/margin_mean': 2.6064443588256836, 'margin_dpo/margin_std': 5.637351036071777, 'logps/chosen': -80.75108337402344, 'logps/rejected': -88.46271514892578, 'logps/ref_chosen': -77.79078674316406, 'logps/ref_rejected': -82.89598083496094, 'logits/chosen': -0.551948070526123, 'logits/rejected': -0.09590325504541397, 'epoch': 0.16}
 16%|█████████████████▊                                                                                               | 107/681 [05:57<42:44,  4.47s/it] 16%|█████████████████▉                                                                                               | 108/681 [06:00<37:40,  3.94s/it]                                                                                                                                                        {'loss': 0.9856, 'grad_norm': 24.171070098876953, 'learning_rate': 4.952587095041881e-07, 'margin_dpo/margin_mean': 2.4185736179351807, 'margin_dpo/margin_std': 7.777304649353027, 'logps/chosen': -132.8676300048828, 'logps/rejected': -132.35462951660156, 'logps/ref_chosen': -128.1168212890625, 'logps/ref_rejected': -125.18524932861328, 'logits/chosen': -0.9575413465499878, 'logits/rejected': -0.5017733573913574, 'epoch': 0.16}
 16%|█████████████████▉                                                                                               | 108/681 [06:00<37:40,  3.94s/it] 16%|██████████████████                                                                                               | 109/681 [06:03<35:04,  3.68s/it]                                                                                                                                                        {'loss': 0.9014, 'grad_norm': 23.65253257751465, 'learning_rate': 4.95006729368358e-07, 'margin_dpo/margin_mean': 7.51275634765625, 'margin_dpo/margin_std': 6.889702320098877, 'logps/chosen': -79.58955383300781, 'logps/rejected': -115.61421203613281, 'logps/ref_chosen': -77.46507263183594, 'logps/ref_rejected': -105.97697448730469, 'logits/chosen': -1.0863566398620605, 'logits/rejected': -1.1219680309295654, 'epoch': 0.16}
 16%|██████████████████                                                                                               | 109/681 [06:03<35:04,  3.68s/it] 16%|██████████████████▎                                                                                              | 110/681 [06:06<33:11,  3.49s/it]                                                                                                                                                        {'loss': 1.071, 'grad_norm': 27.846046447753906, 'learning_rate': 4.947482930773511e-07, 'margin_dpo/margin_mean': 4.476062774658203, 'margin_dpo/margin_std': 6.243172645568848, 'logps/chosen': -121.49076843261719, 'logps/rejected': -97.38516235351562, 'logps/ref_chosen': -118.46145629882812, 'logps/ref_rejected': -89.87979888916016, 'logits/chosen': -0.27717405557632446, 'logits/rejected': 0.07007038593292236, 'epoch': 0.16}
 16%|██████████████████▎                                                                                              | 110/681 [06:06<33:11,  3.49s/it] 16%|██████████████████▍                                                                                              | 111/681 [06:09<31:24,  3.31s/it]                                                                                                                                                        {'loss': 0.8494, 'grad_norm': 22.43236541748047, 'learning_rate': 4.944834074412042e-07, 'margin_dpo/margin_mean': 10.954520225524902, 'margin_dpo/margin_std': 10.141668319702148, 'logps/chosen': -85.39334106445312, 'logps/rejected': -140.41445922851562, 'logps/ref_chosen': -82.5454330444336, 'logps/ref_rejected': -126.61203002929688, 'logits/chosen': -1.0582770109176636, 'logits/rejected': -1.1601223945617676, 'epoch': 0.16}
 16%|██████████████████▍                                                                                              | 111/681 [06:09<31:24,  3.31s/it] 16%|██████████████████▌                                                                                              | 112/681 [06:12<29:22,  3.10s/it]                                                                                                                                                        {'loss': 1.0748, 'grad_norm': 25.659700393676758, 'learning_rate': 4.942120794399002e-07, 'margin_dpo/margin_mean': 5.026644706726074, 'margin_dpo/margin_std': 6.663045883178711, 'logps/chosen': -64.30489349365234, 'logps/rejected': -96.92811584472656, 'logps/ref_chosen': -60.22978973388672, 'logps/ref_rejected': -87.82637023925781, 'logits/chosen': -0.23621593415737152, 'logits/rejected': -0.1482967883348465, 'epoch': 0.16}
 16%|██████████████████▌                                                                                              | 112/681 [06:12<29:22,  3.10s/it] 17%|██████████████████▊                                                                                              | 113/681 [06:15<29:00,  3.06s/it]                                                                                                                                                        {'loss': 1.0397, 'grad_norm': 28.988935470581055, 'learning_rate': 4.939343162231841e-07, 'margin_dpo/margin_mean': 6.210036277770996, 'margin_dpo/margin_std': 6.891805648803711, 'logps/chosen': -79.95890808105469, 'logps/rejected': -118.75503540039062, 'logps/ref_chosen': -76.71855926513672, 'logps/ref_rejected': -109.30464172363281, 'logits/chosen': -0.25600025057792664, 'logits/rejected': -0.23611587285995483, 'epoch': 0.17}
 17%|██████████████████▊                                                                                              | 113/681 [06:15<29:00,  3.06s/it] 17%|██████████████████▉                                                                                              | 114/681 [06:18<28:35,  3.03s/it]                                                                                                                                                        {'loss': 0.9951, 'grad_norm': 29.809431076049805, 'learning_rate': 4.936501251103751e-07, 'margin_dpo/margin_mean': 10.004129409790039, 'margin_dpo/margin_std': 10.323932647705078, 'logps/chosen': -117.84416198730469, 'logps/rejected': -111.39344787597656, 'logps/ref_chosen': -114.472412109375, 'logps/ref_rejected': -98.01756286621094, 'logits/chosen': -1.982461929321289, 'logits/rejected': -1.0373061895370483, 'epoch': 0.17}
 17%|██████████████████▉                                                                                              | 114/681 [06:18<28:35,  3.03s/it] 17%|███████████████████                                                                                              | 115/681 [06:21<28:56,  3.07s/it]                                                                                                                                                        {'loss': 0.9494, 'grad_norm': 25.537490844726562, 'learning_rate': 4.933595135901732e-07, 'margin_dpo/margin_mean': 7.144563674926758, 'margin_dpo/margin_std': 6.993829727172852, 'logps/chosen': -80.99656677246094, 'logps/rejected': -83.04512023925781, 'logps/ref_chosen': -79.65080261230469, 'logps/ref_rejected': -74.55479431152344, 'logits/chosen': -0.7669371962547302, 'logits/rejected': -0.15004056692123413, 'epoch': 0.17}
 17%|███████████████████                                                                                              | 115/681 [06:21<28:56,  3.07s/it] 17%|███████████████████▏                                                                                             | 116/681 [06:23<27:47,  2.95s/it]                                                                                                                                                        {'loss': 0.9878, 'grad_norm': 22.20758628845215, 'learning_rate': 4.930624893204624e-07, 'margin_dpo/margin_mean': 2.8738439083099365, 'margin_dpo/margin_std': 4.748990058898926, 'logps/chosen': -74.30891418457031, 'logps/rejected': -63.68486404418945, 'logps/ref_chosen': -70.655517578125, 'logps/ref_rejected': -57.157615661621094, 'logits/chosen': -0.7407585382461548, 'logits/rejected': -0.43094000220298767, 'epoch': 0.17}
 17%|███████████████████▏                                                                                             | 116/681 [06:24<27:47,  2.95s/it] 17%|███████████████████▍                                                                                             | 117/681 [06:26<27:29,  2.93s/it]                                                                                                                                                        {'loss': 1.0785, 'grad_norm': 36.41432571411133, 'learning_rate': 4.927590601281083e-07, 'margin_dpo/margin_mean': 4.585183620452881, 'margin_dpo/margin_std': 8.649291038513184, 'logps/chosen': -87.08619689941406, 'logps/rejected': -85.58804321289062, 'logps/ref_chosen': -82.48936462402344, 'logps/ref_rejected': -76.40602111816406, 'logits/chosen': -1.0424773693084717, 'logits/rejected': -0.5706847906112671, 'epoch': 0.17}
 17%|███████████████████▍                                                                                             | 117/681 [06:26<27:29,  2.93s/it] 17%|███████████████████▌                                                                                             | 118/681 [06:29<27:16,  2.91s/it]                                                                                                                                                        {'loss': 0.9264, 'grad_norm': 21.416038513183594, 'learning_rate': 4.924492340087524e-07, 'margin_dpo/margin_mean': 6.954972743988037, 'margin_dpo/margin_std': 6.001160144805908, 'logps/chosen': -90.31568908691406, 'logps/rejected': -90.73196411132812, 'logps/ref_chosen': -89.27349853515625, 'logps/ref_rejected': -82.73481750488281, 'logits/chosen': -0.19199329614639282, 'logits/rejected': 0.20044465363025665, 'epoch': 0.17}
 17%|███████████████████▌                                                                                             | 118/681 [06:29<27:16,  2.91s/it] 17%|███████████████████▋                                                                                             | 119/681 [06:32<27:38,  2.95s/it]                                                                                                                                                        {'loss': 0.9982, 'grad_norm': 28.66317367553711, 'learning_rate': 4.92133019126601e-07, 'margin_dpo/margin_mean': 8.453452110290527, 'margin_dpo/margin_std': 9.262985229492188, 'logps/chosen': -137.56922912597656, 'logps/rejected': -144.9943389892578, 'logps/ref_chosen': -135.48094177246094, 'logps/ref_rejected': -134.4525909423828, 'logits/chosen': -0.8395548462867737, 'logits/rejected': -0.40599122643470764, 'epoch': 0.17}
 17%|███████████████████▋                                                                                             | 119/681 [06:32<27:38,  2.95s/it] 18%|███████████████████▉                                                                                             | 120/681 [06:35<27:35,  2.95s/it]                                                                                                                                                        {'loss': 0.921, 'grad_norm': 35.21387481689453, 'learning_rate': 4.918104238142103e-07, 'margin_dpo/margin_mean': 9.563423156738281, 'margin_dpo/margin_std': 11.283243179321289, 'logps/chosen': -149.92428588867188, 'logps/rejected': -118.67092895507812, 'logps/ref_chosen': -145.44580078125, 'logps/ref_rejected': -104.62899780273438, 'logits/chosen': -1.461838722229004, 'logits/rejected': -0.18029293417930603, 'epoch': 0.18}
 18%|███████████████████▉                                                                                             | 120/681 [06:35<27:35,  2.95s/it] 18%|████████████████████                                                                                             | 121/681 [06:38<27:12,  2.91s/it]                                                                                                                                                        {'loss': 0.8526, 'grad_norm': 24.13612937927246, 'learning_rate': 4.91481456572267e-07, 'margin_dpo/margin_mean': 6.289523124694824, 'margin_dpo/margin_std': 6.245270252227783, 'logps/chosen': -79.19808959960938, 'logps/rejected': -108.17426300048828, 'logps/ref_chosen': -77.02085876464844, 'logps/ref_rejected': -99.70750427246094, 'logits/chosen': -0.112807996571064, 'logits/rejected': 0.10981197655200958, 'epoch': 0.18}
 18%|████████████████████                                                                                             | 121/681 [06:38<27:12,  2.91s/it] 18%|████████████████████▏                                                                                            | 122/681 [06:41<26:50,  2.88s/it]                                                                                                                                                        {'loss': 0.836, 'grad_norm': 23.817363739013672, 'learning_rate': 4.911461260693638e-07, 'margin_dpo/margin_mean': 7.380002975463867, 'margin_dpo/margin_std': 8.832366943359375, 'logps/chosen': -77.3744888305664, 'logps/rejected': -117.64198303222656, 'logps/ref_chosen': -73.7746353149414, 'logps/ref_rejected': -106.66211700439453, 'logits/chosen': -0.4354201555252075, 'logits/rejected': -0.6057559251785278, 'epoch': 0.18}
 18%|████████████████████▏                                                                                            | 122/681 [06:41<26:50,  2.88s/it] 18%|████████████████████▍                                                                                            | 123/681 [06:44<27:39,  2.97s/it]                                                                                                                                                        {'loss': 0.9648, 'grad_norm': 23.779541015625, 'learning_rate': 4.908044411417711e-07, 'margin_dpo/margin_mean': 7.016263484954834, 'margin_dpo/margin_std': 4.6288957595825195, 'logps/chosen': -82.35337829589844, 'logps/rejected': -100.98405456542969, 'logps/ref_chosen': -79.58645629882812, 'logps/ref_rejected': -91.20085144042969, 'logits/chosen': -0.24536287784576416, 'logits/rejected': -0.17662711441516876, 'epoch': 0.18}
 18%|████████████████████▍                                                                                            | 123/681 [06:44<27:39,  2.97s/it] 18%|████████████████████▌                                                                                            | 124/681 [06:47<27:32,  2.97s/it]                                                                                                                                                        {'loss': 0.9621, 'grad_norm': 25.46894073486328, 'learning_rate': 4.904564107932048e-07, 'margin_dpo/margin_mean': 8.70390510559082, 'margin_dpo/margin_std': 12.833571434020996, 'logps/chosen': -107.60164642333984, 'logps/rejected': -138.65370178222656, 'logps/ref_chosen': -105.69091796875, 'logps/ref_rejected': -128.0390625, 'logits/chosen': -1.0531779527664185, 'logits/rejected': -0.9245602488517761, 'epoch': 0.18}
 18%|████████████████████▌                                                                                            | 124/681 [06:47<27:32,  2.97s/it] 18%|████████████████████▋                                                                                            | 125/681 [06:50<27:00,  2.91s/it]                                                                                                                                                        {'loss': 1.0325, 'grad_norm': 29.539167404174805, 'learning_rate': 4.90102044194588e-07, 'margin_dpo/margin_mean': 3.152360200881958, 'margin_dpo/margin_std': 8.048112869262695, 'logps/chosen': -73.57737731933594, 'logps/rejected': -87.29751586914062, 'logps/ref_chosen': -68.22820281982422, 'logps/ref_rejected': -78.79598236083984, 'logits/chosen': -0.7907294631004333, 'logits/rejected': -0.3655990660190582, 'epoch': 0.18}
 18%|████████████████████▋                                                                                            | 125/681 [06:50<27:00,  2.91s/it] 19%|████████████████████▉                                                                                            | 126/681 [06:53<27:13,  2.94s/it]                                                                                                                                                        {'loss': 0.8182, 'grad_norm': 23.945877075195312, 'learning_rate': 4.897413506838102e-07, 'margin_dpo/margin_mean': 8.845060348510742, 'margin_dpo/margin_std': 8.391151428222656, 'logps/chosen': -129.45509338378906, 'logps/rejected': -144.79702758789062, 'logps/ref_chosen': -126.91588592529297, 'logps/ref_rejected': -133.4127655029297, 'logits/chosen': -1.0596747398376465, 'logits/rejected': -0.6876899600028992, 'epoch': 0.19}
 19%|████████████████████▉                                                                                            | 126/681 [06:53<27:13,  2.94s/it] 19%|█████████████████████                                                                                            | 127/681 [06:56<27:21,  2.96s/it]                                                                                                                                                        {'loss': 0.992, 'grad_norm': 27.48787498474121, 'learning_rate': 4.89374339765481e-07, 'margin_dpo/margin_mean': 4.933928966522217, 'margin_dpo/margin_std': 8.037854194641113, 'logps/chosen': -109.96749877929688, 'logps/rejected': -81.34496307373047, 'logps/ref_chosen': -106.9218978881836, 'logps/ref_rejected': -73.36544036865234, 'logits/chosen': -1.344987392425537, 'logits/rejected': -0.998265266418457, 'epoch': 0.19}
 19%|█████████████████████                                                                                            | 127/681 [06:56<27:21,  2.96s/it] 19%|█████████████████████▏                                                                                           | 128/681 [06:59<27:32,  2.99s/it]                                                                                                                                                        {'loss': 1.016, 'grad_norm': 30.776973724365234, 'learning_rate': 4.890010211106795e-07, 'margin_dpo/margin_mean': 8.018218994140625, 'margin_dpo/margin_std': 7.071664810180664, 'logps/chosen': -71.75405883789062, 'logps/rejected': -92.6358642578125, 'logps/ref_chosen': -68.51551055908203, 'logps/ref_rejected': -81.37910461425781, 'logits/chosen': -1.3177127838134766, 'logits/rejected': -1.1496309041976929, 'epoch': 0.19}
 19%|█████████████████████▏                                                                                           | 128/681 [06:59<27:32,  2.99s/it] 19%|█████████████████████▍                                                                                           | 129/681 [07:02<27:47,  3.02s/it]                                                                                                                                                        {'loss': 0.9865, 'grad_norm': 25.891700744628906, 'learning_rate': 4.88621404556699e-07, 'margin_dpo/margin_mean': 6.922273635864258, 'margin_dpo/margin_std': 9.410476684570312, 'logps/chosen': -72.28971099853516, 'logps/rejected': -92.97059631347656, 'logps/ref_chosen': -67.88934326171875, 'logps/ref_rejected': -81.64795684814453, 'logits/chosen': -0.7863626480102539, 'logits/rejected': -0.49298733472824097, 'epoch': 0.19}
 19%|█████████████████████▍                                                                                           | 129/681 [07:02<27:47,  3.02s/it] 19%|█████████████████████▌                                                                                           | 130/681 [07:05<26:50,  2.92s/it]                                                                                                                                                        {'loss': 0.8669, 'grad_norm': 21.4912109375, 'learning_rate': 4.882355001067891e-07, 'margin_dpo/margin_mean': 10.333681106567383, 'margin_dpo/margin_std': 10.306255340576172, 'logps/chosen': -81.25286102294922, 'logps/rejected': -101.17716979980469, 'logps/ref_chosen': -78.04290008544922, 'logps/ref_rejected': -87.63352966308594, 'logits/chosen': -1.364875078201294, 'logits/rejected': -1.045945644378662, 'epoch': 0.19}
 19%|█████████████████████▌                                                                                           | 130/681 [07:05<26:50,  2.92s/it] 19%|█████████████████████▋                                                                                           | 131/681 [07:08<26:53,  2.93s/it]                                                                                                                                                        {'loss': 0.9294, 'grad_norm': 22.531719207763672, 'learning_rate': 4.878433179298909e-07, 'margin_dpo/margin_mean': 5.866049289703369, 'margin_dpo/margin_std': 11.821134567260742, 'logps/chosen': -95.02635192871094, 'logps/rejected': -113.58657836914062, 'logps/ref_chosen': -92.93765258789062, 'logps/ref_rejected': -105.63180541992188, 'logits/chosen': -0.6210666298866272, 'logits/rejected': -0.29343628883361816, 'epoch': 0.19}
 19%|█████████████████████▋                                                                                           | 131/681 [07:08<26:53,  2.93s/it] 19%|█████████████████████▉                                                                                           | 132/681 [07:10<26:28,  2.89s/it]                                                                                                                                                        {'loss': 0.8907, 'grad_norm': 28.748842239379883, 'learning_rate': 4.874448683603694e-07, 'margin_dpo/margin_mean': 8.481182098388672, 'margin_dpo/margin_std': 8.121637344360352, 'logps/chosen': -109.67427062988281, 'logps/rejected': -109.65825653076172, 'logps/ref_chosen': -106.78312683105469, 'logps/ref_rejected': -98.28593444824219, 'logits/chosen': -0.5462979674339294, 'logits/rejected': -0.1083882749080658, 'epoch': 0.19}
 19%|█████████████████████▉                                                                                           | 132/681 [07:10<26:28,  2.89s/it] 20%|██████████████████████                                                                                           | 133/681 [07:13<26:34,  2.91s/it]                                                                                                                                                        {'loss': 0.8704, 'grad_norm': 23.444847106933594, 'learning_rate': 4.870401618977415e-07, 'margin_dpo/margin_mean': 7.310290336608887, 'margin_dpo/margin_std': 9.262811660766602, 'logps/chosen': -103.25596618652344, 'logps/rejected': -107.94853210449219, 'logps/ref_chosen': -100.59583282470703, 'logps/ref_rejected': -97.97810363769531, 'logits/chosen': -1.1360797882080078, 'logits/rejected': -0.8285423517227173, 'epoch': 0.2}
 20%|██████████████████████                                                                                           | 133/681 [07:13<26:34,  2.91s/it] 20%|██████████████████████▏                                                                                          | 134/681 [07:16<25:55,  2.84s/it]                                                                                                                                                        {'loss': 0.8261, 'grad_norm': 21.67630958557129, 'learning_rate': 4.866292092063986e-07, 'margin_dpo/margin_mean': 5.9255475997924805, 'margin_dpo/margin_std': 8.01714038848877, 'logps/chosen': -100.99070739746094, 'logps/rejected': -112.1727523803711, 'logps/ref_chosen': -95.42115783691406, 'logps/ref_rejected': -100.67765808105469, 'logits/chosen': -0.6046867370605469, 'logits/rejected': -0.4987502992153168, 'epoch': 0.2}
 20%|██████████████████████▏                                                                                          | 134/681 [07:16<25:55,  2.84s/it] 20%|██████████████████████▍                                                                                          | 135/681 [07:19<25:46,  2.83s/it]                                                                                                                                                        {'loss': 0.9108, 'grad_norm': 29.390384674072266, 'learning_rate': 4.862120211153265e-07, 'margin_dpo/margin_mean': 9.009686470031738, 'margin_dpo/margin_std': 8.271293640136719, 'logps/chosen': -74.57313537597656, 'logps/rejected': -207.61270141601562, 'logps/ref_chosen': -71.50714111328125, 'logps/ref_rejected': -195.5370330810547, 'logits/chosen': 0.34038400650024414, 'logits/rejected': 0.10170932114124298, 'epoch': 0.2}
 20%|██████████████████████▍                                                                                          | 135/681 [07:19<25:46,  2.83s/it] 20%|██████████████████████▌                                                                                          | 136/681 [07:22<26:29,  2.92s/it]                                                                                                                                                        {'loss': 0.8187, 'grad_norm': 22.794597625732422, 'learning_rate': 4.857886086178193e-07, 'margin_dpo/margin_mean': 7.845623016357422, 'margin_dpo/margin_std': 5.256319999694824, 'logps/chosen': -98.30638122558594, 'logps/rejected': -118.60725402832031, 'logps/ref_chosen': -93.96214294433594, 'logps/ref_rejected': -106.4173812866211, 'logits/chosen': -0.5607945919036865, 'logits/rejected': -0.4255688488483429, 'epoch': 0.2}
 20%|██████████████████████▌                                                                                          | 136/681 [07:22<26:29,  2.92s/it] 20%|██████████████████████▋                                                                                          | 137/681 [07:25<26:49,  2.96s/it]                                                                                                                                                        {'loss': 0.6806, 'grad_norm': 22.39464569091797, 'learning_rate': 4.853589828711902e-07, 'margin_dpo/margin_mean': 13.657103538513184, 'margin_dpo/margin_std': 11.201322555541992, 'logps/chosen': -78.58103942871094, 'logps/rejected': -131.11453247070312, 'logps/ref_chosen': -79.13609313964844, 'logps/ref_rejected': -118.01248168945312, 'logits/chosen': -1.5836092233657837, 'logits/rejected': -1.3331845998764038, 'epoch': 0.2}
 20%|██████████████████████▋                                                                                          | 137/681 [07:25<26:49,  2.96s/it] 20%|██████████████████████▉                                                                                          | 138/681 [07:28<26:19,  2.91s/it]                                                                                                                                                        {'loss': 0.8695, 'grad_norm': 22.287464141845703, 'learning_rate': 4.849231551964771e-07, 'margin_dpo/margin_mean': 7.2639617919921875, 'margin_dpo/margin_std': 8.118474960327148, 'logps/chosen': -107.3237533569336, 'logps/rejected': -113.90208435058594, 'logps/ref_chosen': -104.25080871582031, 'logps/ref_rejected': -103.565185546875, 'logits/chosen': -0.6701608300209045, 'logits/rejected': -0.45578303933143616, 'epoch': 0.2}
 20%|██████████████████████▉                                                                                          | 138/681 [07:28<26:19,  2.91s/it] 20%|███████████████████████                                                                                          | 139/681 [07:31<25:43,  2.85s/it]                                                                                                                                                        {'loss': 0.8457, 'grad_norm': 23.708158493041992, 'learning_rate': 4.844811370781446e-07, 'margin_dpo/margin_mean': 10.536781311035156, 'margin_dpo/margin_std': 13.584081649780273, 'logps/chosen': -94.10173797607422, 'logps/rejected': -97.67942810058594, 'logps/ref_chosen': -91.9404296875, 'logps/ref_rejected': -84.98133850097656, 'logits/chosen': -1.3766424655914307, 'logits/rejected': -0.7842209935188293, 'epoch': 0.2}
 20%|███████████████████████                                                                                          | 139/681 [07:31<25:43,  2.85s/it] 21%|███████████████████████▏                                                                                         | 140/681 [07:33<25:12,  2.80s/it]                                                                                                                                                        {'loss': 0.8478, 'grad_norm': 22.01458168029785, 'learning_rate': 4.840329401637809e-07, 'margin_dpo/margin_mean': 9.92848014831543, 'margin_dpo/margin_std': 8.664599418640137, 'logps/chosen': -83.47078704833984, 'logps/rejected': -112.2000732421875, 'logps/ref_chosen': -79.87215423583984, 'logps/ref_rejected': -98.67296600341797, 'logits/chosen': -1.1145687103271484, 'logits/rejected': -0.8994247913360596, 'epoch': 0.21}
 21%|███████████████████████▏                                                                                         | 140/681 [07:33<25:12,  2.80s/it] 21%|███████████████████████▍                                                                                         | 141/681 [07:36<25:44,  2.86s/it]                                                                                                                                                        {'loss': 0.7886, 'grad_norm': 27.232759475708008, 'learning_rate': 4.83578576263792e-07, 'margin_dpo/margin_mean': 7.190412521362305, 'margin_dpo/margin_std': 9.38884162902832, 'logps/chosen': -140.94210815429688, 'logps/rejected': -125.99818420410156, 'logps/ref_chosen': -133.52174377441406, 'logps/ref_rejected': -111.38741302490234, 'logits/chosen': -1.0526609420776367, 'logits/rejected': -0.5129063129425049, 'epoch': 0.21}
 21%|███████████████████████▍                                                                                         | 141/681 [07:36<25:44,  2.86s/it] 21%|███████████████████████▌                                                                                         | 142/681 [07:39<26:26,  2.94s/it]                                                                                                                                                        {'loss': 0.819, 'grad_norm': 22.663490295410156, 'learning_rate': 4.83118057351089e-07, 'margin_dpo/margin_mean': 13.967466354370117, 'margin_dpo/margin_std': 12.330192565917969, 'logps/chosen': -106.17414093017578, 'logps/rejected': -135.26641845703125, 'logps/ref_chosen': -105.53807067871094, 'logps/ref_rejected': -120.66288757324219, 'logits/chosen': -1.2602531909942627, 'logits/rejected': -1.1595778465270996, 'epoch': 0.21}
 21%|███████████████████████▌                                                                                         | 142/681 [07:39<26:26,  2.94s/it] 21%|███████████████████████▋                                                                                         | 143/681 [07:42<26:03,  2.91s/it]                                                                                                                                                        {'loss': 0.9112, 'grad_norm': 23.751354217529297, 'learning_rate': 4.826513955607734e-07, 'margin_dpo/margin_mean': 7.196202278137207, 'margin_dpo/margin_std': 9.4541015625, 'logps/chosen': -92.56117248535156, 'logps/rejected': -96.44986724853516, 'logps/ref_chosen': -89.25540161132812, 'logps/ref_rejected': -85.94788360595703, 'logits/chosen': -0.888142466545105, 'logits/rejected': -0.4934452772140503, 'epoch': 0.21}
 21%|███████████████████████▋                                                                                         | 143/681 [07:42<26:03,  2.91s/it] 21%|███████████████████████▉                                                                                         | 144/681 [07:45<26:52,  3.00s/it]                                                                                                                                                        {'loss': 0.9176, 'grad_norm': 31.30705451965332, 'learning_rate': 4.821786031898176e-07, 'margin_dpo/margin_mean': 11.427347183227539, 'margin_dpo/margin_std': 12.994205474853516, 'logps/chosen': -101.48098754882812, 'logps/rejected': -100.29680633544922, 'logps/ref_chosen': -100.95454406738281, 'logps/ref_rejected': -88.343017578125, 'logits/chosen': -0.9406213760375977, 'logits/rejected': -0.4508327841758728, 'epoch': 0.21}
 21%|███████████████████████▉                                                                                         | 144/681 [07:45<26:52,  3.00s/it] 21%|████████████████████████                                                                                         | 145/681 [07:48<26:04,  2.92s/it]                                                                                                                                                        {'loss': 0.8195, 'grad_norm': 23.50806999206543, 'learning_rate': 4.816996926967401e-07, 'margin_dpo/margin_mean': 12.420181274414062, 'margin_dpo/margin_std': 8.770981788635254, 'logps/chosen': -116.13957977294922, 'logps/rejected': -103.59181213378906, 'logps/ref_chosen': -115.84953308105469, 'logps/ref_rejected': -90.881591796875, 'logits/chosen': -0.6580193042755127, 'logits/rejected': 0.0010183602571487427, 'epoch': 0.21}
 21%|████████████████████████                                                                                         | 145/681 [07:48<26:04,  2.92s/it] 21%|████████████████████████▏                                                                                        | 146/681 [07:51<26:16,  2.95s/it]                                                                                                                                                        {'loss': 0.7418, 'grad_norm': 25.116533279418945, 'learning_rate': 4.812146767012779e-07, 'margin_dpo/margin_mean': 10.471261978149414, 'margin_dpo/margin_std': 8.270082473754883, 'logps/chosen': -81.39533233642578, 'logps/rejected': -88.35206604003906, 'logps/ref_chosen': -78.54154968261719, 'logps/ref_rejected': -75.02702331542969, 'logits/chosen': -0.485411673784256, 'logits/rejected': -0.17881183326244354, 'epoch': 0.21}
 21%|████████████████████████▏                                                                                        | 146/681 [07:51<26:16,  2.95s/it] 22%|████████████████████████▍                                                                                        | 147/681 [07:54<25:54,  2.91s/it]                                                                                                                                                        {'loss': 0.7268, 'grad_norm': 21.721435546875, 'learning_rate': 4.807235679840536e-07, 'margin_dpo/margin_mean': 14.47046184539795, 'margin_dpo/margin_std': 9.606327056884766, 'logps/chosen': -82.86421203613281, 'logps/rejected': -79.1151123046875, 'logps/ref_chosen': -83.60895538330078, 'logps/ref_rejected': -65.389404296875, 'logits/chosen': -0.47551432251930237, 'logits/rejected': 0.09487782418727875, 'epoch': 0.22}
 22%|████████████████████████▍                                                                                        | 147/681 [07:54<25:54,  2.91s/it] 22%|████████████████████████▌                                                                                        | 148/681 [07:57<25:52,  2.91s/it]                                                                                                                                                        {'loss': 0.86, 'grad_norm': 24.2994327545166, 'learning_rate': 4.802263794862384e-07, 'margin_dpo/margin_mean': 12.285654067993164, 'margin_dpo/margin_std': 12.449949264526367, 'logps/chosen': -120.93125915527344, 'logps/rejected': -132.29440307617188, 'logps/ref_chosen': -122.75179290771484, 'logps/ref_rejected': -121.82928466796875, 'logits/chosen': -1.1637771129608154, 'logits/rejected': -0.457122266292572, 'epoch': 0.22}
 22%|████████████████████████▌                                                                                        | 148/681 [07:57<25:52,  2.91s/it] 22%|████████████████████████▋                                                                                        | 149/681 [08:00<26:08,  2.95s/it]                                                                                                                                                        {'loss': 0.8852, 'grad_norm': 25.9832820892334, 'learning_rate': 4.797231243092118e-07, 'margin_dpo/margin_mean': 9.286754608154297, 'margin_dpo/margin_std': 11.353466033935547, 'logps/chosen': -75.59249877929688, 'logps/rejected': -85.99839782714844, 'logps/ref_chosen': -71.0545425415039, 'logps/ref_rejected': -72.17367553710938, 'logits/chosen': -0.9811546802520752, 'logits/rejected': -0.9098988771438599, 'epoch': 0.22}
 22%|████████████████████████▋                                                                                        | 149/681 [08:00<26:08,  2.95s/it] 22%|████████████████████████▉                                                                                        | 150/681 [08:03<25:59,  2.94s/it]                                                                                                                                                        {'loss': 0.8209, 'grad_norm': 24.666427612304688, 'learning_rate': 4.792138157142157e-07, 'margin_dpo/margin_mean': 14.87967586517334, 'margin_dpo/margin_std': 16.285690307617188, 'logps/chosen': -99.05314636230469, 'logps/rejected': -143.3655548095703, 'logps/ref_chosen': -97.1973876953125, 'logps/ref_rejected': -126.63013458251953, 'logits/chosen': -1.180204153060913, 'logits/rejected': -0.681179404258728, 'epoch': 0.22}
 22%|████████████████████████▉                                                                                        | 150/681 [08:03<25:59,  2.94s/it] 22%|█████████████████████████                                                                                        | 151/681 [08:06<25:23,  2.87s/it]                                                                                                                                                        {'loss': 0.8771, 'grad_norm': 30.53975486755371, 'learning_rate': 4.786984671220053e-07, 'margin_dpo/margin_mean': 3.6211354732513428, 'margin_dpo/margin_std': 8.112462043762207, 'logps/chosen': -122.10612487792969, 'logps/rejected': -112.59619140625, 'logps/ref_chosen': -118.28496551513672, 'logps/ref_rejected': -105.15388488769531, 'logits/chosen': -2.2579073905944824, 'logits/rejected': -1.7060633897781372, 'epoch': 0.22}
 22%|█████████████████████████                                                                                        | 151/681 [08:06<25:23,  2.87s/it] 22%|█████████████████████████▏                                                                                       | 152/681 [08:09<25:48,  2.93s/it]                                                                                                                                                        {'loss': 0.7394, 'grad_norm': 22.90477180480957, 'learning_rate': 4.78177092112495e-07, 'margin_dpo/margin_mean': 13.324972152709961, 'margin_dpo/margin_std': 13.08827018737793, 'logps/chosen': -98.88221740722656, 'logps/rejected': -141.12022399902344, 'logps/ref_chosen': -99.09291076660156, 'logps/ref_rejected': -128.00595092773438, 'logits/chosen': -0.7480742335319519, 'logits/rejected': -0.3700064718723297, 'epoch': 0.22}
 22%|█████████████████████████▏                                                                                       | 152/681 [08:09<25:48,  2.93s/it] 22%|█████████████████████████▍                                                                                       | 153/681 [08:11<25:43,  2.92s/it]                                                                                                                                                        {'loss': 0.939, 'grad_norm': 25.02080535888672, 'learning_rate': 4.776497044244016e-07, 'margin_dpo/margin_mean': 6.3460798263549805, 'margin_dpo/margin_std': 9.05051040649414, 'logps/chosen': -97.09506225585938, 'logps/rejected': -99.30720520019531, 'logps/ref_chosen': -93.71240997314453, 'logps/ref_rejected': -89.57848358154297, 'logits/chosen': -1.737720251083374, 'logits/rejected': -1.291832447052002, 'epoch': 0.22}
 22%|█████████████████████████▍                                                                                       | 153/681 [08:12<25:43,  2.92s/it] 23%|█████████████████████████▌                                                                                       | 154/681 [08:14<25:49,  2.94s/it]                                                                                                                                                        {'loss': 0.6519, 'grad_norm': 21.28890037536621, 'learning_rate': 4.771163179548808e-07, 'margin_dpo/margin_mean': 15.258707046508789, 'margin_dpo/margin_std': 9.662094116210938, 'logps/chosen': -71.58004760742188, 'logps/rejected': -121.78628540039062, 'logps/ref_chosen': -70.46749877929688, 'logps/ref_rejected': -105.41502380371094, 'logits/chosen': -1.4931442737579346, 'logits/rejected': -1.3525810241699219, 'epoch': 0.23}
 23%|█████████████████████████▌                                                                                       | 154/681 [08:15<25:49,  2.94s/it] 23%|█████████████████████████▋                                                                                       | 155/681 [08:17<25:51,  2.95s/it]                                                                                                                                                        {'loss': 0.8807, 'grad_norm': 35.946075439453125, 'learning_rate': 4.7657694675916247e-07, 'margin_dpo/margin_mean': 1.4301615953445435, 'margin_dpo/margin_std': 11.984375953674316, 'logps/chosen': -120.5129165649414, 'logps/rejected': -86.8126220703125, 'logps/ref_chosen': -114.00595092773438, 'logps/ref_rejected': -78.87548828125, 'logits/chosen': -1.0313202142715454, 'logits/rejected': -0.722881019115448, 'epoch': 0.23}
 23%|█████████████████████████▋                                                                                       | 155/681 [08:17<25:51,  2.95s/it] 23%|█████████████████████████▉                                                                                       | 156/681 [08:20<25:57,  2.97s/it]                                                                                                                                                        {'loss': 0.8866, 'grad_norm': 31.770828247070312, 'learning_rate': 4.7603160505017893e-07, 'margin_dpo/margin_mean': 8.491141319274902, 'margin_dpo/margin_std': 11.84402847290039, 'logps/chosen': -107.15304565429688, 'logps/rejected': -102.72535705566406, 'logps/ref_chosen': -102.44667053222656, 'logps/ref_rejected': -89.52784729003906, 'logits/chosen': -1.7006816864013672, 'logits/rejected': -1.1611135005950928, 'epoch': 0.23}
 23%|█████████████████████████▉                                                                                       | 156/681 [08:20<25:57,  2.97s/it] 23%|██████████████████████████                                                                                       | 157/681 [08:23<25:02,  2.87s/it]                                                                                                                                                        {'loss': 0.7208, 'grad_norm': 23.618078231811523, 'learning_rate': 4.7548030719819154e-07, 'margin_dpo/margin_mean': 14.205196380615234, 'margin_dpo/margin_std': 9.605611801147461, 'logps/chosen': -82.84764099121094, 'logps/rejected': -159.43484497070312, 'logps/ref_chosen': -79.52685546875, 'logps/ref_rejected': -141.90887451171875, 'logits/chosen': -1.8400967121124268, 'logits/rejected': -1.6669890880584717, 'epoch': 0.23}
 23%|██████████████████████████                                                                                       | 157/681 [08:23<25:02,  2.87s/it] 23%|██████████████████████████▏                                                                                      | 158/681 [08:26<25:23,  2.91s/it]                                                                                                                                                        {'loss': 0.6906, 'grad_norm': 23.659147262573242, 'learning_rate': 4.7492306773041136e-07, 'margin_dpo/margin_mean': 10.869192123413086, 'margin_dpo/margin_std': 9.30504035949707, 'logps/chosen': -78.40304565429688, 'logps/rejected': -84.44666290283203, 'logps/ref_chosen': -77.00485229492188, 'logps/ref_rejected': -72.17926788330078, 'logits/chosen': -1.324110746383667, 'logits/rejected': -0.9022949934005737, 'epoch': 0.23}
 23%|██████████████████████████▏                                                                                      | 158/681 [08:26<25:23,  2.91s/it] 23%|██████████████████████████▍                                                                                      | 159/681 [08:29<25:39,  2.95s/it]                                                                                                                                                        {'loss': 0.7792, 'grad_norm': 23.302608489990234, 'learning_rate': 4.743599013306165e-07, 'margin_dpo/margin_mean': 9.12051010131836, 'margin_dpo/margin_std': 10.716907501220703, 'logps/chosen': -138.03421020507812, 'logps/rejected': -123.77915954589844, 'logps/ref_chosen': -132.81875610351562, 'logps/ref_rejected': -109.44320678710938, 'logits/chosen': -0.2675594389438629, 'logits/rejected': 0.02939712256193161, 'epoch': 0.23}
 23%|██████████████████████████▍                                                                                      | 159/681 [08:29<25:39,  2.95s/it] 23%|██████████████████████████▌                                                                                      | 160/681 [08:32<25:50,  2.98s/it]                                                                                                                                                        {'loss': 0.7741, 'grad_norm': 21.932205200195312, 'learning_rate': 4.737908228387656e-07, 'margin_dpo/margin_mean': 10.57265567779541, 'margin_dpo/margin_std': 7.167086601257324, 'logps/chosen': -81.76644897460938, 'logps/rejected': -109.38851165771484, 'logps/ref_chosen': -81.04146575927734, 'logps/ref_rejected': -98.09086608886719, 'logits/chosen': -1.7152812480926514, 'logits/rejected': -1.0649853944778442, 'epoch': 0.23}
 23%|██████████████████████████▌                                                                                      | 160/681 [08:32<25:50,  2.98s/it] 24%|██████████████████████████▋                                                                                      | 161/681 [08:35<24:54,  2.87s/it]                                                                                                                                                        {'loss': 0.837, 'grad_norm': 27.166719436645508, 'learning_rate': 4.7321584725060594e-07, 'margin_dpo/margin_mean': 12.745627403259277, 'margin_dpo/margin_std': 12.207100868225098, 'logps/chosen': -120.11067962646484, 'logps/rejected': -117.86997985839844, 'logps/ref_chosen': -116.38681030273438, 'logps/ref_rejected': -101.4004898071289, 'logits/chosen': -1.2614675760269165, 'logits/rejected': -0.5976088643074036, 'epoch': 0.24}
 24%|██████████████████████████▋                                                                                      | 161/681 [08:35<24:54,  2.87s/it] 24%|██████████████████████████▉                                                                                      | 162/681 [08:38<25:32,  2.95s/it]                                                                                                                                                        {'loss': 0.7991, 'grad_norm': 24.060861587524414, 'learning_rate': 4.7263498971727905e-07, 'margin_dpo/margin_mean': 11.737544059753418, 'margin_dpo/margin_std': 10.131451606750488, 'logps/chosen': -56.9135627746582, 'logps/rejected': -114.80542755126953, 'logps/ref_chosen': -56.23395538330078, 'logps/ref_rejected': -102.3882827758789, 'logits/chosen': -0.5426618456840515, 'logits/rejected': -0.5506966710090637, 'epoch': 0.24}
 24%|██████████████████████████▉                                                                                      | 162/681 [08:38<25:32,  2.95s/it] 24%|███████████████████████████                                                                                      | 163/681 [08:41<25:15,  2.93s/it]                                                                                                                                                        {'loss': 0.6908, 'grad_norm': 19.28577995300293, 'learning_rate': 4.720482655449212e-07, 'margin_dpo/margin_mean': 14.464705467224121, 'margin_dpo/margin_std': 12.065017700195312, 'logps/chosen': -68.87108612060547, 'logps/rejected': -96.35603332519531, 'logps/ref_chosen': -66.62980651855469, 'logps/ref_rejected': -79.65003967285156, 'logits/chosen': -1.3950588703155518, 'logits/rejected': -0.9398083686828613, 'epoch': 0.24}
 24%|███████████████████████████                                                                                      | 163/681 [08:41<25:15,  2.93s/it] 24%|███████████████████████████▏                                                                                     | 164/681 [08:44<24:59,  2.90s/it]                                                                                                                                                        {'loss': 0.8817, 'grad_norm': 24.83587074279785, 'learning_rate': 4.714556901942599e-07, 'margin_dpo/margin_mean': 7.672161102294922, 'margin_dpo/margin_std': 8.832603454589844, 'logps/chosen': -104.05577087402344, 'logps/rejected': -103.01776885986328, 'logps/ref_chosen': -100.38748168945312, 'logps/ref_rejected': -91.67731475830078, 'logits/chosen': -1.0690147876739502, 'logits/rejected': -0.7840194702148438, 'epoch': 0.24}
 24%|███████████████████████████▏                                                                                     | 164/681 [08:44<24:59,  2.90s/it] 24%|███████████████████████████▍                                                                                     | 165/681 [08:47<24:52,  2.89s/it]                                                                                                                                                        {'loss': 0.7184, 'grad_norm': 21.194198608398438, 'learning_rate': 4.708572792802069e-07, 'margin_dpo/margin_mean': 11.6470947265625, 'margin_dpo/margin_std': 7.4804840087890625, 'logps/chosen': -108.24383544921875, 'logps/rejected': -60.22450256347656, 'logps/ref_chosen': -107.4050064086914, 'logps/ref_rejected': -47.73858642578125, 'logits/chosen': -1.1250362396240234, 'logits/rejected': -0.4985249936580658, 'epoch': 0.24}
 24%|███████████████████████████▍                                                                                     | 165/681 [08:47<24:52,  2.89s/it] 24%|███████████████████████████▌                                                                                     | 166/681 [08:49<24:09,  2.81s/it]                                                                                                                                                        {'loss': 0.7701, 'grad_norm': 23.84546661376953, 'learning_rate': 4.702530485714461e-07, 'margin_dpo/margin_mean': 15.879393577575684, 'margin_dpo/margin_std': 12.976381301879883, 'logps/chosen': -75.3694839477539, 'logps/rejected': -129.89505004882812, 'logps/ref_chosen': -71.99931335449219, 'logps/ref_rejected': -110.64549255371094, 'logits/chosen': -2.16715669631958, 'logits/rejected': -2.0556259155273438, 'epoch': 0.24}
 24%|███████████████████████████▌                                                                                     | 166/681 [08:49<24:09,  2.81s/it] 25%|███████████████████████████▋                                                                                     | 167/681 [08:52<24:57,  2.91s/it]                                                                                                                                                        {'loss': 0.636, 'grad_norm': 22.239116668701172, 'learning_rate': 4.6964301399001877e-07, 'margin_dpo/margin_mean': 16.40095329284668, 'margin_dpo/margin_std': 10.954397201538086, 'logps/chosen': -105.99115753173828, 'logps/rejected': -150.244384765625, 'logps/ref_chosen': -101.20901489257812, 'logps/ref_rejected': -129.06129455566406, 'logits/chosen': 0.32823115587234497, 'logits/rejected': 0.6900070905685425, 'epoch': 0.25}
 25%|███████████████████████████▋                                                                                     | 167/681 [08:52<24:57,  2.91s/it] 25%|███████████████████████████▉                                                                                     | 168/681 [08:55<25:00,  2.93s/it]                                                                                                                                                        {'loss': 0.7792, 'grad_norm': 26.696422576904297, 'learning_rate': 4.690271916109034e-07, 'margin_dpo/margin_mean': 6.10498046875, 'margin_dpo/margin_std': 10.449946403503418, 'logps/chosen': -88.74671173095703, 'logps/rejected': -85.89750671386719, 'logps/ref_chosen': -82.77108764648438, 'logps/ref_rejected': -73.81690216064453, 'logits/chosen': -2.4106054306030273, 'logits/rejected': -1.815399408340454, 'epoch': 0.25}
 25%|███████████████████████████▉                                                                                     | 168/681 [08:55<25:00,  2.93s/it] 25%|████████████████████████████                                                                                     | 169/681 [08:59<25:53,  3.03s/it]                                                                                                                                                        {'loss': 0.7176, 'grad_norm': 22.59729766845703, 'learning_rate': 4.6840559766159235e-07, 'margin_dpo/margin_mean': 9.773816108703613, 'margin_dpo/margin_std': 11.327061653137207, 'logps/chosen': -68.48163604736328, 'logps/rejected': -102.66637420654297, 'logps/ref_chosen': -66.73175811767578, 'logps/ref_rejected': -91.14268493652344, 'logits/chosen': -1.7961640357971191, 'logits/rejected': -1.697147250175476, 'epoch': 0.25}
 25%|████████████████████████████                                                                                     | 169/681 [08:59<25:53,  3.03s/it] 25%|████████████████████████████▏                                                                                    | 170/681 [09:02<25:44,  3.02s/it]                                                                                                                                                        {'loss': 0.7313, 'grad_norm': 24.59431266784668, 'learning_rate': 4.6777824852166437e-07, 'margin_dpo/margin_mean': 7.2851338386535645, 'margin_dpo/margin_std': 7.817892074584961, 'logps/chosen': -76.36054992675781, 'logps/rejected': -96.03549194335938, 'logps/ref_chosen': -70.11228942871094, 'logps/ref_rejected': -82.50209045410156, 'logits/chosen': -1.0736992359161377, 'logits/rejected': -1.0651642084121704, 'epoch': 0.25}
 25%|████████████████████████████▏                                                                                    | 170/681 [09:02<25:44,  3.02s/it] 25%|████████████████████████████▎                                                                                    | 171/681 [09:04<24:43,  2.91s/it]                                                                                                                                                        {'loss': 0.7744, 'grad_norm': 30.791086196899414, 'learning_rate': 4.6714516072235273e-07, 'margin_dpo/margin_mean': 8.785017967224121, 'margin_dpo/margin_std': 11.808923721313477, 'logps/chosen': -129.69264221191406, 'logps/rejected': -96.64595031738281, 'logps/ref_chosen': -124.22677612304688, 'logps/ref_rejected': -82.39506530761719, 'logits/chosen': -2.3488950729370117, 'logits/rejected': -1.7639861106872559, 'epoch': 0.25}
 25%|████████████████████████████▎                                                                                    | 171/681 [09:04<24:43,  2.91s/it] 25%|████████████████████████████▌                                                                                    | 172/681 [09:07<24:13,  2.86s/it]                                                                                                                                                        {'loss': 0.6408, 'grad_norm': 19.004745483398438, 'learning_rate': 4.6650635094610966e-07, 'margin_dpo/margin_mean': 9.352657318115234, 'margin_dpo/margin_std': 8.445768356323242, 'logps/chosen': -91.90443420410156, 'logps/rejected': -100.33929443359375, 'logps/ref_chosen': -85.85418701171875, 'logps/ref_rejected': -84.93639373779297, 'logits/chosen': -0.8665769100189209, 'logits/rejected': -0.5177565813064575, 'epoch': 0.25}
 25%|████████████████████████████▌                                                                                    | 172/681 [09:07<24:13,  2.86s/it] 25%|████████████████████████████▋                                                                                    | 173/681 [09:10<24:01,  2.84s/it]                                                                                                                                                        {'loss': 0.8184, 'grad_norm': 22.988880157470703, 'learning_rate': 4.6586183602616687e-07, 'margin_dpo/margin_mean': 9.306428909301758, 'margin_dpo/margin_std': 10.248741149902344, 'logps/chosen': -93.0565185546875, 'logps/rejected': -88.41697692871094, 'logps/ref_chosen': -85.85157012939453, 'logps/ref_rejected': -71.90559387207031, 'logits/chosen': -1.054530382156372, 'logits/rejected': -0.6302087903022766, 'epoch': 0.25}
 25%|████████████████████████████▋                                                                                    | 173/681 [09:10<24:01,  2.84s/it] 26%|████████████████████████████▊                                                                                    | 174/681 [09:13<24:05,  2.85s/it]                                                                                                                                                        {'loss': 0.7049, 'grad_norm': 25.447433471679688, 'learning_rate': 4.652116329460919e-07, 'margin_dpo/margin_mean': 12.622618675231934, 'margin_dpo/margin_std': 9.480951309204102, 'logps/chosen': -81.47247314453125, 'logps/rejected': -75.88140869140625, 'logps/ref_chosen': -74.92919921875, 'logps/ref_rejected': -56.715511322021484, 'logits/chosen': -1.548011064529419, 'logits/rejected': -1.144951343536377, 'epoch': 0.26}
 26%|████████████████████████████▊                                                                                    | 174/681 [09:13<24:05,  2.85s/it] 26%|█████████████████████████████                                                                                    | 175/681 [09:16<24:49,  2.94s/it]                                                                                                                                                        {'loss': 0.67, 'grad_norm': 27.344615936279297, 'learning_rate': 4.645557588393406e-07, 'margin_dpo/margin_mean': 15.739368438720703, 'margin_dpo/margin_std': 11.752717018127441, 'logps/chosen': -121.8826904296875, 'logps/rejected': -142.9967041015625, 'logps/ref_chosen': -114.08724212646484, 'logps/ref_rejected': -119.46188354492188, 'logits/chosen': -1.1176164150238037, 'logits/rejected': -0.8251014351844788, 'epoch': 0.26}
 26%|█████████████████████████████                                                                                    | 175/681 [09:16<24:49,  2.94s/it] 26%|█████████████████████████████▏                                                                                   | 176/681 [09:18<23:54,  2.84s/it]                                                                                                                                                        {'loss': 0.7795, 'grad_norm': 22.77707862854004, 'learning_rate': 4.638942309888058e-07, 'margin_dpo/margin_mean': 14.545129776000977, 'margin_dpo/margin_std': 12.101448059082031, 'logps/chosen': -79.84271240234375, 'logps/rejected': -136.30145263671875, 'logps/ref_chosen': -75.32672882080078, 'logps/ref_rejected': -117.2403335571289, 'logits/chosen': -0.36084672808647156, 'logits/rejected': -0.19117483496665955, 'epoch': 0.26}
 26%|█████████████████████████████▏                                                                                   | 176/681 [09:18<23:54,  2.84s/it] 26%|█████████████████████████████▎                                                                                   | 177/681 [09:21<24:25,  2.91s/it]                                                                                                                                                        {'loss': 0.638, 'grad_norm': 20.781431198120117, 'learning_rate': 4.6322706682636137e-07, 'margin_dpo/margin_mean': 17.41925621032715, 'margin_dpo/margin_std': 16.072580337524414, 'logps/chosen': -86.03660583496094, 'logps/rejected': -141.73297119140625, 'logps/ref_chosen': -80.876953125, 'logps/ref_rejected': -119.15406799316406, 'logits/chosen': -1.7568106651306152, 'logits/rejected': -1.8467406034469604, 'epoch': 0.26}
 26%|█████████████████████████████▎                                                                                   | 177/681 [09:21<24:25,  2.91s/it] 26%|█████████████████████████████▌                                                                                   | 178/681 [09:24<24:07,  2.88s/it]                                                                                                                                                        {'loss': 0.5335, 'grad_norm': 23.510520935058594, 'learning_rate': 4.6255428393240354e-07, 'margin_dpo/margin_mean': 13.408007621765137, 'margin_dpo/margin_std': 8.432206153869629, 'logps/chosen': -67.99021911621094, 'logps/rejected': -107.30775451660156, 'logps/ref_chosen': -59.280879974365234, 'logps/ref_rejected': -85.19041442871094, 'logits/chosen': -0.6462529301643372, 'logits/rejected': -0.716810405254364, 'epoch': 0.26}
 26%|█████████████████████████████▌                                                                                   | 178/681 [09:24<24:07,  2.88s/it] 26%|█████████████████████████████▋                                                                                   | 179/681 [09:27<24:35,  2.94s/it]                                                                                                                                                        {'loss': 0.8597, 'grad_norm': 33.201324462890625, 'learning_rate': 4.6187590003538724e-07, 'margin_dpo/margin_mean': 11.95695686340332, 'margin_dpo/margin_std': 12.786809921264648, 'logps/chosen': -67.34712219238281, 'logps/rejected': -85.9849853515625, 'logps/ref_chosen': -59.78905487060547, 'logps/ref_rejected': -66.46996307373047, 'logits/chosen': -1.1230896711349487, 'logits/rejected': -0.8792758584022522, 'epoch': 0.26}
 26%|█████████████████████████████▋                                                                                   | 179/681 [09:27<24:35,  2.94s/it] 26%|█████████████████████████████▊                                                                                   | 180/681 [09:30<24:00,  2.87s/it]                                                                                                                                                        {'loss': 0.6352, 'grad_norm': 26.94002914428711, 'learning_rate': 4.611919330113591e-07, 'margin_dpo/margin_mean': 17.785518646240234, 'margin_dpo/margin_std': 19.370147705078125, 'logps/chosen': -120.11798095703125, 'logps/rejected': -130.20762634277344, 'logps/ref_chosen': -112.93758392333984, 'logps/ref_rejected': -105.24171447753906, 'logits/chosen': -1.9314937591552734, 'logits/rejected': -1.3737207651138306, 'epoch': 0.26}
 26%|█████████████████████████████▊                                                                                   | 180/681 [09:30<24:00,  2.87s/it] 27%|██████████████████████████████                                                                                   | 181/681 [09:33<24:10,  2.90s/it]                                                                                                                                                        {'loss': 0.7728, 'grad_norm': 28.8751277923584, 'learning_rate': 4.605024008834863e-07, 'margin_dpo/margin_mean': 9.327696800231934, 'margin_dpo/margin_std': 9.290848731994629, 'logps/chosen': -67.87879180908203, 'logps/rejected': -77.07058715820312, 'logps/ref_chosen': -62.6356201171875, 'logps/ref_rejected': -62.49972152709961, 'logits/chosen': -0.8084018230438232, 'logits/rejected': -0.6283854842185974, 'epoch': 0.27}
 27%|██████████████████████████████                                                                                   | 181/681 [09:33<24:10,  2.90s/it] 27%|██████████████████████████████▏                                                                                  | 182/681 [09:36<23:58,  2.88s/it]                                                                                                                                                        {'loss': 0.7281, 'grad_norm': 23.121599197387695, 'learning_rate': 4.598073218215817e-07, 'margin_dpo/margin_mean': 20.663890838623047, 'margin_dpo/margin_std': 18.779584884643555, 'logps/chosen': -78.23188018798828, 'logps/rejected': -168.03782653808594, 'logps/ref_chosen': -68.78814697265625, 'logps/ref_rejected': -137.93020629882812, 'logits/chosen': -0.31414175033569336, 'logits/rejected': -0.38997751474380493, 'epoch': 0.27}
 27%|██████████████████████████████▏                                                                                  | 182/681 [09:36<23:58,  2.88s/it] 27%|██████████████████████████████▎                                                                                  | 183/681 [09:39<23:44,  2.86s/it]                                                                                                                                                        {'loss': 0.6346, 'grad_norm': 25.60964584350586, 'learning_rate': 4.5910671414162484e-07, 'margin_dpo/margin_mean': 15.674171447753906, 'margin_dpo/margin_std': 16.124521255493164, 'logps/chosen': -115.06136322021484, 'logps/rejected': -124.12959289550781, 'logps/ref_chosen': -104.33895874023438, 'logps/ref_rejected': -97.7330093383789, 'logits/chosen': -1.1187982559204102, 'logits/rejected': -0.5141847133636475, 'epoch': 0.27}
 27%|██████████████████████████████▎                                                                                  | 183/681 [09:39<23:44,  2.86s/it] 27%|██████████████████████████████▌                                                                                  | 184/681 [09:42<23:47,  2.87s/it]                                                                                                                                                        {'loss': 0.9811, 'grad_norm': 32.20849609375, 'learning_rate': 4.5840059630527985e-07, 'margin_dpo/margin_mean': 13.65797233581543, 'margin_dpo/margin_std': 14.047473907470703, 'logps/chosen': -107.64266967773438, 'logps/rejected': -123.9334487915039, 'logps/ref_chosen': -97.3797607421875, 'logps/ref_rejected': -100.01255798339844, 'logits/chosen': -1.0942208766937256, 'logits/rejected': -0.936927855014801, 'epoch': 0.27}
 27%|██████████████████████████████▌                                                                                  | 184/681 [09:42<23:47,  2.87s/it] 27%|██████████████████████████████▋                                                                                  | 185/681 [09:44<23:46,  2.88s/it]                                                                                                                                                        {'loss': 0.8675, 'grad_norm': 35.5129508972168, 'learning_rate': 4.5768898691940836e-07, 'margin_dpo/margin_mean': 9.252706527709961, 'margin_dpo/margin_std': 9.427391052246094, 'logps/chosen': -97.39491271972656, 'logps/rejected': -108.24913024902344, 'logps/ref_chosen': -82.86443328857422, 'logps/ref_rejected': -84.46593475341797, 'logits/chosen': -1.4037067890167236, 'logits/rejected': -0.8602940440177917, 'epoch': 0.27}
 27%|██████████████████████████████▋                                                                                  | 185/681 [09:44<23:46,  2.88s/it] 27%|██████████████████████████████▊                                                                                  | 186/681 [09:47<23:35,  2.86s/it]                                                                                                                                                        {'loss': 0.7012, 'grad_norm': 32.151607513427734, 'learning_rate': 4.5697190473557947e-07, 'margin_dpo/margin_mean': 18.71424102783203, 'margin_dpo/margin_std': 14.531794548034668, 'logps/chosen': -150.05572509765625, 'logps/rejected': -135.98916625976562, 'logps/ref_chosen': -139.9113311767578, 'logps/ref_rejected': -107.13050842285156, 'logits/chosen': -1.355446696281433, 'logits/rejected': -0.5260564088821411, 'epoch': 0.27}
 27%|██████████████████████████████▊                                                                                  | 186/681 [09:47<23:35,  2.86s/it] 27%|███████████████████████████████                                                                                  | 187/681 [09:50<22:55,  2.79s/it]                                                                                                                                                        {'loss': 0.8602, 'grad_norm': 26.140470504760742, 'learning_rate': 4.5624936864957555e-07, 'margin_dpo/margin_mean': 13.375587463378906, 'margin_dpo/margin_std': 13.763025283813477, 'logps/chosen': -97.55638122558594, 'logps/rejected': -114.19329833984375, 'logps/ref_chosen': -91.39136505126953, 'logps/ref_rejected': -94.65269470214844, 'logits/chosen': -1.562740445137024, 'logits/rejected': -1.1477710008621216, 'epoch': 0.27}
 27%|███████████████████████████████                                                                                  | 187/681 [09:50<22:55,  2.79s/it] 28%|███████████████████████████████▏                                                                                 | 188/681 [09:53<23:08,  2.82s/it]                                                                                                                                                        {'loss': 0.7258, 'grad_norm': 26.123018264770508, 'learning_rate': 4.5552139770089454e-07, 'margin_dpo/margin_mean': 16.47885513305664, 'margin_dpo/margin_std': 8.776860237121582, 'logps/chosen': -91.50485229492188, 'logps/rejected': -125.56822204589844, 'logps/ref_chosen': -81.19329833984375, 'logps/ref_rejected': -98.7778091430664, 'logits/chosen': -1.5542670488357544, 'logits/rejected': -1.3543874025344849, 'epoch': 0.28}
 28%|███████████████████████████████▏                                                                                 | 188/681 [09:53<23:08,  2.82s/it] 28%|███████████████████████████████▎                                                                                 | 189/681 [09:55<22:50,  2.78s/it]                                                                                                                                                        {'loss': 0.7501, 'grad_norm': 22.942975997924805, 'learning_rate': 4.5478801107224794e-07, 'margin_dpo/margin_mean': 16.621992111206055, 'margin_dpo/margin_std': 16.106063842773438, 'logps/chosen': -94.46961975097656, 'logps/rejected': -101.44779968261719, 'logps/ref_chosen': -88.11688232421875, 'logps/ref_rejected': -78.47306060791016, 'logits/chosen': -1.4397048950195312, 'logits/rejected': -0.5799304246902466, 'epoch': 0.28}
 28%|███████████████████████████████▎                                                                                 | 189/681 [09:56<22:50,  2.78s/it] 28%|███████████████████████████████▌                                                                                 | 190/681 [09:58<22:12,  2.71s/it]                                                                                                                                                        {'loss': 0.585, 'grad_norm': 22.044652938842773, 'learning_rate': 4.5404922808905543e-07, 'margin_dpo/margin_mean': 14.553679466247559, 'margin_dpo/margin_std': 9.547571182250977, 'logps/chosen': -114.73606872558594, 'logps/rejected': -136.51731872558594, 'logps/ref_chosen': -104.41696166992188, 'logps/ref_rejected': -111.64453125, 'logits/chosen': -0.8703410625457764, 'logits/rejected': -0.3017834424972534, 'epoch': 0.28}
 28%|███████████████████████████████▌                                                                                 | 190/681 [09:58<22:12,  2.71s/it] 28%|███████████████████████████████▋                                                                                 | 191/681 [10:01<23:32,  2.88s/it]                                                                                                                                                        {'loss': 0.5893, 'grad_norm': 25.596473693847656, 'learning_rate': 4.5330506821893565e-07, 'margin_dpo/margin_mean': 23.01424789428711, 'margin_dpo/margin_std': 19.176429748535156, 'logps/chosen': -111.43516540527344, 'logps/rejected': -176.109130859375, 'logps/ref_chosen': -104.78724670410156, 'logps/ref_rejected': -146.44696044921875, 'logits/chosen': -1.403781533241272, 'logits/rejected': -1.2404292821884155, 'epoch': 0.28}
 28%|███████████████████████████████▋                                                                                 | 191/681 [10:01<23:32,  2.88s/it] 28%|███████████████████████████████▊                                                                                 | 192/681 [10:04<23:33,  2.89s/it]                                                                                                                                                        {'loss': 0.8404, 'grad_norm': 33.474796295166016, 'learning_rate': 4.5255555107119336e-07, 'margin_dpo/margin_mean': 9.001851081848145, 'margin_dpo/margin_std': 13.27437973022461, 'logps/chosen': -105.75337982177734, 'logps/rejected': -127.128173828125, 'logps/ref_chosen': -95.80691528320312, 'logps/ref_rejected': -108.17986297607422, 'logits/chosen': -0.6243493556976318, 'logits/rejected': -0.2121521681547165, 'epoch': 0.28}
 28%|███████████████████████████████▊                                                                                 | 192/681 [10:04<23:33,  2.89s/it] 28%|████████████████████████████████                                                                                 | 193/681 [10:07<23:06,  2.84s/it]                                                                                                                                                        {'loss': 0.967, 'grad_norm': 37.02301788330078, 'learning_rate': 4.5180069639630236e-07, 'margin_dpo/margin_mean': 11.244586944580078, 'margin_dpo/margin_std': 15.227866172790527, 'logps/chosen': -126.4687271118164, 'logps/rejected': -90.38545989990234, 'logps/ref_chosen': -116.82717895507812, 'logps/ref_rejected': -69.49932861328125, 'logits/chosen': -1.5451886653900146, 'logits/rejected': -0.5159762501716614, 'epoch': 0.28}
 28%|████████████████████████████████                                                                                 | 193/681 [10:07<23:06,  2.84s/it] 28%|████████████████████████████████▏                                                                                | 194/681 [10:10<22:27,  2.77s/it]                                                                                                                                                        {'loss': 0.8125, 'grad_norm': 25.955747604370117, 'learning_rate': 4.510405240853854e-07, 'margin_dpo/margin_mean': 11.910947799682617, 'margin_dpo/margin_std': 10.079092025756836, 'logps/chosen': -87.97075653076172, 'logps/rejected': -98.36553955078125, 'logps/ref_chosen': -80.39901733398438, 'logps/ref_rejected': -78.88285064697266, 'logits/chosen': -2.664726734161377, 'logits/rejected': -1.99815034866333, 'epoch': 0.28}
 28%|████████████████████████████████▏                                                                                | 194/681 [10:10<22:27,  2.77s/it] 29%|████████████████████████████████▎                                                                                | 195/681 [10:12<22:53,  2.83s/it]                                                                                                                                                        {'loss': 0.7439, 'grad_norm': 25.988468170166016, 'learning_rate': 4.5027505416968985e-07, 'margin_dpo/margin_mean': 18.538780212402344, 'margin_dpo/margin_std': 10.213254928588867, 'logps/chosen': -96.83953857421875, 'logps/rejected': -132.700927734375, 'logps/ref_chosen': -89.2958984375, 'logps/ref_rejected': -106.6185302734375, 'logits/chosen': -1.6600630283355713, 'logits/rejected': -1.396432638168335, 'epoch': 0.29}
 29%|████████████████████████████████▎                                                                                | 195/681 [10:13<22:53,  2.83s/it] 29%|████████████████████████████████▌                                                                                | 196/681 [10:15<23:01,  2.85s/it]                                                                                                                                                        {'loss': 0.6272, 'grad_norm': 20.28085708618164, 'learning_rate': 4.495043068200599e-07, 'margin_dpo/margin_mean': 19.608352661132812, 'margin_dpo/margin_std': 10.485124588012695, 'logps/chosen': -83.5776596069336, 'logps/rejected': -139.74281311035156, 'logps/ref_chosen': -72.89015197753906, 'logps/ref_rejected': -109.44696044921875, 'logits/chosen': -0.3120614290237427, 'logits/rejected': -0.17643268406391144, 'epoch': 0.29}
 29%|████████████████████████████████▌                                                                                | 196/681 [10:15<23:01,  2.85s/it] 29%|████████████████████████████████▋                                                                                | 197/681 [10:18<23:07,  2.87s/it]                                                                                                                                                        {'loss': 0.8937, 'grad_norm': 27.453264236450195, 'learning_rate': 4.4872830234640493e-07, 'margin_dpo/margin_mean': 13.332344055175781, 'margin_dpo/margin_std': 11.496066093444824, 'logps/chosen': -69.80078887939453, 'logps/rejected': -95.51461791992188, 'logps/ref_chosen': -61.45612716674805, 'logps/ref_rejected': -73.83760070800781, 'logits/chosen': -0.7792481780052185, 'logits/rejected': -0.7744120359420776, 'epoch': 0.29}
 29%|████████████████████████████████▋                                                                                | 197/681 [10:18<23:07,  2.87s/it] 29%|████████████████████████████████▊                                                                                | 198/681 [10:21<23:09,  2.88s/it]                                                                                                                                                        {'loss': 0.696, 'grad_norm': 29.672889709472656, 'learning_rate': 4.479470611971645e-07, 'margin_dpo/margin_mean': 13.031010627746582, 'margin_dpo/margin_std': 15.836978912353516, 'logps/chosen': -121.82696533203125, 'logps/rejected': -187.76712036132812, 'logps/ref_chosen': -107.06954956054688, 'logps/ref_rejected': -159.97869873046875, 'logits/chosen': -1.0126028060913086, 'logits/rejected': -1.1434699296951294, 'epoch': 0.29}
 29%|████████████████████████████████▊                                                                                | 198/681 [10:21<23:09,  2.88s/it] 29%|█████████████████████████████████                                                                                | 199/681 [10:24<23:35,  2.94s/it]                                                                                                                                                        {'loss': 0.7567, 'grad_norm': 27.473636627197266, 'learning_rate': 4.471606039587695e-07, 'margin_dpo/margin_mean': 11.902961730957031, 'margin_dpo/margin_std': 13.907926559448242, 'logps/chosen': -127.450439453125, 'logps/rejected': -101.59065246582031, 'logps/ref_chosen': -113.38455963134766, 'logps/ref_rejected': -75.62179565429688, 'logits/chosen': -1.398844838142395, 'logits/rejected': -0.5553488731384277, 'epoch': 0.29}
 29%|█████████████████████████████████                                                                                | 199/681 [10:24<23:35,  2.94s/it] 29%|█████████████████████████████████▏                                                                               | 200/681 [10:27<23:50,  2.97s/it]                                                                                                                                                        {'loss': 0.7622, 'grad_norm': 23.272537231445312, 'learning_rate': 4.4636895135509966e-07, 'margin_dpo/margin_mean': 14.885597229003906, 'margin_dpo/margin_std': 16.44847869873047, 'logps/chosen': -64.51741027832031, 'logps/rejected': -134.1025390625, 'logps/ref_chosen': -50.07917785644531, 'logps/ref_rejected': -104.77871704101562, 'logits/chosen': -0.4032726287841797, 'logits/rejected': -0.5059705972671509, 'epoch': 0.29}
 29%|█████████████████████████████████▏                                                                               | 200/681 [10:27<23:50,  2.97s/it][INFO|trainer.py:4307] 2026-04-24 00:05:34,892 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 00:05:34,892 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 00:05:34,892 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:18,  3.80it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:28,  2.44it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:34,  2.00it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:34,  1.95it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.83it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:36,  1.83it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:03<00:34,  1.91it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:38,  1.67it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.68it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:38,  1.62it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:36,  1.66it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:36,  1.66it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:36,  1.64it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:35,  1.64it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.59it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.58it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:31,  1.72it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:10<00:35,  1.54it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:35,  1.51it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:34,  1.52it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:12<00:33,  1.54it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:31,  1.60it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.54it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.57it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:27,  1.70it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.76it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.69it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.70it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:25,  1.72it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.75it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:24,  1.69it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.71it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:19<00:21,  1.78it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:22,  1.69it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:21,  1.70it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.61it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:21,  1.66it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:21,  1.60it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.69it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:17,  1.73it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:16,  1.78it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.62it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.57it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.68it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.65it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.62it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.64it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:13,  1.72it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.61it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:30<00:13,  1.55it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:13,  1.53it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.65it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.70it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.66it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:33<00:09,  1.61it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:07,  1.77it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:08,  1.62it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.70it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:36<00:06,  1.65it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.77it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:37<00:04,  1.84it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.71it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:03,  1.75it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.70it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.73it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:40<00:02,  1.67it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.59it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:42<00:00,  1.59it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.74it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.4643746018409729, 'eval_runtime': 43.9772, 'eval_samples_per_second': 53.187, 'eval_steps_per_second': 1.683, 'eval_margin_dpo/margin_mean': 10.556744575500488, 'eval_margin_dpo/margin_std': 12.665112495422363, 'eval_logps/chosen': -113.375244140625, 'eval_logps/rejected': -114.73187255859375, 'eval_logps/ref_chosen': -101.88616943359375, 'eval_logps/ref_rejected': -92.68607330322266, 'eval_logits/chosen': -1.120969533920288, 'eval_logits/rejected': -0.845413327217102, 'epoch': 0.29}
 29%|█████████████████████████████████▏                                                                               | 200/681 [11:11<23:50,  2.97s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.74it/s][A
                                                                                                                                                        [A[INFO|trainer.py:3984] 2026-04-24 00:06:32,927 >> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-200
[INFO|configuration_utils.py:419] 2026-04-24 00:06:32,932 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-200/config.json
[INFO|configuration_utils.py:911] 2026-04-24 00:06:32,936 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-200/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-24 00:07:12,323 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-200/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-24 00:07:12,326 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-200/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-24 00:07:12,330 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-200/special_tokens_map.json
 30%|████████████████████████████████▍                                                                             | 201/681 [15:18<11:53:20, 89.17s/it]                                                                                                                                                        {'loss': 0.8579, 'grad_norm': 31.166837692260742, 'learning_rate': 4.455721242469372e-07, 'margin_dpo/margin_mean': 8.6412353515625, 'margin_dpo/margin_std': 15.760478973388672, 'logps/chosen': -132.33038330078125, 'logps/rejected': -152.9993438720703, 'logps/ref_chosen': -125.86758422851562, 'logps/ref_rejected': -137.8953094482422, 'logits/chosen': -1.3415249586105347, 'logits/rejected': -0.7633596658706665, 'epoch': 0.3}
 30%|████████████████████████████████▍                                                                             | 201/681 [15:18<11:53:20, 89.17s/it] 30%|████████████████████████████████▉                                                                              | 202/681 [15:21<8:26:07, 63.40s/it]                                                                                                                                                        {'loss': 0.8075, 'grad_norm': 25.604938507080078, 'learning_rate': 4.4477014363141755e-07, 'margin_dpo/margin_mean': 15.89489459991455, 'margin_dpo/margin_std': 15.220779418945312, 'logps/chosen': -73.95713806152344, 'logps/rejected': -104.02867126464844, 'logps/ref_chosen': -62.47052001953125, 'logps/ref_rejected': -76.64714813232422, 'logits/chosen': -1.2493139505386353, 'logits/rejected': -1.0067428350448608, 'epoch': 0.3}
 30%|████████████████████████████████▉                                                                              | 202/681 [15:21<8:26:07, 63.40s/it] 30%|█████████████████████████████████                                                                              | 203/681 [15:24<6:01:44, 45.41s/it]                                                                                                                                                        {'loss': 0.6844, 'grad_norm': 22.339271545410156, 'learning_rate': 4.439630306414758e-07, 'margin_dpo/margin_mean': 12.887399673461914, 'margin_dpo/margin_std': 15.519386291503906, 'logps/chosen': -92.4307861328125, 'logps/rejected': -116.5356674194336, 'logps/ref_chosen': -85.48118591308594, 'logps/ref_rejected': -96.69866943359375, 'logits/chosen': -1.5672788619995117, 'logits/rejected': -1.3719830513000488, 'epoch': 0.3}
 30%|█████████████████████████████████                                                                              | 203/681 [15:24<6:01:44, 45.41s/it] 30%|█████████████████████████████████▎                                                                             | 204/681 [15:28<4:20:39, 32.79s/it]                                                                                                                                                        {'loss': 0.8576, 'grad_norm': 34.63078308105469, 'learning_rate': 4.431508065452897e-07, 'margin_dpo/margin_mean': 9.907830238342285, 'margin_dpo/margin_std': 11.625691413879395, 'logps/chosen': -99.44182586669922, 'logps/rejected': -111.54623413085938, 'logps/ref_chosen': -85.38599395751953, 'logps/ref_rejected': -87.58256530761719, 'logits/chosen': -1.294830083847046, 'logits/rejected': -0.8463597893714905, 'epoch': 0.3}
 30%|█████████████████████████████████▎                                                                             | 204/681 [15:28<4:20:39, 32.79s/it] 30%|█████████████████████████████████▍                                                                             | 205/681 [15:31<3:09:25, 23.88s/it]                                                                                                                                                        {'loss': 0.5644, 'grad_norm': 19.02329444885254, 'learning_rate': 4.4233349274571974e-07, 'margin_dpo/margin_mean': 16.39504623413086, 'margin_dpo/margin_std': 11.657992362976074, 'logps/chosen': -127.82294464111328, 'logps/rejected': -105.96640014648438, 'logps/ref_chosen': -121.29222869873047, 'logps/ref_rejected': -83.04063415527344, 'logits/chosen': -0.9210774898529053, 'logits/rejected': -0.40849876403808594, 'epoch': 0.3}
 30%|█████████████████████████████████▍                                                                             | 205/681 [15:31<3:09:25, 23.88s/it] 30%|█████████████████████████████████▌                                                                             | 206/681 [15:33<2:18:33, 17.50s/it]                                                                                                                                                        {'loss': 0.6035, 'grad_norm': 27.465503692626953, 'learning_rate': 4.415111107797445e-07, 'margin_dpo/margin_mean': 12.331515312194824, 'margin_dpo/margin_std': 9.227275848388672, 'logps/chosen': -92.56300354003906, 'logps/rejected': -131.0432891845703, 'logps/ref_chosen': -81.04837799072266, 'logps/ref_rejected': -107.19715118408203, 'logits/chosen': -1.0976223945617676, 'logits/rejected': -0.7354283332824707, 'epoch': 0.3}
 30%|█████████████████████████████████▌                                                                             | 206/681 [15:33<2:18:33, 17.50s/it] 30%|█████████████████████████████████▋                                                                             | 207/681 [15:36<1:43:50, 13.14s/it]                                                                                                                                                        {'loss': 0.7898, 'grad_norm': 39.439029693603516, 'learning_rate': 4.4068368231789365e-07, 'margin_dpo/margin_mean': 11.486899375915527, 'margin_dpo/margin_std': 15.101633071899414, 'logps/chosen': -117.16340637207031, 'logps/rejected': -104.43505859375, 'logps/ref_chosen': -102.81378173828125, 'logps/ref_rejected': -78.59852600097656, 'logits/chosen': -2.2387092113494873, 'logits/rejected': -1.860313892364502, 'epoch': 0.3}
 30%|█████████████████████████████████▋                                                                             | 207/681 [15:36<1:43:50, 13.14s/it] 31%|█████████████████████████████████▉                                                                             | 208/681 [15:39<1:19:27, 10.08s/it]                                                                                                                                                        {'loss': 0.6505, 'grad_norm': 23.772550582885742, 'learning_rate': 4.398512291636768e-07, 'margin_dpo/margin_mean': 14.929088592529297, 'margin_dpo/margin_std': 9.954263687133789, 'logps/chosen': -79.19771575927734, 'logps/rejected': -103.45726776123047, 'logps/ref_chosen': -70.0069580078125, 'logps/ref_rejected': -79.3374252319336, 'logits/chosen': -1.4251892566680908, 'logits/rejected': -0.9521887302398682, 'epoch': 0.31}
 31%|█████████████████████████████████▉                                                                             | 208/681 [15:39<1:19:27, 10.08s/it] 31%|██████████████████████████████████                                                                             | 209/681 [15:42<1:01:50,  7.86s/it]                                                                                                                                                        {'loss': 0.7762, 'grad_norm': 24.988706588745117, 'learning_rate': 4.3901377325300857e-07, 'margin_dpo/margin_mean': 21.42230224609375, 'margin_dpo/margin_std': 15.412055969238281, 'logps/chosen': -78.55195617675781, 'logps/rejected': -113.91144561767578, 'logps/ref_chosen': -74.00470733642578, 'logps/ref_rejected': -87.94189453125, 'logits/chosen': -1.2561299800872803, 'logits/rejected': -0.9694398641586304, 'epoch': 0.31}
 31%|██████████████████████████████████                                                                             | 209/681 [15:42<1:01:50,  7.86s/it] 31%|██████████████████████████████████▊                                                                              | 210/681 [15:45<49:44,  6.34s/it]                                                                                                                                                        {'loss': 0.733, 'grad_norm': 24.69098472595215, 'learning_rate': 4.381713366536311e-07, 'margin_dpo/margin_mean': 13.81161117553711, 'margin_dpo/margin_std': 13.800355911254883, 'logps/chosen': -85.33075714111328, 'logps/rejected': -86.75428771972656, 'logps/ref_chosen': -76.31346130371094, 'logps/ref_rejected': -63.925392150878906, 'logits/chosen': -1.796557068824768, 'logits/rejected': -1.1550593376159668, 'epoch': 0.31}
 31%|██████████████████████████████████▊                                                                              | 210/681 [15:45<49:44,  6.34s/it] 31%|███████████████████████████████████                                                                              | 211/681 [15:47<40:57,  5.23s/it]                                                                                                                                                        {'loss': 0.7325, 'grad_norm': 27.62305450439453, 'learning_rate': 4.373239415645323e-07, 'margin_dpo/margin_mean': 20.25276756286621, 'margin_dpo/margin_std': 15.092392921447754, 'logps/chosen': -150.07386779785156, 'logps/rejected': -136.897705078125, 'logps/ref_chosen': -140.85391235351562, 'logps/ref_rejected': -107.42497253417969, 'logits/chosen': -1.5198208093643188, 'logits/rejected': -0.88636314868927, 'epoch': 0.31}
 31%|███████████████████████████████████                                                                              | 211/681 [15:47<40:57,  5.23s/it] 31%|███████████████████████████████████▏                                                                             | 212/681 [15:50<35:25,  4.53s/it]                                                                                                                                                        {'loss': 0.5226, 'grad_norm': 19.40737533569336, 'learning_rate': 4.3647161031536086e-07, 'margin_dpo/margin_mean': 17.555767059326172, 'margin_dpo/margin_std': 19.352325439453125, 'logps/chosen': -132.343017578125, 'logps/rejected': -132.68862915039062, 'logps/ref_chosen': -125.50788116455078, 'logps/ref_rejected': -108.29771423339844, 'logits/chosen': -1.8869035243988037, 'logits/rejected': -1.2525444030761719, 'epoch': 0.31}
 31%|███████████████████████████████████▏                                                                             | 212/681 [15:50<35:25,  4.53s/it] 31%|███████████████████████████████████▎                                                                             | 213/681 [15:53<32:11,  4.13s/it]                                                                                                                                                        {'loss': 0.6238, 'grad_norm': 32.36695861816406, 'learning_rate': 4.3561436536583774e-07, 'margin_dpo/margin_mean': 17.656354904174805, 'margin_dpo/margin_std': 11.100046157836914, 'logps/chosen': -85.28340911865234, 'logps/rejected': -149.52574157714844, 'logps/ref_chosen': -75.74522399902344, 'logps/ref_rejected': -122.3311996459961, 'logits/chosen': -1.4449195861816406, 'logits/rejected': -1.2709022760391235, 'epoch': 0.31}
 31%|███████████████████████████████████▎                                                                             | 213/681 [15:54<32:11,  4.13s/it] 31%|███████████████████████████████████▌                                                                             | 214/681 [15:56<28:34,  3.67s/it]                                                                                                                                                        {'loss': 0.8735, 'grad_norm': 27.299671173095703, 'learning_rate': 4.3475222930516473e-07, 'margin_dpo/margin_mean': 8.634056091308594, 'margin_dpo/margin_std': 14.054182052612305, 'logps/chosen': -73.31192779541016, 'logps/rejected': -68.72589874267578, 'logps/ref_chosen': -64.04418182373047, 'logps/ref_rejected': -50.824100494384766, 'logits/chosen': -1.442638874053955, 'logits/rejected': -1.1300638914108276, 'epoch': 0.31}
 31%|███████████████████████████████████▌                                                                             | 214/681 [15:56<28:34,  3.67s/it] 32%|███████████████████████████████████▋                                                                             | 215/681 [15:59<27:20,  3.52s/it]                                                                                                                                                        {'loss': 0.5661, 'grad_norm': 21.764801025390625, 'learning_rate': 4.3388522485142885e-07, 'margin_dpo/margin_mean': 22.63648796081543, 'margin_dpo/margin_std': 13.089027404785156, 'logps/chosen': -80.82921600341797, 'logps/rejected': -125.51627349853516, 'logps/ref_chosen': -70.8616714477539, 'logps/ref_rejected': -92.91224670410156, 'logits/chosen': -1.2465263605117798, 'logits/rejected': -0.9289161562919617, 'epoch': 0.32}
 32%|███████████████████████████████████▋                                                                             | 215/681 [15:59<27:20,  3.52s/it] 32%|███████████████████████████████████▊                                                                             | 216/681 [16:02<26:14,  3.39s/it]                                                                                                                                                        {'loss': 0.6578, 'grad_norm': 21.630605697631836, 'learning_rate': 4.330133748510036e-07, 'margin_dpo/margin_mean': 14.123327255249023, 'margin_dpo/margin_std': 9.03171443939209, 'logps/chosen': -97.20977020263672, 'logps/rejected': -124.43745422363281, 'logps/ref_chosen': -85.44164276123047, 'logps/ref_rejected': -98.54600524902344, 'logits/chosen': -1.3383195400238037, 'logits/rejected': -1.1601924896240234, 'epoch': 0.32}
 32%|███████████████████████████████████▊                                                                             | 216/681 [16:02<26:14,  3.39s/it] 32%|████████████████████████████████████                                                                             | 217/681 [16:05<25:06,  3.25s/it]                                                                                                                                                        {'loss': 0.7858, 'grad_norm': 31.357202529907227, 'learning_rate': 4.3213670227794757e-07, 'margin_dpo/margin_mean': 18.660911560058594, 'margin_dpo/margin_std': 14.71579360961914, 'logps/chosen': -93.33474731445312, 'logps/rejected': -151.92092895507812, 'logps/ref_chosen': -83.99208068847656, 'logps/ref_rejected': -123.9173583984375, 'logits/chosen': -1.8061637878417969, 'logits/rejected': -1.6783373355865479, 'epoch': 0.32}
 32%|████████████████████████████████████                                                                             | 217/681 [16:05<25:06,  3.25s/it] 32%|████████████████████████████████████▏                                                                            | 218/681 [16:08<24:25,  3.17s/it]                                                                                                                                                        {'loss': 0.7321, 'grad_norm': 32.019493103027344, 'learning_rate': 4.3125523023339815e-07, 'margin_dpo/margin_mean': 17.53311538696289, 'margin_dpo/margin_std': 12.562833786010742, 'logps/chosen': -80.2852783203125, 'logps/rejected': -115.44291687011719, 'logps/ref_chosen': -67.8966293334961, 'logps/ref_rejected': -85.52115631103516, 'logits/chosen': -0.8639114499092102, 'logits/rejected': -0.6436069011688232, 'epoch': 0.32}
 32%|████████████████████████████████████▏                                                                            | 218/681 [16:08<24:25,  3.17s/it] 32%|████████████████████████████████████▎                                                                            | 219/681 [16:11<24:03,  3.13s/it]                                                                                                                                                        {'loss': 0.7715, 'grad_norm': 45.11946105957031, 'learning_rate': 4.303689819449636e-07, 'margin_dpo/margin_mean': 19.358152389526367, 'margin_dpo/margin_std': 19.34707260131836, 'logps/chosen': -111.53719329833984, 'logps/rejected': -167.79376220703125, 'logps/ref_chosen': -97.2021484375, 'logps/ref_rejected': -134.10055541992188, 'logits/chosen': -1.2486598491668701, 'logits/rejected': -0.9495463371276855, 'epoch': 0.32}
 32%|████████████████████████████████████▎                                                                            | 219/681 [16:11<24:03,  3.13s/it] 32%|████████████████████████████████████▌                                                                            | 220/681 [16:14<23:45,  3.09s/it]                                                                                                                                                        {'loss': 0.7639, 'grad_norm': 28.063581466674805, 'learning_rate': 4.2947798076611047e-07, 'margin_dpo/margin_mean': 13.408201217651367, 'margin_dpo/margin_std': 13.679563522338867, 'logps/chosen': -86.5882339477539, 'logps/rejected': -117.34354400634766, 'logps/ref_chosen': -74.71533966064453, 'logps/ref_rejected': -92.06246185302734, 'logits/chosen': -1.6841022968292236, 'logits/rejected': -1.6491317749023438, 'epoch': 0.32}
 32%|████████████████████████████████████▌                                                                            | 220/681 [16:14<23:45,  3.09s/it] 32%|████████████████████████████████████▋                                                                            | 221/681 [16:17<23:41,  3.09s/it]                                                                                                                                                        {'loss': 0.5435, 'grad_norm': 22.508024215698242, 'learning_rate': 4.285822501755485e-07, 'margin_dpo/margin_mean': 18.743091583251953, 'margin_dpo/margin_std': 17.367952346801758, 'logps/chosen': -69.58158111572266, 'logps/rejected': -140.26364135742188, 'logps/ref_chosen': -59.28809356689453, 'logps/ref_rejected': -111.22705841064453, 'logits/chosen': -0.7385995388031006, 'logits/rejected': -0.8880366683006287, 'epoch': 0.32}
 32%|████████████████████████████████████▋                                                                            | 221/681 [16:17<23:41,  3.09s/it] 33%|████████████████████████████████████▊                                                                            | 222/681 [16:20<23:37,  3.09s/it]                                                                                                                                                        {'loss': 0.7982, 'grad_norm': 48.555931091308594, 'learning_rate': 4.276818137766118e-07, 'margin_dpo/margin_mean': 17.54104995727539, 'margin_dpo/margin_std': 18.724212646484375, 'logps/chosen': -102.54623413085938, 'logps/rejected': -132.53857421875, 'logps/ref_chosen': -90.29017639160156, 'logps/ref_rejected': -102.741455078125, 'logits/chosen': -1.3711744546890259, 'logits/rejected': -0.945267915725708, 'epoch': 0.33}
 33%|████████████████████████████████████▊                                                                            | 222/681 [16:20<23:37,  3.09s/it] 33%|█████████████████████████████████████                                                                            | 223/681 [16:23<22:21,  2.93s/it]                                                                                                                                                        {'loss': 0.8083, 'grad_norm': 25.106897354125977, 'learning_rate': 4.2677669529663686e-07, 'margin_dpo/margin_mean': 7.954143524169922, 'margin_dpo/margin_std': 10.7671480178833, 'logps/chosen': -96.40541076660156, 'logps/rejected': -119.77986145019531, 'logps/ref_chosen': -80.65748596191406, 'logps/ref_rejected': -96.07778930664062, 'logits/chosen': -1.2980246543884277, 'logits/rejected': -1.0237699747085571, 'epoch': 0.33}
 33%|█████████████████████████████████████                                                                            | 223/681 [16:23<22:21,  2.93s/it] 33%|█████████████████████████████████████▏                                                                           | 224/681 [16:26<21:37,  2.84s/it]                                                                                                                                                        {'loss': 0.6666, 'grad_norm': 27.507966995239258, 'learning_rate': 4.2586691858633747e-07, 'margin_dpo/margin_mean': 14.736160278320312, 'margin_dpo/margin_std': 14.218803405761719, 'logps/chosen': -102.76864624023438, 'logps/rejected': -105.58963012695312, 'logps/ref_chosen': -91.31893920898438, 'logps/ref_rejected': -79.40377044677734, 'logits/chosen': -1.3987040519714355, 'logits/rejected': -0.79180908203125, 'epoch': 0.33}
 33%|█████████████████████████████████████▏                                                                           | 224/681 [16:26<21:37,  2.84s/it] 33%|█████████████████████████████████████▎                                                                           | 225/681 [16:28<21:29,  2.83s/it]                                                                                                                                                        {'loss': 0.6625, 'grad_norm': 25.836376190185547, 'learning_rate': 4.249525076191759e-07, 'margin_dpo/margin_mean': 20.47254180908203, 'margin_dpo/margin_std': 17.923603057861328, 'logps/chosen': -123.97574615478516, 'logps/rejected': -142.740966796875, 'logps/ref_chosen': -113.84062194824219, 'logps/ref_rejected': -112.13330078125, 'logits/chosen': -2.027069091796875, 'logits/rejected': -1.221968650817871, 'epoch': 0.33}
 33%|█████████████████████████████████████▎                                                                           | 225/681 [16:28<21:29,  2.83s/it] 33%|█████████████████████████████████████▌                                                                           | 226/681 [16:32<22:19,  2.94s/it]                                                                                                                                                        {'loss': 0.6747, 'grad_norm': 24.863615036010742, 'learning_rate': 4.2403348649073167e-07, 'margin_dpo/margin_mean': 15.122581481933594, 'margin_dpo/margin_std': 14.921210289001465, 'logps/chosen': -111.22610473632812, 'logps/rejected': -71.60173797607422, 'logps/ref_chosen': -99.33114624023438, 'logps/ref_rejected': -44.584197998046875, 'logits/chosen': -1.66581130027771, 'logits/rejected': -0.9718565344810486, 'epoch': 0.33}
 33%|█████████████████████████████████████▌                                                                           | 226/681 [16:32<22:19,  2.94s/it] 33%|█████████████████████████████████████▋                                                                           | 227/681 [16:34<21:52,  2.89s/it]                                                                                                                                                        {'loss': 0.7772, 'grad_norm': 31.727184295654297, 'learning_rate': 4.2310987941806615e-07, 'margin_dpo/margin_mean': 14.969067573547363, 'margin_dpo/margin_std': 11.369447708129883, 'logps/chosen': -92.5580062866211, 'logps/rejected': -127.857177734375, 'logps/ref_chosen': -78.06465148925781, 'logps/ref_rejected': -98.39476013183594, 'logits/chosen': -0.6366788148880005, 'logits/rejected': -0.558417558670044, 'epoch': 0.33}
 33%|█████████████████████████████████████▋                                                                           | 227/681 [16:34<21:52,  2.89s/it] 33%|█████████████████████████████████████▊                                                                           | 228/681 [16:38<22:27,  2.98s/it]                                                                                                                                                        {'loss': 0.7634, 'grad_norm': 24.629833221435547, 'learning_rate': 4.2218171073908463e-07, 'margin_dpo/margin_mean': 12.804656982421875, 'margin_dpo/margin_std': 13.355108261108398, 'logps/chosen': -133.501220703125, 'logps/rejected': -177.65139770507812, 'logps/ref_chosen': -118.2425537109375, 'logps/ref_rejected': -149.5880889892578, 'logits/chosen': -1.5679694414138794, 'logits/rejected': -1.2253010272979736, 'epoch': 0.33}
 33%|█████████████████████████████████████▊                                                                           | 228/681 [16:38<22:27,  2.98s/it] 34%|█████████████████████████████████████▉                                                                           | 229/681 [16:41<22:31,  2.99s/it]                                                                                                                                                        {'loss': 0.5845, 'grad_norm': 22.838153839111328, 'learning_rate': 4.212490049118951e-07, 'margin_dpo/margin_mean': 26.82710075378418, 'margin_dpo/margin_std': 14.36768913269043, 'logps/chosen': -93.84185791015625, 'logps/rejected': -119.24227142333984, 'logps/ref_chosen': -86.05354309082031, 'logps/ref_rejected': -84.62686157226562, 'logits/chosen': -1.934976577758789, 'logits/rejected': -1.0155363082885742, 'epoch': 0.34}
 34%|█████████████████████████████████████▉                                                                           | 229/681 [16:41<22:31,  2.99s/it] 34%|██████████████████████████████████████▏                                                                          | 230/681 [16:44<22:28,  2.99s/it]                                                                                                                                                        {'loss': 0.5216, 'grad_norm': 22.581356048583984, 'learning_rate': 4.203117865141635e-07, 'margin_dpo/margin_mean': 18.46939468383789, 'margin_dpo/margin_std': 15.664244651794434, 'logps/chosen': -82.906005859375, 'logps/rejected': -126.56108856201172, 'logps/ref_chosen': -72.93336486816406, 'logps/ref_rejected': -98.11904907226562, 'logits/chosen': -2.0330729484558105, 'logits/rejected': -1.621316909790039, 'epoch': 0.34}
 34%|██████████████████████████████████████▏                                                                          | 230/681 [16:44<22:28,  2.99s/it] 34%|██████████████████████████████████████▎                                                                          | 231/681 [16:47<22:32,  3.01s/it]                                                                                                                                                        {'loss': 0.6761, 'grad_norm': 22.018823623657227, 'learning_rate': 4.1937008024246625e-07, 'margin_dpo/margin_mean': 20.100221633911133, 'margin_dpo/margin_std': 17.13475799560547, 'logps/chosen': -111.63320922851562, 'logps/rejected': -123.36331176757812, 'logps/ref_chosen': -100.19026947021484, 'logps/ref_rejected': -91.82012939453125, 'logits/chosen': -2.015583038330078, 'logits/rejected': -1.279665470123291, 'epoch': 0.34}
 34%|██████████████████████████████████████▎                                                                          | 231/681 [16:47<22:32,  3.01s/it] 34%|██████████████████████████████████████▍                                                                          | 232/681 [16:50<22:40,  3.03s/it]                                                                                                                                                        {'loss': 0.7972, 'grad_norm': 28.21176528930664, 'learning_rate': 4.1842391091163933e-07, 'margin_dpo/margin_mean': 11.920722007751465, 'margin_dpo/margin_std': 17.419721603393555, 'logps/chosen': -122.58344268798828, 'logps/rejected': -104.9071044921875, 'logps/ref_chosen': -110.88046264648438, 'logps/ref_rejected': -81.28340148925781, 'logits/chosen': -0.8941325545310974, 'logits/rejected': -0.42558372020721436, 'epoch': 0.34}
 34%|██████████████████████████████████████▍                                                                          | 232/681 [16:50<22:40,  3.03s/it] 34%|██████████████████████████████████████▋                                                                          | 233/681 [16:53<23:12,  3.11s/it]                                                                                                                                                        {'loss': 0.6343, 'grad_norm': 25.46039390563965, 'learning_rate': 4.174733034541245e-07, 'margin_dpo/margin_mean': 15.176610946655273, 'margin_dpo/margin_std': 17.110292434692383, 'logps/chosen': -106.99727630615234, 'logps/rejected': -140.77781677246094, 'logps/ref_chosen': -89.96463775634766, 'logps/ref_rejected': -108.56855773925781, 'logits/chosen': -0.8610257506370544, 'logits/rejected': -0.8550558090209961, 'epoch': 0.34}
 34%|██████████████████████████████████████▋                                                                          | 233/681 [16:53<23:12,  3.11s/it] 34%|██████████████████████████████████████▊                                                                          | 234/681 [16:56<23:17,  3.13s/it]                                                                                                                                                        {'loss': 0.6698, 'grad_norm': 25.88790512084961, 'learning_rate': 4.165182829193126e-07, 'margin_dpo/margin_mean': 18.164871215820312, 'margin_dpo/margin_std': 13.520463943481445, 'logps/chosen': -85.27423858642578, 'logps/rejected': -149.45150756835938, 'logps/ref_chosen': -73.45465850830078, 'logps/ref_rejected': -119.467041015625, 'logits/chosen': -1.1169289350509644, 'logits/rejected': -0.8724891543388367, 'epoch': 0.34}
 34%|██████████████████████████████████████▊                                                                          | 234/681 [16:56<23:17,  3.13s/it] 35%|██████████████████████████████████████▉                                                                          | 235/681 [16:59<22:41,  3.05s/it]                                                                                                                                                        {'loss': 0.6736, 'grad_norm': 23.897993087768555, 'learning_rate': 4.1555887447288255e-07, 'margin_dpo/margin_mean': 13.944540977478027, 'margin_dpo/margin_std': 15.060174942016602, 'logps/chosen': -116.7324447631836, 'logps/rejected': -128.42771911621094, 'logps/ref_chosen': -102.08454132080078, 'logps/ref_rejected': -99.83527374267578, 'logits/chosen': -0.2996028959751129, 'logits/rejected': 0.14718373119831085, 'epoch': 0.35}
 35%|██████████████████████████████████████▉                                                                          | 235/681 [16:59<22:41,  3.05s/it] 35%|███████████████████████████████████████▏                                                                         | 236/681 [17:02<23:15,  3.14s/it]                                                                                                                                                        {'loss': 0.6689, 'grad_norm': 22.317142486572266, 'learning_rate': 4.1459510339613946e-07, 'margin_dpo/margin_mean': 18.615659713745117, 'margin_dpo/margin_std': 21.68730926513672, 'logps/chosen': -93.7081298828125, 'logps/rejected': -181.28709411621094, 'logps/ref_chosen': -80.65806579589844, 'logps/ref_rejected': -149.62136840820312, 'logits/chosen': -1.0241249799728394, 'logits/rejected': -1.0809072256088257, 'epoch': 0.35}
 35%|███████████████████████████████████████▏                                                                         | 236/681 [17:02<23:15,  3.14s/it] 35%|███████████████████████████████████████▎                                                                         | 237/681 [17:05<23:02,  3.11s/it]                                                                                                                                                        {'loss': 0.8527, 'grad_norm': 28.688703536987305, 'learning_rate': 4.136269950853473e-07, 'margin_dpo/margin_mean': 18.312477111816406, 'margin_dpo/margin_std': 15.394723892211914, 'logps/chosen': -90.6567611694336, 'logps/rejected': -106.99150848388672, 'logps/ref_chosen': -80.41928100585938, 'logps/ref_rejected': -78.44154357910156, 'logits/chosen': -0.570310115814209, 'logits/rejected': -0.23448389768600464, 'epoch': 0.35}
 35%|███████████████████████████████████████▎                                                                         | 237/681 [17:05<23:02,  3.11s/it] 35%|███████████████████████████████████████▍                                                                         | 238/681 [17:09<23:24,  3.17s/it]                                                                                                                                                        {'loss': 0.7124, 'grad_norm': 23.128028869628906, 'learning_rate': 4.126545750510605e-07, 'margin_dpo/margin_mean': 15.296379089355469, 'margin_dpo/margin_std': 14.916626930236816, 'logps/chosen': -77.17804718017578, 'logps/rejected': -129.80294799804688, 'logps/ref_chosen': -60.57853698730469, 'logps/ref_rejected': -97.90704345703125, 'logits/chosen': -1.2925560474395752, 'logits/rejected': -1.2870701551437378, 'epoch': 0.35}
 35%|███████████████████████████████████████▍                                                                         | 238/681 [17:09<23:24,  3.17s/it] 35%|███████████████████████████████████████▋                                                                         | 239/681 [17:11<22:24,  3.04s/it]                                                                                                                                                        {'loss': 0.7431, 'grad_norm': 27.944942474365234, 'learning_rate': 4.116778689174514e-07, 'margin_dpo/margin_mean': 18.140701293945312, 'margin_dpo/margin_std': 14.662839889526367, 'logps/chosen': -107.7053451538086, 'logps/rejected': -142.38980102539062, 'logps/ref_chosen': -97.148681640625, 'logps/ref_rejected': -113.69243621826172, 'logits/chosen': -1.2913211584091187, 'logits/rejected': -0.8684008121490479, 'epoch': 0.35}
 35%|███████████████████████████████████████▋                                                                         | 239/681 [17:12<22:24,  3.04s/it] 35%|███████████████████████████████████████▊                                                                         | 240/681 [17:15<22:22,  3.04s/it]                                                                                                                                                        {'loss': 0.7521, 'grad_norm': 33.86201858520508, 'learning_rate': 4.106969024216348e-07, 'margin_dpo/margin_mean': 11.845929145812988, 'margin_dpo/margin_std': 12.4403076171875, 'logps/chosen': -87.25590515136719, 'logps/rejected': -111.20504760742188, 'logps/ref_chosen': -69.32797241210938, 'logps/ref_rejected': -81.43118286132812, 'logits/chosen': -1.348999261856079, 'logits/rejected': -1.2273541688919067, 'epoch': 0.35}
 35%|███████████████████████████████████████▊                                                                         | 240/681 [17:15<22:22,  3.04s/it] 35%|███████████████████████████████████████▉                                                                         | 241/681 [17:17<21:55,  2.99s/it]                                                                                                                                                        {'loss': 0.4697, 'grad_norm': 22.594024658203125, 'learning_rate': 4.097117014129903e-07, 'margin_dpo/margin_mean': 24.22762107849121, 'margin_dpo/margin_std': 16.218782424926758, 'logps/chosen': -92.8592529296875, 'logps/rejected': -107.22079467773438, 'logps/ref_chosen': -82.93885803222656, 'logps/ref_rejected': -73.07276916503906, 'logits/chosen': -1.7714438438415527, 'logits/rejected': -0.992931604385376, 'epoch': 0.35}
 35%|███████████████████████████████████████▉                                                                         | 241/681 [17:17<21:55,  2.99s/it] 36%|████████████████████████████████████████▏                                                                        | 242/681 [17:20<21:26,  2.93s/it]                                                                                                                                                        {'loss': 0.6153, 'grad_norm': 26.068859100341797, 'learning_rate': 4.087222918524807e-07, 'margin_dpo/margin_mean': 16.589599609375, 'margin_dpo/margin_std': 15.04800796508789, 'logps/chosen': -113.93301391601562, 'logps/rejected': -116.67051696777344, 'logps/ref_chosen': -98.63720703125, 'logps/ref_rejected': -84.78510284423828, 'logits/chosen': -1.198895812034607, 'logits/rejected': -0.9665822982788086, 'epoch': 0.36}
 36%|████████████████████████████████████████▏                                                                        | 242/681 [17:20<21:26,  2.93s/it] 36%|████████████████████████████████████████▎                                                                        | 243/681 [17:23<21:16,  2.91s/it]                                                                                                                                                        {'loss': 0.7338, 'grad_norm': 27.26268768310547, 'learning_rate': 4.07728699811968e-07, 'margin_dpo/margin_mean': 17.503009796142578, 'margin_dpo/margin_std': 15.984872817993164, 'logps/chosen': -118.21045684814453, 'logps/rejected': -112.95948791503906, 'logps/ref_chosen': -104.37299346923828, 'logps/ref_rejected': -81.6190185546875, 'logits/chosen': -1.2558754682540894, 'logits/rejected': -0.5668581128120422, 'epoch': 0.36}
 36%|████████████████████████████████████████▎                                                                        | 243/681 [17:23<21:16,  2.91s/it] 36%|████████████████████████████████████████▍                                                                        | 244/681 [17:26<21:31,  2.96s/it]                                                                                                                                                        {'loss': 0.6778, 'grad_norm': 22.77792739868164, 'learning_rate': 4.067309514735267e-07, 'margin_dpo/margin_mean': 18.553510665893555, 'margin_dpo/margin_std': 11.52467155456543, 'logps/chosen': -103.87003326416016, 'logps/rejected': -156.72738647460938, 'logps/ref_chosen': -93.71182250976562, 'logps/ref_rejected': -128.01568603515625, 'logits/chosen': -2.0644044876098633, 'logits/rejected': -1.902282953262329, 'epoch': 0.36}
 36%|████████████████████████████████████████▍                                                                        | 244/681 [17:26<21:31,  2.96s/it] 36%|████████████████████████████████████████▋                                                                        | 245/681 [17:29<21:39,  2.98s/it]                                                                                                                                                        {'loss': 0.5495, 'grad_norm': 22.12187385559082, 'learning_rate': 4.057290731287531e-07, 'margin_dpo/margin_mean': 22.41289710998535, 'margin_dpo/margin_std': 14.135283470153809, 'logps/chosen': -109.80570983886719, 'logps/rejected': -134.34341430664062, 'logps/ref_chosen': -101.46330261230469, 'logps/ref_rejected': -103.5881118774414, 'logits/chosen': -1.0430703163146973, 'logits/rejected': -0.8094485998153687, 'epoch': 0.36}
 36%|████████████████████████████████████████▋                                                                        | 245/681 [17:29<21:39,  2.98s/it] 36%|████████████████████████████████████████▊                                                                        | 246/681 [17:32<21:54,  3.02s/it]                                                                                                                                                        {'loss': 0.7436, 'grad_norm': 32.46879959106445, 'learning_rate': 4.047230911780736e-07, 'margin_dpo/margin_mean': 22.255264282226562, 'margin_dpo/margin_std': 13.090051651000977, 'logps/chosen': -95.5453872680664, 'logps/rejected': -149.63845825195312, 'logps/ref_chosen': -79.95723724365234, 'logps/ref_rejected': -111.7950439453125, 'logits/chosen': -1.5383753776550293, 'logits/rejected': -1.2452689409255981, 'epoch': 0.36}
 36%|████████████████████████████████████████▊                                                                        | 246/681 [17:32<21:54,  3.02s/it] 36%|████████████████████████████████████████▉                                                                        | 247/681 [17:35<21:25,  2.96s/it]                                                                                                                                                        {'loss': 0.5841, 'grad_norm': 20.374637603759766, 'learning_rate': 4.0371303213004814e-07, 'margin_dpo/margin_mean': 20.837257385253906, 'margin_dpo/margin_std': 12.746124267578125, 'logps/chosen': -100.3311996459961, 'logps/rejected': -140.61538696289062, 'logps/ref_chosen': -87.5809326171875, 'logps/ref_rejected': -107.0278549194336, 'logits/chosen': -2.6092662811279297, 'logits/rejected': -2.0955309867858887, 'epoch': 0.36}
 36%|████████████████████████████████████████▉                                                                        | 247/681 [17:35<21:25,  2.96s/it] 36%|█████████████████████████████████████████▏                                                                       | 248/681 [17:38<21:15,  2.94s/it]                                                                                                                                                        {'loss': 0.7611, 'grad_norm': 31.063600540161133, 'learning_rate': 4.0269892260067197e-07, 'margin_dpo/margin_mean': 11.065750122070312, 'margin_dpo/margin_std': 18.710220336914062, 'logps/chosen': -100.98844909667969, 'logps/rejected': -142.08447265625, 'logps/ref_chosen': -83.37393188476562, 'logps/ref_rejected': -113.40422821044922, 'logits/chosen': -1.4017457962036133, 'logits/rejected': -1.265455961227417, 'epoch': 0.36}
 36%|█████████████████████████████████████████▏                                                                       | 248/681 [17:38<21:15,  2.94s/it] 37%|█████████████████████████████████████████▎                                                                       | 249/681 [17:41<20:42,  2.88s/it]                                                                                                                                                        {'loss': 0.8498, 'grad_norm': 34.479984283447266, 'learning_rate': 4.0168078931267426e-07, 'margin_dpo/margin_mean': 7.238720893859863, 'margin_dpo/margin_std': 15.718103408813477, 'logps/chosen': -110.28913116455078, 'logps/rejected': -107.76251983642578, 'logps/ref_chosen': -90.19677734375, 'logps/ref_rejected': -80.43144226074219, 'logits/chosen': -1.5276246070861816, 'logits/rejected': -1.1095179319381714, 'epoch': 0.37}
 37%|█████████████████████████████████████████▎                                                                       | 249/681 [17:41<20:42,  2.88s/it] 37%|█████████████████████████████████████████▍                                                                       | 250/681 [17:43<20:25,  2.84s/it]                                                                                                                                                        {'loss': 0.7792, 'grad_norm': 41.039459228515625, 'learning_rate': 4.006586590948141e-07, 'margin_dpo/margin_mean': 13.451122283935547, 'margin_dpo/margin_std': 14.689545631408691, 'logps/chosen': -154.2344207763672, 'logps/rejected': -106.68568420410156, 'logps/ref_chosen': -138.57211303710938, 'logps/ref_rejected': -77.57225799560547, 'logits/chosen': -1.7807164192199707, 'logits/rejected': -0.9707603454589844, 'epoch': 0.37}
 37%|█████████████████████████████████████████▍                                                                       | 250/681 [17:44<20:25,  2.84s/it] 37%|█████████████████████████████████████████▋                                                                       | 251/681 [17:46<20:32,  2.87s/it]                                                                                                                                                        {'loss': 0.8432, 'grad_norm': 27.502151489257812, 'learning_rate': 3.9963255888117325e-07, 'margin_dpo/margin_mean': 16.946407318115234, 'margin_dpo/margin_std': 17.334667205810547, 'logps/chosen': -115.2924575805664, 'logps/rejected': -100.4027099609375, 'logps/ref_chosen': -104.47010803222656, 'logps/ref_rejected': -72.63395690917969, 'logits/chosen': -1.5643404722213745, 'logits/rejected': -0.5259659290313721, 'epoch': 0.37}
 37%|█████████████████████████████████████████▋                                                                       | 251/681 [17:46<20:32,  2.87s/it] 37%|█████████████████████████████████████████▊                                                                       | 252/681 [17:49<20:33,  2.87s/it]                                                                                                                                                        {'loss': 0.7427, 'grad_norm': 26.42395782470703, 'learning_rate': 3.9860251571044666e-07, 'margin_dpo/margin_mean': 17.966344833374023, 'margin_dpo/margin_std': 16.002155303955078, 'logps/chosen': -110.46723937988281, 'logps/rejected': -118.4449234008789, 'logps/ref_chosen': -97.77006530761719, 'logps/ref_rejected': -87.78140258789062, 'logits/chosen': -1.0975241661071777, 'logits/rejected': -0.6452772617340088, 'epoch': 0.37}
 37%|█████████████████████████████████████████▊                                                                       | 252/681 [17:49<20:33,  2.87s/it] 37%|█████████████████████████████████████████▉                                                                       | 253/681 [17:52<20:46,  2.91s/it]                                                                                                                                                        {'loss': 0.7583, 'grad_norm': 28.601953506469727, 'learning_rate': 3.9756855672522986e-07, 'margin_dpo/margin_mean': 16.69076919555664, 'margin_dpo/margin_std': 8.515735626220703, 'logps/chosen': -106.92183685302734, 'logps/rejected': -125.74440002441406, 'logps/ref_chosen': -89.15538024902344, 'logps/ref_rejected': -91.28717041015625, 'logits/chosen': -0.999688982963562, 'logits/rejected': -0.5330642461776733, 'epoch': 0.37}
 37%|█████████████████████████████████████████▉                                                                       | 253/681 [17:52<20:46,  2.91s/it] 37%|██████████████████████████████████████████▏                                                                      | 254/681 [17:56<21:19,  3.00s/it]                                                                                                                                                        {'loss': 0.7741, 'grad_norm': 24.010168075561523, 'learning_rate': 3.965307091713037e-07, 'margin_dpo/margin_mean': 9.378756523132324, 'margin_dpo/margin_std': 13.781966209411621, 'logps/chosen': -120.03327941894531, 'logps/rejected': -143.052978515625, 'logps/ref_chosen': -104.02809143066406, 'logps/ref_rejected': -117.66902160644531, 'logits/chosen': -0.826606035232544, 'logits/rejected': -0.84417724609375, 'epoch': 0.37}
 37%|██████████████████████████████████████████▏                                                                      | 254/681 [17:56<21:19,  3.00s/it] 37%|██████████████████████████████████████████▎                                                                      | 255/681 [17:58<20:51,  2.94s/it]                                                                                                                                                        {'loss': 0.66, 'grad_norm': 27.174829483032227, 'learning_rate': 3.954890003969163e-07, 'margin_dpo/margin_mean': 12.647738456726074, 'margin_dpo/margin_std': 11.482951164245605, 'logps/chosen': -160.41029357910156, 'logps/rejected': -173.4158935546875, 'logps/ref_chosen': -140.6939697265625, 'logps/ref_rejected': -141.0518341064453, 'logits/chosen': -1.2953753471374512, 'logits/rejected': -0.8916399478912354, 'epoch': 0.37}
 37%|██████████████████████████████████████████▎                                                                      | 255/681 [17:58<20:51,  2.94s/it] 38%|██████████████████████████████████████████▍                                                                      | 256/681 [18:01<20:32,  2.90s/it]                                                                                                                                                        {'loss': 0.6885, 'grad_norm': 28.97931671142578, 'learning_rate': 3.944434578520628e-07, 'margin_dpo/margin_mean': 19.18560028076172, 'margin_dpo/margin_std': 17.2878360748291, 'logps/chosen': -94.7815170288086, 'logps/rejected': -141.99551391601562, 'logps/ref_chosen': -77.7818374633789, 'logps/ref_rejected': -105.81022644042969, 'logits/chosen': -1.5570547580718994, 'logits/rejected': -1.3356791734695435, 'epoch': 0.38}
 38%|██████████████████████████████████████████▍                                                                      | 256/681 [18:01<20:32,  2.90s/it] 38%|██████████████████████████████████████████▋                                                                      | 257/681 [18:04<20:43,  2.93s/it]                                                                                                                                                        {'loss': 0.6644, 'grad_norm': 27.675180435180664, 'learning_rate': 3.933941090877615e-07, 'margin_dpo/margin_mean': 20.687824249267578, 'margin_dpo/margin_std': 18.404783248901367, 'logps/chosen': -120.56830596923828, 'logps/rejected': -140.97515869140625, 'logps/ref_chosen': -104.2494888305664, 'logps/ref_rejected': -103.968505859375, 'logits/chosen': -1.4617829322814941, 'logits/rejected': -0.874555230140686, 'epoch': 0.38}
 38%|██████████████████████████████████████████▋                                                                      | 257/681 [18:04<20:43,  2.93s/it] 38%|██████████████████████████████████████████▊                                                                      | 258/681 [18:07<19:52,  2.82s/it]                                                                                                                                                        {'loss': 0.6151, 'grad_norm': 26.982419967651367, 'learning_rate': 3.923409817553284e-07, 'margin_dpo/margin_mean': 12.84976863861084, 'margin_dpo/margin_std': 11.585992813110352, 'logps/chosen': -111.3430404663086, 'logps/rejected': -121.9286880493164, 'logps/ref_chosen': -95.29330444335938, 'logps/ref_rejected': -93.0291748046875, 'logits/chosen': -1.7992323637008667, 'logits/rejected': -1.3448323011398315, 'epoch': 0.38}
 38%|██████████████████████████████████████████▊                                                                      | 258/681 [18:07<19:52,  2.82s/it] 38%|██████████████████████████████████████████▉                                                                      | 259/681 [18:10<20:14,  2.88s/it]                                                                                                                                                        {'loss': 0.817, 'grad_norm': 28.79665756225586, 'learning_rate': 3.9128410360564793e-07, 'margin_dpo/margin_mean': 14.59865951538086, 'margin_dpo/margin_std': 21.104887008666992, 'logps/chosen': -117.34747314453125, 'logps/rejected': -114.84416198730469, 'logps/ref_chosen': -96.55043029785156, 'logps/ref_rejected': -79.44844818115234, 'logits/chosen': -0.6006170511245728, 'logits/rejected': 0.08246561884880066, 'epoch': 0.38}
 38%|██████████████████████████████████████████▉                                                                      | 259/681 [18:10<20:14,  2.88s/it] 38%|███████████████████████████████████████████▏                                                                     | 260/681 [18:13<20:35,  2.94s/it]                                                                                                                                                        {'loss': 0.937, 'grad_norm': 31.739402770996094, 'learning_rate': 3.9022350248844246e-07, 'margin_dpo/margin_mean': 15.499946594238281, 'margin_dpo/margin_std': 15.068811416625977, 'logps/chosen': -89.928466796875, 'logps/rejected': -143.739013671875, 'logps/ref_chosen': -69.2818603515625, 'logps/ref_rejected': -107.59248352050781, 'logits/chosen': -0.8702751398086548, 'logits/rejected': -0.7750843167304993, 'epoch': 0.38}
 38%|███████████████████████████████████████████▏                                                                     | 260/681 [18:13<20:35,  2.94s/it] 38%|███████████████████████████████████████████▎                                                                     | 261/681 [18:15<19:52,  2.84s/it]                                                                                                                                                        {'loss': 0.6509, 'grad_norm': 24.90912628173828, 'learning_rate': 3.891592063515376e-07, 'margin_dpo/margin_mean': 16.731483459472656, 'margin_dpo/margin_std': 16.480255126953125, 'logps/chosen': -109.2607421875, 'logps/rejected': -155.48861694335938, 'logps/ref_chosen': -93.40982055664062, 'logps/ref_rejected': -122.90621948242188, 'logits/chosen': -1.9554228782653809, 'logits/rejected': -1.618184208869934, 'epoch': 0.38}
 38%|███████████████████████████████████████████▎                                                                     | 261/681 [18:15<19:52,  2.84s/it] 38%|███████████████████████████████████████████▍                                                                     | 262/681 [18:18<19:31,  2.80s/it]                                                                                                                                                        {'loss': 0.7006, 'grad_norm': 24.286285400390625, 'learning_rate': 3.880912432401264e-07, 'margin_dpo/margin_mean': 10.552679061889648, 'margin_dpo/margin_std': 14.37498664855957, 'logps/chosen': -110.82711791992188, 'logps/rejected': -155.30270385742188, 'logps/ref_chosen': -94.37785339355469, 'logps/ref_rejected': -128.30076599121094, 'logits/chosen': -1.1788181066513062, 'logits/rejected': -0.6409732699394226, 'epoch': 0.38}
 38%|███████████████████████████████████████████▍                                                                     | 262/681 [18:18<19:31,  2.80s/it] 39%|███████████████████████████████████████████▋                                                                     | 263/681 [18:21<19:29,  2.80s/it]                                                                                                                                                        {'loss': 0.5653, 'grad_norm': 26.123411178588867, 'learning_rate': 3.870196412960302e-07, 'margin_dpo/margin_mean': 21.03856658935547, 'margin_dpo/margin_std': 13.661331176757812, 'logps/chosen': -125.52157592773438, 'logps/rejected': -153.01513671875, 'logps/ref_chosen': -112.25532531738281, 'logps/ref_rejected': -118.7103042602539, 'logits/chosen': -2.209285259246826, 'logits/rejected': -1.72807776927948, 'epoch': 0.39}
 39%|███████████████████████████████████████████▋                                                                     | 263/681 [18:21<19:29,  2.80s/it] 39%|███████████████████████████████████████████▊                                                                     | 264/681 [18:24<20:00,  2.88s/it]                                                                                                                                                        {'loss': 0.6855, 'grad_norm': 26.471071243286133, 'learning_rate': 3.8594442875695665e-07, 'margin_dpo/margin_mean': 18.396671295166016, 'margin_dpo/margin_std': 14.122834205627441, 'logps/chosen': -88.62034606933594, 'logps/rejected': -115.3791732788086, 'logps/ref_chosen': -74.47600555419922, 'logps/ref_rejected': -82.83815002441406, 'logits/chosen': -2.094125747680664, 'logits/rejected': -1.5296189785003662, 'epoch': 0.39}
 39%|███████████████████████████████████████████▊                                                                     | 264/681 [18:24<20:00,  2.88s/it] 39%|███████████████████████████████████████████▉                                                                     | 265/681 [18:27<19:39,  2.84s/it]                                                                                                                                                        {'loss': 0.7431, 'grad_norm': 24.215213775634766, 'learning_rate': 3.848656339557562e-07, 'margin_dpo/margin_mean': 17.0369873046875, 'margin_dpo/margin_std': 18.63312530517578, 'logps/chosen': -117.15290069580078, 'logps/rejected': -115.11080932617188, 'logps/ref_chosen': -104.01231384277344, 'logps/ref_rejected': -84.9332275390625, 'logits/chosen': -1.6657154560089111, 'logits/rejected': -0.7729620933532715, 'epoch': 0.39}
 39%|███████████████████████████████████████████▉                                                                     | 265/681 [18:27<19:39,  2.84s/it] 39%|████████████████████████████████████████████▏                                                                    | 266/681 [18:30<19:51,  2.87s/it]                                                                                                                                                        {'loss': 0.7461, 'grad_norm': 33.143089294433594, 'learning_rate': 3.8378328531967507e-07, 'margin_dpo/margin_mean': 17.004764556884766, 'margin_dpo/margin_std': 11.14462661743164, 'logps/chosen': -141.586669921875, 'logps/rejected': -94.93106079101562, 'logps/ref_chosen': -127.02003479003906, 'logps/ref_rejected': -63.359657287597656, 'logits/chosen': -1.3864130973815918, 'logits/rejected': -0.2755950391292572, 'epoch': 0.39}
 39%|████████████████████████████████████████████▏                                                                    | 266/681 [18:30<19:51,  2.87s/it] 39%|████████████████████████████████████████████▎                                                                    | 267/681 [18:33<19:53,  2.88s/it]                                                                                                                                                        {'loss': 0.5557, 'grad_norm': 23.171924591064453, 'learning_rate': 3.8269741136960646e-07, 'margin_dpo/margin_mean': 15.561500549316406, 'margin_dpo/margin_std': 13.366697311401367, 'logps/chosen': -113.98542785644531, 'logps/rejected': -115.53654479980469, 'logps/ref_chosen': -100.46978759765625, 'logps/ref_rejected': -86.45939636230469, 'logits/chosen': -1.4743266105651855, 'logits/rejected': -0.8582184910774231, 'epoch': 0.39}
 39%|████████████████████████████████████████████▎                                                                    | 267/681 [18:33<19:53,  2.88s/it] 39%|████████████████████████████████████████████▍                                                                    | 268/681 [18:35<19:52,  2.89s/it]                                                                                                                                                        {'loss': 0.6504, 'grad_norm': 23.90070152282715, 'learning_rate': 3.8160804071933894e-07, 'margin_dpo/margin_mean': 11.992761611938477, 'margin_dpo/margin_std': 12.630704879760742, 'logps/chosen': -104.34091186523438, 'logps/rejected': -104.53038787841797, 'logps/ref_chosen': -87.36892700195312, 'logps/ref_rejected': -75.56564331054688, 'logits/chosen': -0.6755940914154053, 'logits/rejected': -0.30946046113967896, 'epoch': 0.39}
 39%|████████████████████████████████████████████▍                                                                    | 268/681 [18:35<19:52,  2.89s/it] 40%|████████████████████████████████████████████▋                                                                    | 269/681 [18:38<19:54,  2.90s/it]                                                                                                                                                        {'loss': 0.5895, 'grad_norm': 23.326845169067383, 'learning_rate': 3.8051520207480204e-07, 'margin_dpo/margin_mean': 20.590484619140625, 'margin_dpo/margin_std': 11.655923843383789, 'logps/chosen': -113.57240295410156, 'logps/rejected': -131.50343322753906, 'logps/ref_chosen': -105.39424133300781, 'logps/ref_rejected': -102.73477172851562, 'logits/chosen': -1.7525832653045654, 'logits/rejected': -1.138352632522583, 'epoch': 0.4}
 40%|████████████████████████████████████████████▋                                                                    | 269/681 [18:38<19:54,  2.90s/it] 40%|████████████████████████████████████████████▊                                                                    | 270/681 [18:41<20:04,  2.93s/it]                                                                                                                                                        {'loss': 0.7485, 'grad_norm': 28.63389015197754, 'learning_rate': 3.794189242333106e-07, 'margin_dpo/margin_mean': 19.665857315063477, 'margin_dpo/margin_std': 18.711822509765625, 'logps/chosen': -135.16775512695312, 'logps/rejected': -145.209716796875, 'logps/ref_chosen': -117.72895812988281, 'logps/ref_rejected': -108.10507202148438, 'logits/chosen': -2.346863269805908, 'logits/rejected': -1.4268286228179932, 'epoch': 0.4}
 40%|████████████████████████████████████████████▊                                                                    | 270/681 [18:41<20:04,  2.93s/it] 40%|████████████████████████████████████████████▉                                                                    | 271/681 [18:44<19:35,  2.87s/it]                                                                                                                                                        {'loss': 0.6551, 'grad_norm': 25.63298988342285, 'learning_rate': 3.7831923608280514e-07, 'margin_dpo/margin_mean': 19.984500885009766, 'margin_dpo/margin_std': 19.420936584472656, 'logps/chosen': -134.63824462890625, 'logps/rejected': -140.81619262695312, 'logps/ref_chosen': -121.63641357421875, 'logps/ref_rejected': -107.82986450195312, 'logits/chosen': -1.5109490156173706, 'logits/rejected': -0.8422449827194214, 'epoch': 0.4}
 40%|████████████████████████████████████████████▉                                                                    | 271/681 [18:44<19:35,  2.87s/it] 40%|█████████████████████████████████████████████▏                                                                   | 272/681 [18:47<19:47,  2.90s/it]                                                                                                                                                        {'loss': 0.6546, 'grad_norm': 27.825122833251953, 'learning_rate': 3.772161666010912e-07, 'margin_dpo/margin_mean': 19.88021469116211, 'margin_dpo/margin_std': 20.506275177001953, 'logps/chosen': -64.66868591308594, 'logps/rejected': -118.36727905273438, 'logps/ref_chosen': -57.89815902709961, 'logps/ref_rejected': -91.71653747558594, 'logits/chosen': -1.984161138534546, 'logits/rejected': -1.790366768836975, 'epoch': 0.4}
 40%|█████████████████████████████████████████████▏                                                                   | 272/681 [18:47<19:47,  2.90s/it] 40%|█████████████████████████████████████████████▎                                                                   | 273/681 [18:50<19:22,  2.85s/it]                                                                                                                                                        {'loss': 0.7343, 'grad_norm': 27.83376121520996, 'learning_rate': 3.761097448550755e-07, 'margin_dpo/margin_mean': 20.25616455078125, 'margin_dpo/margin_std': 20.952659606933594, 'logps/chosen': -132.13973999023438, 'logps/rejected': -151.94931030273438, 'logps/ref_chosen': -116.63589477539062, 'logps/ref_rejected': -116.1893081665039, 'logits/chosen': -1.444991111755371, 'logits/rejected': -0.9423968195915222, 'epoch': 0.4}
 40%|█████████████████████████████████████████████▎                                                                   | 273/681 [18:50<19:22,  2.85s/it] 40%|█████████████████████████████████████████████▍                                                                   | 274/681 [18:53<19:22,  2.86s/it]                                                                                                                                                        {'loss': 0.6414, 'grad_norm': 26.02191925048828, 'learning_rate': 3.75e-07, 'margin_dpo/margin_mean': 15.951923370361328, 'margin_dpo/margin_std': 12.496143341064453, 'logps/chosen': -81.43106079101562, 'logps/rejected': -118.44586181640625, 'logps/ref_chosen': -64.8055419921875, 'logps/ref_rejected': -85.86842346191406, 'logits/chosen': -1.2731891870498657, 'logits/rejected': -1.1204042434692383, 'epoch': 0.4}
 40%|█████████████████████████████████████████████▍                                                                   | 274/681 [18:53<19:22,  2.86s/it] 40%|█████████████████████████████████████████████▋                                                                   | 275/681 [18:56<19:41,  2.91s/it]                                                                                                                                                        {'loss': 0.6737, 'grad_norm': 28.154870986938477, 'learning_rate': 3.738869612786737e-07, 'margin_dpo/margin_mean': 17.58925437927246, 'margin_dpo/margin_std': 12.368159294128418, 'logps/chosen': -75.03510284423828, 'logps/rejected': -110.03489685058594, 'logps/ref_chosen': -66.54554748535156, 'logps/ref_rejected': -83.95608520507812, 'logits/chosen': -2.217825412750244, 'logits/rejected': -1.8745087385177612, 'epoch': 0.4}
 40%|█████████████████████████████████████████████▋                                                                   | 275/681 [18:56<19:41,  2.91s/it] 41%|█████████████████████████████████████████████▊                                                                   | 276/681 [18:58<19:13,  2.85s/it]                                                                                                                                                        {'loss': 0.6958, 'grad_norm': 27.130475997924805, 'learning_rate': 3.7277065802070204e-07, 'margin_dpo/margin_mean': 17.16216278076172, 'margin_dpo/margin_std': 11.365278244018555, 'logps/chosen': -88.32952880859375, 'logps/rejected': -112.3787612915039, 'logps/ref_chosen': -73.30899047851562, 'logps/ref_rejected': -80.19606018066406, 'logits/chosen': -1.3086066246032715, 'logits/rejected': -1.1000663042068481, 'epoch': 0.41}
 41%|█████████████████████████████████████████████▊                                                                   | 276/681 [18:58<19:13,  2.85s/it] 41%|█████████████████████████████████████████████▉                                                                   | 277/681 [19:01<18:46,  2.79s/it]                                                                                                                                                        {'loss': 0.6035, 'grad_norm': 23.917224884033203, 'learning_rate': 3.71651119641714e-07, 'margin_dpo/margin_mean': 16.272974014282227, 'margin_dpo/margin_std': 13.451412200927734, 'logps/chosen': -91.10482025146484, 'logps/rejected': -157.8816680908203, 'logps/ref_chosen': -73.8440933227539, 'logps/ref_rejected': -124.34796905517578, 'logits/chosen': -1.4923615455627441, 'logits/rejected': -1.091668963432312, 'epoch': 0.41}
 41%|█████████████████████████████████████████████▉                                                                   | 277/681 [19:01<18:46,  2.79s/it] 41%|██████████████████████████████████████████████▏                                                                  | 278/681 [19:04<19:04,  2.84s/it]                                                                                                                                                        {'loss': 0.7411, 'grad_norm': 27.672937393188477, 'learning_rate': 3.705283756425872e-07, 'margin_dpo/margin_mean': 19.189693450927734, 'margin_dpo/margin_std': 15.39527702331543, 'logps/chosen': -78.12380981445312, 'logps/rejected': -124.02960205078125, 'logps/ref_chosen': -64.88898468017578, 'logps/ref_rejected': -91.60508728027344, 'logits/chosen': -1.5108946561813354, 'logits/rejected': -1.3069382905960083, 'epoch': 0.41}
 41%|██████████████████████████████████████████████▏                                                                  | 278/681 [19:04<19:04,  2.84s/it] 41%|██████████████████████████████████████████████▎                                                                  | 279/681 [19:07<19:05,  2.85s/it]                                                                                                                                                        {'loss': 0.7615, 'grad_norm': 27.276323318481445, 'learning_rate': 3.6940245560867e-07, 'margin_dpo/margin_mean': 12.001691818237305, 'margin_dpo/margin_std': 11.654304504394531, 'logps/chosen': -113.02943420410156, 'logps/rejected': -133.98086547851562, 'logps/ref_chosen': -100.27659606933594, 'logps/ref_rejected': -109.22632598876953, 'logits/chosen': -1.1005783081054688, 'logits/rejected': -0.8380391597747803, 'epoch': 0.41}
 41%|██████████████████████████████████████████████▎                                                                  | 279/681 [19:07<19:05,  2.85s/it] 41%|██████████████████████████████████████████████▍                                                                  | 280/681 [19:10<19:26,  2.91s/it]                                                                                                                                                        {'loss': 0.5692, 'grad_norm': 23.190258026123047, 'learning_rate': 3.6827338920900253e-07, 'margin_dpo/margin_mean': 19.445505142211914, 'margin_dpo/margin_std': 17.48896598815918, 'logps/chosen': -83.09910583496094, 'logps/rejected': -159.41729736328125, 'logps/ref_chosen': -65.84967041015625, 'logps/ref_rejected': -122.72234344482422, 'logits/chosen': -2.4184060096740723, 'logits/rejected': -2.72609281539917, 'epoch': 0.41}
 41%|██████████████████████████████████████████████▍                                                                  | 280/681 [19:10<19:26,  2.91s/it] 41%|██████████████████████████████████████████████▋                                                                  | 281/681 [19:13<19:34,  2.94s/it]                                                                                                                                                        {'loss': 0.6119, 'grad_norm': 21.81446647644043, 'learning_rate': 3.6714120619553435e-07, 'margin_dpo/margin_mean': 17.510818481445312, 'margin_dpo/margin_std': 18.7252197265625, 'logps/chosen': -73.10958862304688, 'logps/rejected': -100.85271453857422, 'logps/ref_chosen': -57.2689208984375, 'logps/ref_rejected': -67.501220703125, 'logits/chosen': -1.2980034351348877, 'logits/rejected': -0.9670097231864929, 'epoch': 0.41}
 41%|██████████████████████████████████████████████▋                                                                  | 281/681 [19:13<19:34,  2.94s/it] 41%|██████████████████████████████████████████████▊                                                                  | 282/681 [19:16<19:38,  2.95s/it]                                                                                                                                                        {'loss': 0.4488, 'grad_norm': 20.058345794677734, 'learning_rate': 3.660059364023408e-07, 'margin_dpo/margin_mean': 25.340524673461914, 'margin_dpo/margin_std': 17.682575225830078, 'logps/chosen': -94.27513122558594, 'logps/rejected': -100.76190185546875, 'logps/ref_chosen': -85.69962310791016, 'logps/ref_rejected': -66.8458480834961, 'logits/chosen': -1.7840750217437744, 'logits/rejected': -1.2310118675231934, 'epoch': 0.41}
 41%|██████████████████████████████████████████████▊                                                                  | 282/681 [19:16<19:38,  2.95s/it] 42%|██████████████████████████████████████████████▉                                                                  | 283/681 [19:19<19:19,  2.91s/it]                                                                                                                                                        {'loss': 0.8681, 'grad_norm': 39.15544509887695, 'learning_rate': 3.6486760974483685e-07, 'margin_dpo/margin_mean': 12.62417221069336, 'margin_dpo/margin_std': 15.997934341430664, 'logps/chosen': -101.2388916015625, 'logps/rejected': -112.30723571777344, 'logps/ref_chosen': -85.58895111083984, 'logps/ref_rejected': -84.03312683105469, 'logits/chosen': -2.0153682231903076, 'logits/rejected': -1.574284553527832, 'epoch': 0.42}
 42%|██████████████████████████████████████████████▉                                                                  | 283/681 [19:19<19:19,  2.91s/it] 42%|███████████████████████████████████████████████                                                                  | 284/681 [19:22<19:44,  2.98s/it]                                                                                                                                                        {'loss': 0.4147, 'grad_norm': 17.253101348876953, 'learning_rate': 3.6372625621898863e-07, 'margin_dpo/margin_mean': 17.883419036865234, 'margin_dpo/margin_std': 9.083778381347656, 'logps/chosen': -107.02427673339844, 'logps/rejected': -102.14917755126953, 'logps/ref_chosen': -93.25978088378906, 'logps/ref_rejected': -70.50126647949219, 'logits/chosen': -1.7107484340667725, 'logits/rejected': -1.297828197479248, 'epoch': 0.42}
 42%|███████████████████████████████████████████████                                                                  | 284/681 [19:22<19:44,  2.98s/it] 42%|███████████████████████████████████████████████▎                                                                 | 285/681 [19:25<19:46,  3.00s/it]                                                                                                                                                        {'loss': 0.6078, 'grad_norm': 30.760282516479492, 'learning_rate': 3.625819059005228e-07, 'margin_dpo/margin_mean': 16.659687042236328, 'margin_dpo/margin_std': 12.118792533874512, 'logps/chosen': -70.15441131591797, 'logps/rejected': -124.66044616699219, 'logps/ref_chosen': -51.80888366699219, 'logps/ref_rejected': -89.65523529052734, 'logits/chosen': -1.5096139907836914, 'logits/rejected': -1.7117888927459717, 'epoch': 0.42}
 42%|███████████████████████████████████████████████▎                                                                 | 285/681 [19:25<19:46,  3.00s/it] 42%|███████████████████████████████████████████████▍                                                                 | 286/681 [19:28<19:34,  2.97s/it]                                                                                                                                                        {'loss': 0.59, 'grad_norm': 26.206777572631836, 'learning_rate': 3.614345889441346e-07, 'margin_dpo/margin_mean': 16.394378662109375, 'margin_dpo/margin_std': 9.293878555297852, 'logps/chosen': -116.84445190429688, 'logps/rejected': -104.88263702392578, 'logps/ref_chosen': -100.83771514892578, 'logps/ref_rejected': -72.48152923583984, 'logits/chosen': -2.420334577560425, 'logits/rejected': -1.927842617034912, 'epoch': 0.42}
 42%|███████████████████████████████████████████████▍                                                                 | 286/681 [19:28<19:34,  2.97s/it] 42%|███████████████████████████████████████████████▌                                                                 | 287/681 [19:30<18:45,  2.86s/it]                                                                                                                                                        {'loss': 0.8528, 'grad_norm': 35.31901168823242, 'learning_rate': 3.6028433558269275e-07, 'margin_dpo/margin_mean': 15.366945266723633, 'margin_dpo/margin_std': 17.302759170532227, 'logps/chosen': -124.8189697265625, 'logps/rejected': -108.34898376464844, 'logps/ref_chosen': -108.39360809326172, 'logps/ref_rejected': -76.55667114257812, 'logits/chosen': -1.129586100578308, 'logits/rejected': -0.4217372238636017, 'epoch': 0.42}
 42%|███████████████████████████████████████████████▌                                                                 | 287/681 [19:30<18:45,  2.86s/it] 42%|███████████████████████████████████████████████▊                                                                 | 288/681 [19:33<18:49,  2.87s/it]                                                                                                                                                        {'loss': 0.6139, 'grad_norm': 25.598308563232422, 'learning_rate': 3.5913117612644327e-07, 'margin_dpo/margin_mean': 12.322646141052246, 'margin_dpo/margin_std': 16.771167755126953, 'logps/chosen': -97.67936706542969, 'logps/rejected': -120.51500701904297, 'logps/ref_chosen': -81.42936706542969, 'logps/ref_rejected': -91.9423599243164, 'logits/chosen': -1.43570876121521, 'logits/rejected': -1.31893789768219, 'epoch': 0.42}
 42%|███████████████████████████████████████████████▊                                                                 | 288/681 [19:33<18:49,  2.87s/it] 42%|███████████████████████████████████████████████▉                                                                 | 289/681 [19:36<18:56,  2.90s/it]                                                                                                                                                        {'loss': 0.6594, 'grad_norm': 22.585121154785156, 'learning_rate': 3.5797514096221024e-07, 'margin_dpo/margin_mean': 29.76548957824707, 'margin_dpo/margin_std': 26.266082763671875, 'logps/chosen': -103.3167724609375, 'logps/rejected': -147.36233520507812, 'logps/ref_chosen': -91.00823974609375, 'logps/ref_rejected': -105.28831481933594, 'logits/chosen': -1.5673437118530273, 'logits/rejected': -1.1167399883270264, 'epoch': 0.42}
 42%|███████████████████████████████████████████████▉                                                                 | 289/681 [19:36<18:56,  2.90s/it] 43%|████████████████████████████████████████████████                                                                 | 290/681 [19:39<18:33,  2.85s/it]                                                                                                                                                        {'loss': 0.6342, 'grad_norm': 27.944913864135742, 'learning_rate': 3.568162605525952e-07, 'margin_dpo/margin_mean': 20.673748016357422, 'margin_dpo/margin_std': 14.754283905029297, 'logps/chosen': -106.29632568359375, 'logps/rejected': -159.3505859375, 'logps/ref_chosen': -86.29432678222656, 'logps/ref_rejected': -118.67485046386719, 'logits/chosen': -1.0414509773254395, 'logits/rejected': -1.1000698804855347, 'epoch': 0.43}
 43%|████████████████████████████████████████████████                                                                 | 290/681 [19:39<18:33,  2.85s/it] 43%|████████████████████████████████████████████████▎                                                                | 291/681 [19:42<18:40,  2.87s/it]                                                                                                                                                        {'loss': 0.781, 'grad_norm': 33.19970703125, 'learning_rate': 3.5565456543517485e-07, 'margin_dpo/margin_mean': 17.343158721923828, 'margin_dpo/margin_std': 13.000414848327637, 'logps/chosen': -85.19589233398438, 'logps/rejected': -126.43409729003906, 'logps/ref_chosen': -66.42658233642578, 'logps/ref_rejected': -90.32164001464844, 'logits/chosen': -1.560898780822754, 'logits/rejected': -1.653581142425537, 'epoch': 0.43}
 43%|████████████████████████████████████████████████▎                                                                | 291/681 [19:42<18:40,  2.87s/it] 43%|████████████████████████████████████████████████▍                                                                | 292/681 [19:45<18:35,  2.87s/it]                                                                                                                                                        {'loss': 0.4858, 'grad_norm': 21.21723747253418, 'learning_rate': 3.5449008622169583e-07, 'margin_dpo/margin_mean': 19.803937911987305, 'margin_dpo/margin_std': 12.30525016784668, 'logps/chosen': -115.83615112304688, 'logps/rejected': -134.69090270996094, 'logps/ref_chosen': -101.82511901855469, 'logps/ref_rejected': -100.87593078613281, 'logits/chosen': -1.6994218826293945, 'logits/rejected': -1.175065040588379, 'epoch': 0.43}
 43%|████████████████████████████████████████████████▍                                                                | 292/681 [19:45<18:35,  2.87s/it] 43%|████████████████████████████████████████████████▌                                                                | 293/681 [19:48<18:40,  2.89s/it]                                                                                                                                                        {'loss': 0.8721, 'grad_norm': 26.848459243774414, 'learning_rate': 3.5332285359726846e-07, 'margin_dpo/margin_mean': 11.636128425598145, 'margin_dpo/margin_std': 17.83340072631836, 'logps/chosen': -84.04584503173828, 'logps/rejected': -109.67572784423828, 'logps/ref_chosen': -68.95051574707031, 'logps/ref_rejected': -82.94426727294922, 'logits/chosen': -1.7359650135040283, 'logits/rejected': -1.7631828784942627, 'epoch': 0.43}
 43%|████████████████████████████████████████████████▌                                                                | 293/681 [19:48<18:40,  2.89s/it] 43%|████████████████████████████████████████████████▊                                                                | 294/681 [19:51<18:31,  2.87s/it]                                                                                                                                                        {'loss': 0.8365, 'grad_norm': 28.9974308013916, 'learning_rate': 3.5215289831955786e-07, 'margin_dpo/margin_mean': 13.591376304626465, 'margin_dpo/margin_std': 13.403884887695312, 'logps/chosen': -102.3502197265625, 'logps/rejected': -98.13722229003906, 'logps/ref_chosen': -88.47676086425781, 'logps/ref_rejected': -70.6723861694336, 'logits/chosen': -1.5406566858291626, 'logits/rejected': -1.1875331401824951, 'epoch': 0.43}
 43%|████████████████████████████████████████████████▊                                                                | 294/681 [19:51<18:31,  2.87s/it] 43%|████████████████████████████████████████████████▉                                                                | 295/681 [19:53<18:16,  2.84s/it]                                                                                                                                                        {'loss': 0.6613, 'grad_norm': 25.117948532104492, 'learning_rate': 3.509802512179737e-07, 'margin_dpo/margin_mean': 17.824451446533203, 'margin_dpo/margin_std': 8.08942985534668, 'logps/chosen': -99.4218978881836, 'logps/rejected': -114.45523071289062, 'logps/ref_chosen': -82.94652557373047, 'logps/ref_rejected': -80.15540313720703, 'logits/chosen': -1.3463271856307983, 'logits/rejected': -0.9588865637779236, 'epoch': 0.43}
 43%|████████████████████████████████████████████████▉                                                                | 295/681 [19:53<18:16,  2.84s/it] 43%|█████████████████████████████████████████████████                                                                | 296/681 [19:56<18:06,  2.82s/it]                                                                                                                                                        {'loss': 0.6912, 'grad_norm': 27.37685775756836, 'learning_rate': 3.498049431928577e-07, 'margin_dpo/margin_mean': 19.46407127380371, 'margin_dpo/margin_std': 28.34971046447754, 'logps/chosen': -138.28659057617188, 'logps/rejected': -159.16708374023438, 'logps/ref_chosen': -118.51683807373047, 'logps/ref_rejected': -119.9332504272461, 'logits/chosen': -2.3768234252929688, 'logits/rejected': -1.7210721969604492, 'epoch': 0.43}
 43%|█████████████████████████████████████████████████                                                                | 296/681 [19:56<18:06,  2.82s/it] 44%|█████████████████████████████████████████████████▎                                                               | 297/681 [19:59<18:34,  2.90s/it]                                                                                                                                                        {'loss': 0.6463, 'grad_norm': 24.673267364501953, 'learning_rate': 3.486270052146694e-07, 'margin_dpo/margin_mean': 20.95398712158203, 'margin_dpo/margin_std': 13.207864761352539, 'logps/chosen': -105.87931823730469, 'logps/rejected': -133.82965087890625, 'logps/ref_chosen': -86.62548065185547, 'logps/ref_rejected': -93.621826171875, 'logits/chosen': -0.6197730302810669, 'logits/rejected': -0.3352678418159485, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▎                                                               | 297/681 [19:59<18:34,  2.90s/it] 44%|█████████████████████████████████████████████████▍                                                               | 298/681 [20:02<18:37,  2.92s/it]                                                                                                                                                        {'loss': 0.6232, 'grad_norm': 26.703006744384766, 'learning_rate': 3.474464683231698e-07, 'margin_dpo/margin_mean': 15.894968032836914, 'margin_dpo/margin_std': 15.374116897583008, 'logps/chosen': -141.28953552246094, 'logps/rejected': -129.42611694335938, 'logps/ref_chosen': -125.80955505371094, 'logps/ref_rejected': -98.05117797851562, 'logits/chosen': -2.5179362297058105, 'logits/rejected': -2.055812358856201, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▍                                                               | 298/681 [20:02<18:37,  2.92s/it] 44%|█████████████████████████████████████████████████▌                                                               | 299/681 [20:05<18:34,  2.92s/it]                                                                                                                                                        {'loss': 0.5611, 'grad_norm': 25.000356674194336, 'learning_rate': 3.462633636266041e-07, 'margin_dpo/margin_mean': 20.862197875976562, 'margin_dpo/margin_std': 13.313728332519531, 'logps/chosen': -76.33744812011719, 'logps/rejected': -133.07330322265625, 'logps/ref_chosen': -60.100074768066406, 'logps/ref_rejected': -95.97373962402344, 'logits/chosen': -0.8845536708831787, 'logits/rejected': -0.7745420932769775, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▌                                                               | 299/681 [20:05<18:34,  2.92s/it] 44%|█████████████████████████████████████████████████▊                                                               | 300/681 [20:08<18:54,  2.98s/it]                                                                                                                                                        {'loss': 0.7508, 'grad_norm': 29.056922912597656, 'learning_rate': 3.4507772230088147e-07, 'margin_dpo/margin_mean': 12.071918487548828, 'margin_dpo/margin_std': 16.181241989135742, 'logps/chosen': -86.75079345703125, 'logps/rejected': -129.37054443359375, 'logps/ref_chosen': -63.767547607421875, 'logps/ref_rejected': -94.31537628173828, 'logits/chosen': -1.2322702407836914, 'logits/rejected': -1.1211085319519043, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▊                                                               | 300/681 [20:08<18:54,  2.98s/it][INFO|trainer.py:4307] 2026-04-24 00:15:15,782 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 00:15:15,782 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 00:15:15,782 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:18,  3.85it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:28,  2.46it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:34,  2.00it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:34,  1.94it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.82it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:36,  1.82it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:03<00:34,  1.91it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:38,  1.67it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.68it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:38,  1.63it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:36,  1.66it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:36,  1.67it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.65it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:35,  1.63it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.59it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.58it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:31,  1.72it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:10<00:35,  1.53it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:35,  1.51it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:34,  1.52it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:12<00:33,  1.54it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:31,  1.60it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.55it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.57it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:27,  1.70it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.77it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.69it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.70it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:25,  1.72it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.75it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:24,  1.69it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.70it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:19<00:21,  1.78it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:22,  1.69it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:21,  1.70it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.60it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:21,  1.65it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:21,  1.60it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:19,  1.68it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:17,  1.73it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:16,  1.77it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.62it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.57it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.67it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.66it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.62it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.64it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:13,  1.72it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.61it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:30<00:13,  1.55it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:13,  1.53it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.65it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.70it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.66it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:33<00:09,  1.61it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:07,  1.77it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:08,  1.62it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.69it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:36<00:06,  1.64it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.77it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:37<00:04,  1.84it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.71it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:03,  1.75it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.70it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.73it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:40<00:02,  1.67it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.58it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:42<00:00,  1.59it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.73it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.43480244278907776, 'eval_runtime': 44.0016, 'eval_samples_per_second': 53.157, 'eval_steps_per_second': 1.682, 'eval_margin_dpo/margin_mean': 13.368559837341309, 'eval_margin_dpo/margin_std': 14.839603424072266, 'eval_logps/chosen': -121.85298156738281, 'eval_logps/rejected': -126.02144622802734, 'eval_logps/ref_chosen': -101.88616943359375, 'eval_logps/ref_rejected': -92.68607330322266, 'eval_logits/chosen': -1.2686725854873657, 'eval_logits/rejected': -0.9791460633277893, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▊                                                               | 300/681 [20:52<18:54,  2.98s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.73it/s][A
                                                                                                                                                        [A 44%|█████████████████████████████████████████████████                                                              | 301/681 [20:55<1:41:44, 16.06s/it]                                                                                                                                                        {'loss': 0.5739, 'grad_norm': 23.944438934326172, 'learning_rate': 3.4388957558875316e-07, 'margin_dpo/margin_mean': 22.65645980834961, 'margin_dpo/margin_std': 16.655263900756836, 'logps/chosen': -120.26191711425781, 'logps/rejected': -150.2152099609375, 'logps/ref_chosen': -103.51814270019531, 'logps/ref_rejected': -110.81497192382812, 'logits/chosen': -1.3114334344863892, 'logits/rejected': -0.5625029802322388, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████                                                              | 301/681 [20:55<1:41:44, 16.06s/it] 44%|█████████████████████████████████████████████████▏                                                             | 302/681 [20:58<1:16:40, 12.14s/it]                                                                                                                                                        {'loss': 0.7385, 'grad_norm': 29.19167137145996, 'learning_rate': 3.426989547989902e-07, 'margin_dpo/margin_mean': 10.680692672729492, 'margin_dpo/margin_std': 13.586481094360352, 'logps/chosen': -113.50164794921875, 'logps/rejected': -145.63783264160156, 'logps/ref_chosen': -97.01749420166016, 'logps/ref_rejected': -118.47299194335938, 'logits/chosen': -1.2964709997177124, 'logits/rejected': -0.9586907625198364, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▏                                                             | 302/681 [20:58<1:16:40, 12.14s/it] 44%|██████████████████████████████████████████████████▎                                                              | 303/681 [21:01<59:11,  9.40s/it]                                                                                                                                                        {'loss': 0.5719, 'grad_norm': 23.38942527770996, 'learning_rate': 3.4150589130555773e-07, 'margin_dpo/margin_mean': 15.932912826538086, 'margin_dpo/margin_std': 12.196745872497559, 'logps/chosen': -96.07485961914062, 'logps/rejected': -125.125, 'logps/ref_chosen': -77.64624786376953, 'logps/ref_rejected': -90.76347351074219, 'logits/chosen': -0.9705812931060791, 'logits/rejected': -1.0122885704040527, 'epoch': 0.44}
 44%|██████████████████████████████████████████████████▎                                                              | 303/681 [21:01<59:11,  9.40s/it] 45%|██████████████████████████████████████████████████▍                                                              | 304/681 [21:04<47:08,  7.50s/it]                                                                                                                                                        {'loss': 0.6441, 'grad_norm': 29.73624038696289, 'learning_rate': 3.403104165467883e-07, 'margin_dpo/margin_mean': 18.733875274658203, 'margin_dpo/margin_std': 14.239300727844238, 'logps/chosen': -131.42453002929688, 'logps/rejected': -145.26040649414062, 'logps/ref_chosen': -111.68305206298828, 'logps/ref_rejected': -106.78506469726562, 'logits/chosen': -1.6866213083267212, 'logits/rejected': -1.4702863693237305, 'epoch': 0.45}
 45%|██████████████████████████████████████████████████▍                                                              | 304/681 [21:04<47:08,  7.50s/it] 45%|██████████████████████████████████████████████████▌                                                              | 305/681 [21:07<38:55,  6.21s/it]                                                                                                                                                        {'loss': 0.6036, 'grad_norm': 25.76927947998047, 'learning_rate': 3.391125620245535e-07, 'margin_dpo/margin_mean': 22.085636138916016, 'margin_dpo/margin_std': 14.780380249023438, 'logps/chosen': -156.75167846679688, 'logps/rejected': -133.16110229492188, 'logps/ref_chosen': -140.52206420898438, 'logps/ref_rejected': -94.84587097167969, 'logits/chosen': -1.6310691833496094, 'logits/rejected': -0.7466331124305725, 'epoch': 0.45}
 45%|██████████████████████████████████████████████████▌                                                              | 305/681 [21:07<38:55,  6.21s/it] 45%|██████████████████████████████████████████████████▊                                                              | 306/681 [21:10<32:48,  5.25s/it]                                                                                                                                                        {'loss': 0.3552, 'grad_norm': 17.852848052978516, 'learning_rate': 3.3791235930343417e-07, 'margin_dpo/margin_mean': 24.886112213134766, 'margin_dpo/margin_std': 15.110748291015625, 'logps/chosen': -124.42718505859375, 'logps/rejected': -143.6051483154297, 'logps/ref_chosen': -113.0892333984375, 'logps/ref_rejected': -107.38107299804688, 'logits/chosen': -1.5937268733978271, 'logits/rejected': -1.1459739208221436, 'epoch': 0.45}
 45%|██████████████████████████████████████████████████▊                                                              | 306/681 [21:10<32:48,  5.25s/it] 45%|██████████████████████████████████████████████████▉                                                              | 307/681 [21:13<29:06,  4.67s/it]                                                                                                                                                        {'loss': 0.7146, 'grad_norm': 35.94956970214844, 'learning_rate': 3.367098400098881e-07, 'margin_dpo/margin_mean': 9.831794738769531, 'margin_dpo/margin_std': 15.621646881103516, 'logps/chosen': -138.31626892089844, 'logps/rejected': -114.65570068359375, 'logps/ref_chosen': -119.14762878417969, 'logps/ref_rejected': -85.65526580810547, 'logits/chosen': -1.6853301525115967, 'logits/rejected': -1.5398199558258057, 'epoch': 0.45}
 45%|██████████████████████████████████████████████████▉                                                              | 307/681 [21:13<29:06,  4.67s/it] 45%|███████████████████████████████████████████████████                                                              | 308/681 [21:16<25:48,  4.15s/it]                                                                                                                                                        {'loss': 0.7696, 'grad_norm': 27.655181884765625, 'learning_rate': 3.355050358314172e-07, 'margin_dpo/margin_mean': 13.942778587341309, 'margin_dpo/margin_std': 18.120010375976562, 'logps/chosen': -127.35299682617188, 'logps/rejected': -127.02978515625, 'logps/ref_chosen': -108.64510345458984, 'logps/ref_rejected': -94.37911224365234, 'logits/chosen': -1.4368455410003662, 'logits/rejected': -1.1521961688995361, 'epoch': 0.45}
 45%|███████████████████████████████████████████████████                                                              | 308/681 [21:16<25:48,  4.15s/it] 45%|███████████████████████████████████████████████████▎                                                             | 309/681 [21:19<23:39,  3.82s/it]                                                                                                                                                        {'loss': 0.647, 'grad_norm': 25.771364212036133, 'learning_rate': 3.3429797851573183e-07, 'margin_dpo/margin_mean': 16.466510772705078, 'margin_dpo/margin_std': 17.880075454711914, 'logps/chosen': -78.335205078125, 'logps/rejected': -114.00508117675781, 'logps/ref_chosen': -59.73954772949219, 'logps/ref_rejected': -78.94290924072266, 'logits/chosen': -1.5995187759399414, 'logits/rejected': -1.3868792057037354, 'epoch': 0.45}
 45%|███████████████████████████████████████████████████▎                                                             | 309/681 [21:19<23:39,  3.82s/it] 46%|███████████████████████████████████████████████████▍                                                             | 310/681 [21:22<22:07,  3.58s/it]                                                                                                                                                        {'loss': 0.7686, 'grad_norm': 27.70083999633789, 'learning_rate': 3.3308869986991487e-07, 'margin_dpo/margin_mean': 12.192560195922852, 'margin_dpo/margin_std': 16.817516326904297, 'logps/chosen': -104.94872283935547, 'logps/rejected': -101.36610412597656, 'logps/ref_chosen': -88.61974334716797, 'logps/ref_rejected': -72.84456634521484, 'logits/chosen': -1.3079609870910645, 'logits/rejected': -1.0223644971847534, 'epoch': 0.46}
 46%|███████████████████████████████████████████████████▍                                                             | 310/681 [21:22<22:07,  3.58s/it] 46%|███████████████████████████████████████████████████▌                                                             | 311/681 [21:25<20:39,  3.35s/it]                                                                                                                                                        {'loss': 0.622, 'grad_norm': 27.827804565429688, 'learning_rate': 3.3187723175958346e-07, 'margin_dpo/margin_mean': 21.281295776367188, 'margin_dpo/margin_std': 19.100196838378906, 'logps/chosen': -112.90548706054688, 'logps/rejected': -126.1024169921875, 'logps/ref_chosen': -92.47557067871094, 'logps/ref_rejected': -84.39120483398438, 'logits/chosen': -1.6938467025756836, 'logits/rejected': -0.8132745623588562, 'epoch': 0.46}
 46%|███████████████████████████████████████████████████▌                                                             | 311/681 [21:25<20:39,  3.35s/it] 46%|███████████████████████████████████████████████████▊                                                             | 312/681 [21:28<19:30,  3.17s/it]                                                                                                                                                        {'loss': 0.6269, 'grad_norm': 24.641746520996094, 'learning_rate': 3.306636061080487e-07, 'margin_dpo/margin_mean': 22.387775421142578, 'margin_dpo/margin_std': 24.29810905456543, 'logps/chosen': -106.80957794189453, 'logps/rejected': -141.55429077148438, 'logps/ref_chosen': -87.10482788085938, 'logps/ref_rejected': -99.46177673339844, 'logits/chosen': -1.377639651298523, 'logits/rejected': -0.7076698541641235, 'epoch': 0.46}
 46%|███████████████████████████████████████████████████▊                                                             | 312/681 [21:28<19:30,  3.17s/it] 46%|███████████████████████████████████████████████████▉                                                             | 313/681 [21:31<18:28,  3.01s/it]                                                                                                                                                        {'loss': 0.7303, 'grad_norm': 24.407838821411133, 'learning_rate': 3.2944785489547537e-07, 'margin_dpo/margin_mean': 23.557071685791016, 'margin_dpo/margin_std': 21.290372848510742, 'logps/chosen': -87.35713195800781, 'logps/rejected': -141.25453186035156, 'logps/ref_chosen': -71.71583557128906, 'logps/ref_rejected': -102.05616760253906, 'logits/chosen': -1.6093132495880127, 'logits/rejected': -1.3407427072525024, 'epoch': 0.46}
 46%|███████████████████████████████████████████████████▉                                                             | 313/681 [21:31<18:28,  3.01s/it] 46%|████████████████████████████████████████████████████                                                             | 314/681 [21:34<18:15,  2.98s/it]                                                                                                                                                        {'loss': 0.6617, 'grad_norm': 26.5968074798584, 'learning_rate': 3.2823001015803857e-07, 'margin_dpo/margin_mean': 12.209226608276367, 'margin_dpo/margin_std': 20.931156158447266, 'logps/chosen': -114.797119140625, 'logps/rejected': -120.34668731689453, 'logps/ref_chosen': -95.0579605102539, 'logps/ref_rejected': -88.39830017089844, 'logits/chosen': -2.9330849647521973, 'logits/rejected': -2.505680561065674, 'epoch': 0.46}
 46%|████████████████████████████████████████████████████                                                             | 314/681 [21:34<18:15,  2.98s/it] 46%|████████████████████████████████████████████████████▎                                                            | 315/681 [21:36<18:05,  2.97s/it]                                                                                                                                                        {'loss': 0.7575, 'grad_norm': 31.087507247924805, 'learning_rate': 3.270101039870797e-07, 'margin_dpo/margin_mean': 10.736818313598633, 'margin_dpo/margin_std': 16.410961151123047, 'logps/chosen': -92.6741943359375, 'logps/rejected': -132.5022735595703, 'logps/ref_chosen': -74.01944732666016, 'logps/ref_rejected': -103.11070251464844, 'logits/chosen': -1.555436134338379, 'logits/rejected': -1.7317938804626465, 'epoch': 0.46}
 46%|████████████████████████████████████████████████████▎                                                            | 315/681 [21:36<18:05,  2.97s/it] 46%|████████████████████████████████████████████████████▍                                                            | 316/681 [21:39<17:54,  2.94s/it]                                                                                                                                                        {'loss': 0.7261, 'grad_norm': 29.95094871520996, 'learning_rate': 3.2578816852826086e-07, 'margin_dpo/margin_mean': 19.432815551757812, 'margin_dpo/margin_std': 16.819963455200195, 'logps/chosen': -93.50067901611328, 'logps/rejected': -161.67385864257812, 'logps/ref_chosen': -73.40036010742188, 'logps/ref_rejected': -122.14073181152344, 'logits/chosen': -1.2038843631744385, 'logits/rejected': -1.3727455139160156, 'epoch': 0.46}
 46%|████████████████████████████████████████████████████▍                                                            | 316/681 [21:39<17:54,  2.94s/it] 47%|████████████████████████████████████████████████████▌                                                            | 317/681 [21:42<17:56,  2.96s/it]                                                                                                                                                        {'loss': 0.3973, 'grad_norm': 18.27977752685547, 'learning_rate': 3.2456423598071783e-07, 'margin_dpo/margin_mean': 22.689420700073242, 'margin_dpo/margin_std': 17.005748748779297, 'logps/chosen': -100.23789978027344, 'logps/rejected': -133.7093505859375, 'logps/ref_chosen': -86.66116333007812, 'logps/ref_rejected': -97.44319915771484, 'logits/chosen': -1.842048168182373, 'logits/rejected': -1.331984281539917, 'epoch': 0.47}
 47%|████████████████████████████████████████████████████▌                                                            | 317/681 [21:42<17:56,  2.96s/it] 47%|████████████████████████████████████████████████████▊                                                            | 318/681 [21:45<17:31,  2.90s/it]                                                                                                                                                        {'loss': 0.5927, 'grad_norm': 23.080183029174805, 'learning_rate': 3.233383385962115e-07, 'margin_dpo/margin_mean': 21.398456573486328, 'margin_dpo/margin_std': 14.620698928833008, 'logps/chosen': -112.71501159667969, 'logps/rejected': -152.46641540527344, 'logps/ref_chosen': -92.22932434082031, 'logps/ref_rejected': -110.58228302001953, 'logits/chosen': -1.1578627824783325, 'logits/rejected': -1.0486600399017334, 'epoch': 0.47}
 47%|████████████████████████████████████████████████████▊                                                            | 318/681 [21:45<17:31,  2.90s/it] 47%|████████████████████████████████████████████████████▉                                                            | 319/681 [21:48<17:45,  2.94s/it]                                                                                                                                                        {'loss': 0.5608, 'grad_norm': 22.706588745117188, 'learning_rate': 3.2211050867827805e-07, 'margin_dpo/margin_mean': 26.50490379333496, 'margin_dpo/margin_std': 21.008556365966797, 'logps/chosen': -91.02305603027344, 'logps/rejected': -138.94976806640625, 'logps/ref_chosen': -83.20411682128906, 'logps/ref_rejected': -104.62593078613281, 'logits/chosen': -1.6589261293411255, 'logits/rejected': -1.2192972898483276, 'epoch': 0.47}
 47%|████████████████████████████████████████████████████▉                                                            | 319/681 [21:48<17:45,  2.94s/it] 47%|█████████████████████████████████████████████████████                                                            | 320/681 [21:51<18:05,  3.01s/it]                                                                                                                                                        {'loss': 0.6134, 'grad_norm': 22.778528213500977, 'learning_rate': 3.208807785813777e-07, 'margin_dpo/margin_mean': 25.384750366210938, 'margin_dpo/margin_std': 24.922496795654297, 'logps/chosen': -111.82926177978516, 'logps/rejected': -140.8082275390625, 'logps/ref_chosen': -99.53569030761719, 'logps/ref_rejected': -103.12991333007812, 'logits/chosen': -2.063751220703125, 'logits/rejected': -1.798086166381836, 'epoch': 0.47}
 47%|█████████████████████████████████████████████████████                                                            | 320/681 [21:51<18:05,  3.01s/it] 47%|█████████████████████████████████████████████████████▎                                                           | 321/681 [21:54<17:45,  2.96s/it]                                                                                                                                                        {'loss': 0.6277, 'grad_norm': 26.070716857910156, 'learning_rate': 3.1964918071004217e-07, 'margin_dpo/margin_mean': 17.466854095458984, 'margin_dpo/margin_std': 16.467836380004883, 'logps/chosen': -100.59760284423828, 'logps/rejected': -134.56689453125, 'logps/ref_chosen': -83.44072723388672, 'logps/ref_rejected': -99.94316864013672, 'logits/chosen': -1.1019395589828491, 'logits/rejected': -0.5719025731086731, 'epoch': 0.47}
 47%|█████████████████████████████████████████████████████▎                                                           | 321/681 [21:54<17:45,  2.96s/it] 47%|█████████████████████████████████████████████████████▍                                                           | 322/681 [21:57<17:45,  2.97s/it]                                                                                                                                                        {'loss': 0.5298, 'grad_norm': 22.629993438720703, 'learning_rate': 3.184157475180207e-07, 'margin_dpo/margin_mean': 24.057796478271484, 'margin_dpo/margin_std': 24.209617614746094, 'logps/chosen': -85.35063171386719, 'logps/rejected': -134.5431365966797, 'logps/ref_chosen': -69.8001708984375, 'logps/ref_rejected': -94.93486785888672, 'logits/chosen': -1.4932529926300049, 'logits/rejected': -1.3814778327941895, 'epoch': 0.47}
 47%|█████████████████████████████████████████████████████▍                                                           | 322/681 [21:57<17:45,  2.97s/it] 47%|█████████████████████████████████████████████████████▌                                                           | 323/681 [22:00<17:59,  3.02s/it]                                                                                                                                                        {'loss': 0.5091, 'grad_norm': 22.0151309967041, 'learning_rate': 3.171805115074251e-07, 'margin_dpo/margin_mean': 20.19168472290039, 'margin_dpo/margin_std': 17.731565475463867, 'logps/chosen': -100.01136779785156, 'logps/rejected': -132.82888793945312, 'logps/ref_chosen': -81.24457550048828, 'logps/ref_rejected': -93.87039184570312, 'logits/chosen': -1.6108890771865845, 'logits/rejected': -1.4497694969177246, 'epoch': 0.47}
 47%|█████████████████████████████████████████████████████▌                                                           | 323/681 [22:00<17:59,  3.02s/it] 48%|█████████████████████████████████████████████████████▊                                                           | 324/681 [22:03<17:34,  2.95s/it]                                                                                                                                                        {'loss': 0.4935, 'grad_norm': 27.344818115234375, 'learning_rate': 3.1594350522787295e-07, 'margin_dpo/margin_mean': 24.36892318725586, 'margin_dpo/margin_std': 20.603160858154297, 'logps/chosen': -109.41104888916016, 'logps/rejected': -160.6354217529297, 'logps/ref_chosen': -87.28364562988281, 'logps/ref_rejected': -114.13909912109375, 'logits/chosen': -1.890838861465454, 'logits/rejected': -1.4299018383026123, 'epoch': 0.48}
 48%|█████████████████████████████████████████████████████▊                                                           | 324/681 [22:03<17:34,  2.95s/it] 48%|█████████████████████████████████████████████████████▉                                                           | 325/681 [22:06<17:49,  3.00s/it]                                                                                                                                                        {'loss': 0.6151, 'grad_norm': 24.975282669067383, 'learning_rate': 3.147047612756302e-07, 'margin_dpo/margin_mean': 13.618009567260742, 'margin_dpo/margin_std': 16.28986167907715, 'logps/chosen': -103.07582092285156, 'logps/rejected': -89.58515930175781, 'logps/ref_chosen': -85.93971252441406, 'logps/ref_rejected': -58.83104705810547, 'logits/chosen': -1.4415394067764282, 'logits/rejected': -0.7071768045425415, 'epoch': 0.48}
 48%|█████████████████████████████████████████████████████▉                                                           | 325/681 [22:06<17:49,  3.00s/it] 48%|██████████████████████████████████████████████████████                                                           | 326/681 [22:09<17:39,  2.98s/it]                                                                                                                                                        {'loss': 0.5897, 'grad_norm': 25.001813888549805, 'learning_rate': 3.134643122927519e-07, 'margin_dpo/margin_mean': 14.774612426757812, 'margin_dpo/margin_std': 20.738540649414062, 'logps/chosen': -126.6056137084961, 'logps/rejected': -129.34811401367188, 'logps/ref_chosen': -100.74868774414062, 'logps/ref_rejected': -88.71658325195312, 'logits/chosen': -2.0634007453918457, 'logits/rejected': -1.2772150039672852, 'epoch': 0.48}
 48%|██████████████████████████████████████████████████████                                                           | 326/681 [22:09<17:39,  2.98s/it] 48%|██████████████████████████████████████████████████████▎                                                          | 327/681 [22:12<17:47,  3.02s/it]                                                                                                                                                        {'loss': 0.5539, 'grad_norm': 25.678897857666016, 'learning_rate': 3.1222219096622264e-07, 'margin_dpo/margin_mean': 24.862689971923828, 'margin_dpo/margin_std': 22.165292739868164, 'logps/chosen': -141.49176025390625, 'logps/rejected': -202.36465454101562, 'logps/ref_chosen': -126.36719512939453, 'logps/ref_rejected': -162.37741088867188, 'logits/chosen': -2.5522360801696777, 'logits/rejected': -2.076728343963623, 'epoch': 0.48}
 48%|██████████████████████████████████████████████████████▎                                                          | 327/681 [22:12<17:47,  3.02s/it] 48%|██████████████████████████████████████████████████████▍                                                          | 328/681 [22:15<17:54,  3.04s/it]                                                                                                                                                        {'loss': 0.5706, 'grad_norm': 21.912940979003906, 'learning_rate': 3.1097843002709427e-07, 'margin_dpo/margin_mean': 20.5219783782959, 'margin_dpo/margin_std': 11.165393829345703, 'logps/chosen': -123.70916748046875, 'logps/rejected': -138.63572692871094, 'logps/ref_chosen': -99.27432250976562, 'logps/ref_rejected': -93.67889404296875, 'logits/chosen': -1.0913561582565308, 'logits/rejected': -0.890350878238678, 'epoch': 0.48}
 48%|██████████████████████████████████████████████████████▍                                                          | 328/681 [22:15<17:54,  3.04s/it] 48%|██████████████████████████████████████████████████████▌                                                          | 329/681 [22:18<17:27,  2.98s/it]                                                                                                                                                        {'loss': 0.5589, 'grad_norm': 25.703792572021484, 'learning_rate': 3.0973306224962437e-07, 'margin_dpo/margin_mean': 28.24266815185547, 'margin_dpo/margin_std': 21.547605514526367, 'logps/chosen': -120.62757873535156, 'logps/rejected': -179.14102172851562, 'logps/ref_chosen': -102.76374816894531, 'logps/ref_rejected': -133.03453063964844, 'logits/chosen': -1.7976303100585938, 'logits/rejected': -1.4397552013397217, 'epoch': 0.48}
 48%|██████████████████████████████████████████████████████▌                                                          | 329/681 [22:18<17:27,  2.98s/it] 48%|██████████████████████████████████████████████████████▊                                                          | 330/681 [22:21<17:14,  2.95s/it]                                                                                                                                                        {'loss': 0.4912, 'grad_norm': 20.2358341217041, 'learning_rate': 3.084861204504122e-07, 'margin_dpo/margin_mean': 19.34650230407715, 'margin_dpo/margin_std': 12.476625442504883, 'logps/chosen': -76.36822509765625, 'logps/rejected': -127.02072143554688, 'logps/ref_chosen': -58.246788024902344, 'logps/ref_rejected': -89.55278778076172, 'logits/chosen': -0.47298264503479004, 'logits/rejected': -0.4694516658782959, 'epoch': 0.48}
 48%|██████████████████████████████████████████████████████▊                                                          | 330/681 [22:21<17:14,  2.95s/it] 49%|██████████████████████████████████████████████████████▉                                                          | 331/681 [22:24<17:15,  2.96s/it]                                                                                                                                                        {'loss': 0.5371, 'grad_norm': 26.306129455566406, 'learning_rate': 3.072376374875335e-07, 'margin_dpo/margin_mean': 20.578968048095703, 'margin_dpo/margin_std': 19.465991973876953, 'logps/chosen': -116.8527603149414, 'logps/rejected': -161.8951416015625, 'logps/ref_chosen': -99.19812774658203, 'logps/ref_rejected': -123.66153717041016, 'logits/chosen': -1.67173433303833, 'logits/rejected': -1.6575570106506348, 'epoch': 0.49}
 49%|██████████████████████████████████████████████████████▉                                                          | 331/681 [22:24<17:15,  2.96s/it] 49%|███████████████████████████████████████████████████████                                                          | 332/681 [22:27<16:53,  2.90s/it]                                                                                                                                                        {'loss': 0.7089, 'grad_norm': 28.853147506713867, 'learning_rate': 3.059876462596758e-07, 'margin_dpo/margin_mean': 16.849950790405273, 'margin_dpo/margin_std': 17.792329788208008, 'logps/chosen': -115.20259094238281, 'logps/rejected': -141.555908203125, 'logps/ref_chosen': -95.0144271850586, 'logps/ref_rejected': -104.51777648925781, 'logits/chosen': -2.5498337745666504, 'logits/rejected': -2.2815890312194824, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████                                                          | 332/681 [22:27<16:53,  2.90s/it] 49%|███████████████████████████████████████████████████████▎                                                         | 333/681 [22:29<16:29,  2.84s/it]                                                                                                                                                        {'loss': 0.775, 'grad_norm': 38.133628845214844, 'learning_rate': 3.0473617970527015e-07, 'margin_dpo/margin_mean': 19.08936882019043, 'margin_dpo/margin_std': 22.122257232666016, 'logps/chosen': -121.86878967285156, 'logps/rejected': -173.7686767578125, 'logps/ref_chosen': -104.35073852539062, 'logps/ref_rejected': -137.1612548828125, 'logits/chosen': -1.7919915914535522, 'logits/rejected': -1.5668425559997559, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████▎                                                         | 333/681 [22:30<16:29,  2.84s/it] 49%|███████████████████████████████████████████████████████▍                                                         | 334/681 [22:32<16:28,  2.85s/it]                                                                                                                                                        {'loss': 0.6262, 'grad_norm': 28.414897918701172, 'learning_rate': 3.034832708016243e-07, 'margin_dpo/margin_mean': 13.91687297821045, 'margin_dpo/margin_std': 11.275923728942871, 'logps/chosen': -118.73043823242188, 'logps/rejected': -125.26659393310547, 'logps/ref_chosen': -94.99000549316406, 'logps/ref_rejected': -87.60928344726562, 'logits/chosen': -0.8065652847290039, 'logits/rejected': -0.567101776599884, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████▍                                                         | 334/681 [22:32<16:28,  2.85s/it] 49%|███████████████████████████████████████████████████████▌                                                         | 335/681 [22:35<16:28,  2.86s/it]                                                                                                                                                        {'loss': 0.713, 'grad_norm': 33.4683723449707, 'learning_rate': 3.022289525640531e-07, 'margin_dpo/margin_mean': 13.393115043640137, 'margin_dpo/margin_std': 18.032217025756836, 'logps/chosen': -119.54246520996094, 'logps/rejected': -119.07872772216797, 'logps/ref_chosen': -98.11556243896484, 'logps/ref_rejected': -84.25871276855469, 'logits/chosen': -2.3394131660461426, 'logits/rejected': -1.6820380687713623, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████▌                                                         | 335/681 [22:35<16:28,  2.86s/it] 49%|███████████████████████████████████████████████████████▊                                                         | 336/681 [22:38<16:47,  2.92s/it]                                                                                                                                                        {'loss': 0.609, 'grad_norm': 30.077716827392578, 'learning_rate': 3.009732580450086e-07, 'margin_dpo/margin_mean': 16.328933715820312, 'margin_dpo/margin_std': 28.889495849609375, 'logps/chosen': -97.50780487060547, 'logps/rejected': -183.529296875, 'logps/ref_chosen': -72.66284942626953, 'logps/ref_rejected': -142.35540771484375, 'logits/chosen': -0.7926295399665833, 'logits/rejected': -1.3332951068878174, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████▊                                                         | 336/681 [22:38<16:47,  2.92s/it] 49%|███████████████████████████████████████████████████████▉                                                         | 337/681 [22:41<16:14,  2.83s/it]                                                                                                                                                        {'loss': 0.5855, 'grad_norm': 29.502315521240234, 'learning_rate': 2.9971622033320914e-07, 'margin_dpo/margin_mean': 25.84613800048828, 'margin_dpo/margin_std': 15.690153121948242, 'logps/chosen': -116.11346435546875, 'logps/rejected': -176.83990478515625, 'logps/ref_chosen': -102.47871398925781, 'logps/ref_rejected': -137.35902404785156, 'logits/chosen': -2.5418286323547363, 'logits/rejected': -2.190610408782959, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████▉                                                         | 337/681 [22:41<16:14,  2.83s/it] 50%|████████████████████████████████████████████████████████                                                         | 338/681 [22:44<16:19,  2.85s/it]                                                                                                                                                        {'loss': 0.6668, 'grad_norm': 44.26433181762695, 'learning_rate': 2.984578725527675e-07, 'margin_dpo/margin_mean': 18.641632080078125, 'margin_dpo/margin_std': 16.844388961791992, 'logps/chosen': -147.07164001464844, 'logps/rejected': -133.6391143798828, 'logps/ref_chosen': -126.42916870117188, 'logps/ref_rejected': -94.35499572753906, 'logits/chosen': -1.9211044311523438, 'logits/rejected': -1.28424870967865, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████                                                         | 338/681 [22:44<16:19,  2.85s/it] 50%|████████████████████████████████████████████████████████▎                                                        | 339/681 [22:47<15:58,  2.80s/it]                                                                                                                                                        {'loss': 0.6793, 'grad_norm': 28.031339645385742, 'learning_rate': 2.9719824786231796e-07, 'margin_dpo/margin_mean': 19.122737884521484, 'margin_dpo/margin_std': 22.091293334960938, 'logps/chosen': -147.836181640625, 'logps/rejected': -132.89358520507812, 'logps/ref_chosen': -126.5898666381836, 'logps/ref_rejected': -92.5245361328125, 'logits/chosen': -2.1791956424713135, 'logits/rejected': -1.4663095474243164, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████▎                                                        | 339/681 [22:47<15:58,  2.80s/it] 50%|████████████████████████████████████████████████████████▍                                                        | 340/681 [22:49<16:07,  2.84s/it]                                                                                                                                                        {'loss': 0.6644, 'grad_norm': 27.09212303161621, 'learning_rate': 2.959373794541426e-07, 'margin_dpo/margin_mean': 23.172176361083984, 'margin_dpo/margin_std': 19.083019256591797, 'logps/chosen': -87.25447082519531, 'logps/rejected': -120.7593994140625, 'logps/ref_chosen': -70.93193054199219, 'logps/ref_rejected': -81.2646713256836, 'logits/chosen': -0.1419842392206192, 'logits/rejected': 0.0009096264839172363, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████▍                                                        | 340/681 [22:49<16:07,  2.84s/it] 50%|████████████████████████████████████████████████████████▌                                                        | 341/681 [22:52<15:39,  2.76s/it]                                                                                                                                                        {'loss': 0.5355, 'grad_norm': 27.434301376342773, 'learning_rate': 2.946753005532965e-07, 'margin_dpo/margin_mean': 16.322650909423828, 'margin_dpo/margin_std': 16.00281524658203, 'logps/chosen': -103.8822250366211, 'logps/rejected': -160.45858764648438, 'logps/ref_chosen': -78.36085510253906, 'logps/ref_rejected': -118.61456298828125, 'logits/chosen': -0.9750526547431946, 'logits/rejected': -0.7655836939811707, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████▌                                                        | 341/681 [22:52<15:39,  2.76s/it] 50%|████████████████████████████████████████████████████████▋                                                        | 342/681 [22:55<16:02,  2.84s/it]                                                                                                                                                        {'loss': 0.403, 'grad_norm': 24.300811767578125, 'learning_rate': 2.934120444167326e-07, 'margin_dpo/margin_mean': 27.673545837402344, 'margin_dpo/margin_std': 10.69522476196289, 'logps/chosen': -105.76786041259766, 'logps/rejected': -133.51319885253906, 'logps/ref_chosen': -92.65184020996094, 'logps/ref_rejected': -92.7236328125, 'logits/chosen': -1.5221643447875977, 'logits/rejected': -0.7222243547439575, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████▋                                                        | 342/681 [22:55<16:02,  2.84s/it] 50%|████████████████████████████████████████████████████████▉                                                        | 343/681 [22:58<16:02,  2.85s/it]                                                                                                                                                        {'loss': 0.4424, 'grad_norm': 22.844953536987305, 'learning_rate': 2.9214764433242476e-07, 'margin_dpo/margin_mean': 19.131895065307617, 'margin_dpo/margin_std': 12.232367515563965, 'logps/chosen': -94.59676361083984, 'logps/rejected': -157.5832061767578, 'logps/ref_chosen': -78.70704650878906, 'logps/ref_rejected': -122.56159973144531, 'logits/chosen': -1.7190932035446167, 'logits/rejected': -1.3597054481506348, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████▉                                                        | 343/681 [22:58<16:02,  2.85s/it] 51%|█████████████████████████████████████████████████████████                                                        | 344/681 [23:01<16:00,  2.85s/it]                                                                                                                                                        {'loss': 0.5859, 'grad_norm': 23.992372512817383, 'learning_rate': 2.9088213361849126e-07, 'margin_dpo/margin_mean': 14.911701202392578, 'margin_dpo/margin_std': 15.901741027832031, 'logps/chosen': -86.93094635009766, 'logps/rejected': -116.30023956298828, 'logps/ref_chosen': -64.14713287353516, 'logps/ref_rejected': -78.60472869873047, 'logits/chosen': -1.884738564491272, 'logits/rejected': -1.7378039360046387, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████                                                        | 344/681 [23:01<16:00,  2.85s/it] 51%|█████████████████████████████████████████████████████████▏                                                       | 345/681 [23:04<16:16,  2.91s/it]                                                                                                                                                        {'loss': 0.6241, 'grad_norm': 26.966333389282227, 'learning_rate': 2.896155456223163e-07, 'margin_dpo/margin_mean': 25.88603401184082, 'margin_dpo/margin_std': 24.11634063720703, 'logps/chosen': -116.005615234375, 'logps/rejected': -142.3053436279297, 'logps/ref_chosen': -102.19354248046875, 'logps/ref_rejected': -102.60723876953125, 'logits/chosen': -1.378301978111267, 'logits/rejected': -0.9885662794113159, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████▏                                                       | 345/681 [23:04<16:16,  2.91s/it] 51%|█████████████████████████████████████████████████████████▍                                                       | 346/681 [23:07<16:13,  2.91s/it]                                                                                                                                                        {'loss': 0.7975, 'grad_norm': 32.335750579833984, 'learning_rate': 2.883479137196714e-07, 'margin_dpo/margin_mean': 29.221481323242188, 'margin_dpo/margin_std': 17.735727310180664, 'logps/chosen': -98.60110473632812, 'logps/rejected': -150.30313110351562, 'logps/ref_chosen': -79.09950256347656, 'logps/ref_rejected': -101.58006286621094, 'logits/chosen': -1.7958707809448242, 'logits/rejected': -1.4464631080627441, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████▍                                                       | 346/681 [23:07<16:13,  2.91s/it] 51%|█████████████████████████████████████████████████████████▌                                                       | 347/681 [23:09<15:26,  2.77s/it]                                                                                                                                                        {'loss': 0.7834, 'grad_norm': 29.275190353393555, 'learning_rate': 2.8707927131383614e-07, 'margin_dpo/margin_mean': 10.639400482177734, 'margin_dpo/margin_std': 14.018272399902344, 'logps/chosen': -136.42025756835938, 'logps/rejected': -124.45526123046875, 'logps/ref_chosen': -105.7974624633789, 'logps/ref_rejected': -83.19305419921875, 'logits/chosen': -1.1242921352386475, 'logits/rejected': -0.6852156519889832, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████▌                                                       | 347/681 [23:09<15:26,  2.77s/it] 51%|█████████████████████████████████████████████████████████▋                                                       | 348/681 [23:12<15:08,  2.73s/it]                                                                                                                                                        {'loss': 0.7554, 'grad_norm': 26.918550491333008, 'learning_rate': 2.858096518347179e-07, 'margin_dpo/margin_mean': 15.860109329223633, 'margin_dpo/margin_std': 15.913261413574219, 'logps/chosen': -101.09654235839844, 'logps/rejected': -151.6328887939453, 'logps/ref_chosen': -80.95931243896484, 'logps/ref_rejected': -115.63554382324219, 'logits/chosen': -1.8148624897003174, 'logits/rejected': -1.8900196552276611, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████▋                                                       | 348/681 [23:12<15:08,  2.73s/it] 51%|█████████████████████████████████████████████████████████▉                                                       | 349/681 [23:15<15:29,  2.80s/it]                                                                                                                                                        {'loss': 0.7118, 'grad_norm': 28.12725830078125, 'learning_rate': 2.845390887379706e-07, 'margin_dpo/margin_mean': 16.676326751708984, 'margin_dpo/margin_std': 14.525110244750977, 'logps/chosen': -90.99738311767578, 'logps/rejected': -144.37217712402344, 'logps/ref_chosen': -69.36511993408203, 'logps/ref_rejected': -106.0635986328125, 'logits/chosen': -2.0488414764404297, 'logits/rejected': -2.1182613372802734, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████▉                                                       | 349/681 [23:15<15:29,  2.80s/it] 51%|██████████████████████████████████████████████████████████                                                       | 350/681 [23:18<15:44,  2.85s/it]                                                                                                                                                        {'loss': 0.6349, 'grad_norm': 30.817626953125, 'learning_rate': 2.8326761550411346e-07, 'margin_dpo/margin_mean': 14.514402389526367, 'margin_dpo/margin_std': 12.599069595336914, 'logps/chosen': -100.7199478149414, 'logps/rejected': -141.65151977539062, 'logps/ref_chosen': -76.78309631347656, 'logps/ref_rejected': -103.20025634765625, 'logits/chosen': -1.3303940296173096, 'logits/rejected': -1.4277385473251343, 'epoch': 0.51}
 51%|██████████████████████████████████████████████████████████                                                       | 350/681 [23:18<15:44,  2.85s/it] 52%|██████████████████████████████████████████████████████████▏                                                      | 351/681 [23:21<16:13,  2.95s/it]                                                                                                                                                        {'loss': 0.5494, 'grad_norm': 27.94927978515625, 'learning_rate': 2.819952656376487e-07, 'margin_dpo/margin_mean': 29.840824127197266, 'margin_dpo/margin_std': 14.69981575012207, 'logps/chosen': -92.46343994140625, 'logps/rejected': -177.54989624023438, 'logps/ref_chosen': -72.96452331542969, 'logps/ref_rejected': -128.21014404296875, 'logits/chosen': -1.4203786849975586, 'logits/rejected': -1.2766168117523193, 'epoch': 0.52}
 52%|██████████████████████████████████████████████████████████▏                                                      | 351/681 [23:21<16:13,  2.95s/it] 52%|██████████████████████████████████████████████████████████▍                                                      | 352/681 [23:24<16:11,  2.95s/it]                                                                                                                                                        {'loss': 0.6142, 'grad_norm': 31.514175415039062, 'learning_rate': 2.8072207266617854e-07, 'margin_dpo/margin_mean': 18.059606552124023, 'margin_dpo/margin_std': 18.000804901123047, 'logps/chosen': -121.56500244140625, 'logps/rejected': -120.27680969238281, 'logps/ref_chosen': -104.49222564697266, 'logps/ref_rejected': -85.14442443847656, 'logits/chosen': -1.9766767024993896, 'logits/rejected': -1.4314018487930298, 'epoch': 0.52}
 52%|██████████████████████████████████████████████████████████▍                                                      | 352/681 [23:24<16:11,  2.95s/it] 52%|██████████████████████████████████████████████████████████▌                                                      | 353/681 [23:27<16:01,  2.93s/it]                                                                                                                                                        {'loss': 0.8245, 'grad_norm': 29.008338928222656, 'learning_rate': 2.794480701395219e-07, 'margin_dpo/margin_mean': 18.566078186035156, 'margin_dpo/margin_std': 16.642459869384766, 'logps/chosen': -96.08810424804688, 'logps/rejected': -126.6584701538086, 'logps/ref_chosen': -76.10050964355469, 'logps/ref_rejected': -88.10479736328125, 'logits/chosen': -1.7322311401367188, 'logits/rejected': -1.5322282314300537, 'epoch': 0.52}
 52%|██████████████████████████████████████████████████████████▌                                                      | 353/681 [23:27<16:01,  2.93s/it] 52%|██████████████████████████████████████████████████████████▋                                                      | 354/681 [23:30<16:23,  3.01s/it]                                                                                                                                                        {'loss': 0.4702, 'grad_norm': 21.19467544555664, 'learning_rate': 2.781732916288303e-07, 'margin_dpo/margin_mean': 24.412607192993164, 'margin_dpo/margin_std': 19.174697875976562, 'logps/chosen': -115.57217407226562, 'logps/rejected': -167.45452880859375, 'logps/ref_chosen': -98.41739654541016, 'logps/ref_rejected': -125.88714599609375, 'logits/chosen': -2.125009536743164, 'logits/rejected': -1.8005847930908203, 'epoch': 0.52}
 52%|██████████████████████████████████████████████████████████▋                                                      | 354/681 [23:30<16:23,  3.01s/it] 52%|██████████████████████████████████████████████████████████▉                                                      | 355/681 [23:33<15:51,  2.92s/it]                                                                                                                                                        {'loss': 0.6514, 'grad_norm': 28.40703582763672, 'learning_rate': 2.7689777072570284e-07, 'margin_dpo/margin_mean': 18.369415283203125, 'margin_dpo/margin_std': 22.09329605102539, 'logps/chosen': -107.61503601074219, 'logps/rejected': -158.981689453125, 'logps/ref_chosen': -88.17337036132812, 'logps/ref_rejected': -121.17060852050781, 'logits/chosen': -2.547095775604248, 'logits/rejected': -2.2789859771728516, 'epoch': 0.52}
 52%|██████████████████████████████████████████████████████████▉                                                      | 355/681 [23:33<15:51,  2.92s/it] 52%|███████████████████████████████████████████████████████████                                                      | 356/681 [23:36<16:07,  2.98s/it]                                                                                                                                                        {'loss': 0.8503, 'grad_norm': 45.7209587097168, 'learning_rate': 2.7562154104130176e-07, 'margin_dpo/margin_mean': 20.65822410583496, 'margin_dpo/margin_std': 12.647079467773438, 'logps/chosen': -86.14286804199219, 'logps/rejected': -99.44941711425781, 'logps/ref_chosen': -66.91217041015625, 'logps/ref_rejected': -59.56048583984375, 'logits/chosen': -1.3351719379425049, 'logits/rejected': -0.7877082824707031, 'epoch': 0.52}
 52%|███████████████████████████████████████████████████████████                                                      | 356/681 [23:36<16:07,  2.98s/it] 52%|███████████████████████████████████████████████████████████▏                                                     | 357/681 [23:39<16:12,  3.00s/it]                                                                                                                                                        {'loss': 0.4708, 'grad_norm': 19.310302734375, 'learning_rate': 2.7434463620546594e-07, 'margin_dpo/margin_mean': 24.01534080505371, 'margin_dpo/margin_std': 11.519631385803223, 'logps/chosen': -112.2743911743164, 'logps/rejected': -165.00479125976562, 'logps/ref_chosen': -94.1016616821289, 'logps/ref_rejected': -122.81672668457031, 'logits/chosen': -0.9185234308242798, 'logits/rejected': -0.8068221807479858, 'epoch': 0.52}
 52%|███████████████████████████████████████████████████████████▏                                                     | 357/681 [23:39<16:12,  3.00s/it] 53%|███████████████████████████████████████████████████████████▍                                                     | 358/681 [23:42<16:33,  3.07s/it]                                                                                                                                                        {'loss': 0.6909, 'grad_norm': 27.054889678955078, 'learning_rate': 2.730670898658255e-07, 'margin_dpo/margin_mean': 19.215017318725586, 'margin_dpo/margin_std': 14.75373649597168, 'logps/chosen': -100.44693756103516, 'logps/rejected': -150.18109130859375, 'logps/ref_chosen': -85.93841552734375, 'logps/ref_rejected': -116.45753479003906, 'logits/chosen': -1.6659433841705322, 'logits/rejected': -1.4695067405700684, 'epoch': 0.53}
 53%|███████████████████████████████████████████████████████████▍                                                     | 358/681 [23:42<16:33,  3.07s/it] 53%|███████████████████████████████████████████████████████████▌                                                     | 359/681 [23:45<16:27,  3.07s/it]                                                                                                                                                        {'loss': 0.7865, 'grad_norm': 36.24051284790039, 'learning_rate': 2.717889356869146e-07, 'margin_dpo/margin_mean': 25.24774169921875, 'margin_dpo/margin_std': 27.104656219482422, 'logps/chosen': -134.61293029785156, 'logps/rejected': -135.3282012939453, 'logps/ref_chosen': -117.40083312988281, 'logps/ref_rejected': -92.86836242675781, 'logits/chosen': -2.035553455352783, 'logits/rejected': -0.9625518321990967, 'epoch': 0.53}
 53%|███████████████████████████████████████████████████████████▌                                                     | 359/681 [23:45<16:27,  3.07s/it] 53%|███████████████████████████████████████████████████████████▋                                                     | 360/681 [23:48<16:04,  3.00s/it]                                                                                                                                                        {'loss': 0.6295, 'grad_norm': 21.825654983520508, 'learning_rate': 2.7051020734928443e-07, 'margin_dpo/margin_mean': 21.309030532836914, 'margin_dpo/margin_std': 12.134112358093262, 'logps/chosen': -100.54425048828125, 'logps/rejected': -139.25164794921875, 'logps/ref_chosen': -80.67975616455078, 'logps/ref_rejected': -98.07811737060547, 'logits/chosen': -1.281875729560852, 'logits/rejected': -1.1035716533660889, 'epoch': 0.53}
 53%|███████████████████████████████████████████████████████████▋                                                     | 360/681 [23:48<16:04,  3.00s/it] 53%|███████████████████████████████████████████████████████████▉                                                     | 361/681 [23:51<16:04,  3.01s/it]                                                                                                                                                        {'loss': 0.6894, 'grad_norm': 26.63926887512207, 'learning_rate': 2.6923093854861593e-07, 'margin_dpo/margin_mean': 18.000823974609375, 'margin_dpo/margin_std': 16.170757293701172, 'logps/chosen': -138.5869140625, 'logps/rejected': -145.5262451171875, 'logps/ref_chosen': -114.17556762695312, 'logps/ref_rejected': -103.11407470703125, 'logits/chosen': -1.3344345092773438, 'logits/rejected': -0.6259992718696594, 'epoch': 0.53}
 53%|███████████████████████████████████████████████████████████▉                                                     | 361/681 [23:51<16:04,  3.01s/it] 53%|████████████████████████████████████████████████████████████                                                     | 362/681 [23:54<15:35,  2.93s/it]                                                                                                                                                        {'loss': 0.5894, 'grad_norm': 21.635181427001953, 'learning_rate': 2.679511629948319e-07, 'margin_dpo/margin_mean': 27.018146514892578, 'margin_dpo/margin_std': 23.748802185058594, 'logps/chosen': -103.67679595947266, 'logps/rejected': -168.18685913085938, 'logps/ref_chosen': -78.51634216308594, 'logps/ref_rejected': -116.00825500488281, 'logits/chosen': -1.259399175643921, 'logits/rejected': -0.8324697017669678, 'epoch': 0.53}
 53%|████████████████████████████████████████████████████████████                                                     | 362/681 [23:54<15:35,  2.93s/it] 53%|████████████████████████████████████████████████████████████▏                                                    | 363/681 [23:56<15:00,  2.83s/it]                                                                                                                                                        {'loss': 0.478, 'grad_norm': 20.386882781982422, 'learning_rate': 2.6667091441120816e-07, 'margin_dpo/margin_mean': 27.158180236816406, 'margin_dpo/margin_std': 18.305994033813477, 'logps/chosen': -88.85519409179688, 'logps/rejected': -125.80738830566406, 'logps/ref_chosen': -72.44766235351562, 'logps/ref_rejected': -82.24168395996094, 'logits/chosen': -1.566548466682434, 'logits/rejected': -1.190373182296753, 'epoch': 0.53}
 53%|████████████████████████████████████████████████████████████▏                                                    | 363/681 [23:56<15:00,  2.83s/it] 53%|████████████████████████████████████████████████████████████▍                                                    | 364/681 [23:59<15:08,  2.87s/it]                                                                                                                                                        {'loss': 0.6582, 'grad_norm': 25.959373474121094, 'learning_rate': 2.6539022653348575e-07, 'margin_dpo/margin_mean': 9.471246719360352, 'margin_dpo/margin_std': 12.190715789794922, 'logps/chosen': -97.78792572021484, 'logps/rejected': -141.74819946289062, 'logps/ref_chosen': -66.97681427001953, 'logps/ref_rejected': -101.46582794189453, 'logits/chosen': -1.0531353950500488, 'logits/rejected': -1.0379638671875, 'epoch': 0.53}
 53%|████████████████████████████████████████████████████████████▍                                                    | 364/681 [23:59<15:08,  2.87s/it] 54%|████████████████████████████████████████████████████████████▌                                                    | 365/681 [24:02<15:05,  2.86s/it]                                                                                                                                                        {'loss': 0.613, 'grad_norm': 28.187889099121094, 'learning_rate': 2.641091331089811e-07, 'margin_dpo/margin_mean': 14.00932502746582, 'margin_dpo/margin_std': 14.058714866638184, 'logps/chosen': -98.81290435791016, 'logps/rejected': -107.04369354248047, 'logps/ref_chosen': -79.72026824951172, 'logps/ref_rejected': -73.94172668457031, 'logits/chosen': -1.330674171447754, 'logits/rejected': -1.0664875507354736, 'epoch': 0.54}
 54%|████████████████████████████████████████████████████████████▌                                                    | 365/681 [24:02<15:05,  2.86s/it] 54%|████████████████████████████████████████████████████████████▋                                                    | 366/681 [24:05<15:08,  2.88s/it]                                                                                                                                                        {'loss': 0.5628, 'grad_norm': 19.849567413330078, 'learning_rate': 2.6282766789569736e-07, 'margin_dpo/margin_mean': 21.407752990722656, 'margin_dpo/margin_std': 21.69418716430664, 'logps/chosen': -85.14801788330078, 'logps/rejected': -93.41067504882812, 'logps/ref_chosen': -62.00611877441406, 'logps/ref_rejected': -48.86102294921875, 'logits/chosen': -1.6187386512756348, 'logits/rejected': -1.2361469268798828, 'epoch': 0.54}
 54%|████████████████████████████████████████████████████████████▋                                                    | 366/681 [24:05<15:08,  2.88s/it] 54%|████████████████████████████████████████████████████████████▉                                                    | 367/681 [24:08<15:21,  2.93s/it]                                                                                                                                                        {'loss': 0.5367, 'grad_norm': 22.108535766601562, 'learning_rate': 2.615458646614349e-07, 'margin_dpo/margin_mean': 26.05239486694336, 'margin_dpo/margin_std': 20.65791893005371, 'logps/chosen': -101.93498229980469, 'logps/rejected': -118.94590759277344, 'logps/ref_chosen': -86.56153106689453, 'logps/ref_rejected': -77.52005004882812, 'logits/chosen': -0.6758745908737183, 'logits/rejected': -0.37606683373451233, 'epoch': 0.54}
 54%|████████████████████████████████████████████████████████████▉                                                    | 367/681 [24:08<15:21,  2.93s/it] 54%|█████████████████████████████████████████████████████████████                                                    | 368/681 [24:11<15:21,  2.94s/it]                                                                                                                                                        {'loss': 0.5946, 'grad_norm': 29.902986526489258, 'learning_rate': 2.6026375718290083e-07, 'margin_dpo/margin_mean': 15.938491821289062, 'margin_dpo/margin_std': 15.870492935180664, 'logps/chosen': -86.03678894042969, 'logps/rejected': -140.60546875, 'logps/ref_chosen': -58.072303771972656, 'logps/ref_rejected': -96.70249938964844, 'logits/chosen': -1.2811745405197144, 'logits/rejected': -1.2634276151657104, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████████████████                                                    | 368/681 [24:11<15:21,  2.94s/it] 54%|█████████████████████████████████████████████████████████████▏                                                   | 369/681 [24:14<15:27,  2.97s/it]                                                                                                                                                        {'loss': 0.4996, 'grad_norm': 21.808292388916016, 'learning_rate': 2.589813792448196e-07, 'margin_dpo/margin_mean': 15.168315887451172, 'margin_dpo/margin_std': 13.686176300048828, 'logps/chosen': -99.77658081054688, 'logps/rejected': -124.5665054321289, 'logps/ref_chosen': -77.49612426757812, 'logps/ref_rejected': -87.11772918701172, 'logits/chosen': -1.0705976486206055, 'logits/rejected': -0.9087299704551697, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████████████████▏                                                   | 369/681 [24:14<15:27,  2.97s/it] 54%|█████████████████████████████████████████████████████████████▍                                                   | 370/681 [24:17<15:46,  3.04s/it]                                                                                                                                                        {'loss': 0.7399, 'grad_norm': 28.55755615234375, 'learning_rate': 2.5769876463904263e-07, 'margin_dpo/margin_mean': 19.639469146728516, 'margin_dpo/margin_std': 16.816953659057617, 'logps/chosen': -103.64090728759766, 'logps/rejected': -201.64453125, 'logps/ref_chosen': -79.18736267089844, 'logps/ref_rejected': -157.551513671875, 'logits/chosen': -1.4109325408935547, 'logits/rejected': -1.645174503326416, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████████████████▍                                                   | 370/681 [24:17<15:46,  3.04s/it] 54%|█████████████████████████████████████████████████████████████▌                                                   | 371/681 [24:20<15:43,  3.04s/it]                                                                                                                                                        {'loss': 0.9139, 'grad_norm': 38.25402069091797, 'learning_rate': 2.5641594716365744e-07, 'margin_dpo/margin_mean': 19.98282241821289, 'margin_dpo/margin_std': 20.218643188476562, 'logps/chosen': -119.37736511230469, 'logps/rejected': -138.38714599609375, 'logps/ref_chosen': -96.76188659667969, 'logps/ref_rejected': -95.78884887695312, 'logits/chosen': -1.212741494178772, 'logits/rejected': -0.6730820536613464, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████████████████▌                                                   | 371/681 [24:20<15:43,  3.04s/it] 55%|█████████████████████████████████████████████████████████████▋                                                   | 372/681 [24:23<15:08,  2.94s/it]                                                                                                                                                        {'loss': 0.4188, 'grad_norm': 19.106494903564453, 'learning_rate': 2.551329606220976e-07, 'margin_dpo/margin_mean': 26.756494522094727, 'margin_dpo/margin_std': 18.634157180786133, 'logps/chosen': -131.57382202148438, 'logps/rejected': -142.3041229248047, 'logps/ref_chosen': -111.48440551757812, 'logps/ref_rejected': -95.45821380615234, 'logits/chosen': -0.8598968982696533, 'logits/rejected': -0.258903443813324, 'epoch': 0.55}
 55%|█████████████████████████████████████████████████████████████▋                                                   | 372/681 [24:23<15:08,  2.94s/it] 55%|█████████████████████████████████████████████████████████████▉                                                   | 373/681 [24:26<14:55,  2.91s/it]                                                                                                                                                        {'loss': 0.5844, 'grad_norm': 25.07010841369629, 'learning_rate': 2.538498388222517e-07, 'margin_dpo/margin_mean': 16.87152862548828, 'margin_dpo/margin_std': 10.439271926879883, 'logps/chosen': -89.15904235839844, 'logps/rejected': -111.32271575927734, 'logps/ref_chosen': -69.03050994873047, 'logps/ref_rejected': -74.32266235351562, 'logits/chosen': -2.0610454082489014, 'logits/rejected': -1.9063310623168945, 'epoch': 0.55}
 55%|█████████████████████████████████████████████████████████████▉                                                   | 373/681 [24:26<14:55,  2.91s/it] 55%|██████████████████████████████████████████████████████████████                                                   | 374/681 [24:29<15:31,  3.03s/it]                                                                                                                                                        {'loss': 0.5226, 'grad_norm': 19.004375457763672, 'learning_rate': 2.525666155755725e-07, 'margin_dpo/margin_mean': 18.416109085083008, 'margin_dpo/margin_std': 15.674093246459961, 'logps/chosen': -123.97227478027344, 'logps/rejected': -160.615966796875, 'logps/ref_chosen': -103.24068450927734, 'logps/ref_rejected': -121.46826171875, 'logits/chosen': -1.6338618993759155, 'logits/rejected': -1.5218095779418945, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████████████████                                                   | 374/681 [24:29<15:31,  3.03s/it] 55%|██████████████████████████████████████████████████████████████▏                                                  | 375/681 [24:32<15:25,  3.03s/it]                                                                                                                                                        {'loss': 0.5928, 'grad_norm': 24.541839599609375, 'learning_rate': 2.512833246961859e-07, 'margin_dpo/margin_mean': 20.738773345947266, 'margin_dpo/margin_std': 17.845693588256836, 'logps/chosen': -100.64812469482422, 'logps/rejected': -141.93963623046875, 'logps/ref_chosen': -76.98648071289062, 'logps/ref_rejected': -97.53923034667969, 'logits/chosen': -1.3103591203689575, 'logits/rejected': -1.2791717052459717, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████████████████▏                                                  | 375/681 [24:32<15:25,  3.03s/it] 55%|██████████████████████████████████████████████████████████████▍                                                  | 376/681 [24:35<15:28,  3.04s/it]                                                                                                                                                        {'loss': 0.5365, 'grad_norm': 23.439132690429688, 'learning_rate': 2.5e-07, 'margin_dpo/margin_mean': 18.85333824157715, 'margin_dpo/margin_std': 18.811431884765625, 'logps/chosen': -106.30282592773438, 'logps/rejected': -135.3538818359375, 'logps/ref_chosen': -87.6530990600586, 'logps/ref_rejected': -97.850830078125, 'logits/chosen': -1.1369824409484863, 'logits/rejected': -0.7745121717453003, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████████████████▍                                                  | 376/681 [24:35<15:28,  3.04s/it] 55%|██████████████████████████████████████████████████████████████▌                                                  | 377/681 [24:38<15:16,  3.01s/it]                                                                                                                                                        {'loss': 0.5251, 'grad_norm': 32.66826248168945, 'learning_rate': 2.487166753038141e-07, 'margin_dpo/margin_mean': 32.552860260009766, 'margin_dpo/margin_std': 22.107181549072266, 'logps/chosen': -103.64756774902344, 'logps/rejected': -158.5746307373047, 'logps/ref_chosen': -83.87545776367188, 'logps/ref_rejected': -106.24966430664062, 'logits/chosen': -1.4077603816986084, 'logits/rejected': -0.6672318577766418, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████████████████▌                                                  | 377/681 [24:38<15:16,  3.01s/it] 56%|██████████████████████████████████████████████████████████████▋                                                  | 378/681 [24:41<14:21,  2.84s/it]                                                                                                                                                        {'loss': 0.5627, 'grad_norm': 25.195751190185547, 'learning_rate': 2.4743338442442754e-07, 'margin_dpo/margin_mean': 23.478015899658203, 'margin_dpo/margin_std': 15.552407264709473, 'logps/chosen': -117.63298034667969, 'logps/rejected': -163.1724853515625, 'logps/ref_chosen': -100.02596282958984, 'logps/ref_rejected': -122.08744812011719, 'logits/chosen': -1.722794771194458, 'logits/rejected': -1.249429702758789, 'epoch': 0.56}
 56%|██████████████████████████████████████████████████████████████▋                                                  | 378/681 [24:41<14:21,  2.84s/it] 56%|██████████████████████████████████████████████████████████████▉                                                  | 379/681 [24:44<14:13,  2.82s/it]                                                                                                                                                        {'loss': 0.7004, 'grad_norm': 28.934782028198242, 'learning_rate': 2.461501611777483e-07, 'margin_dpo/margin_mean': 23.883481979370117, 'margin_dpo/margin_std': 22.75574493408203, 'logps/chosen': -139.7799072265625, 'logps/rejected': -178.27560424804688, 'logps/ref_chosen': -117.1336669921875, 'logps/ref_rejected': -131.74588012695312, 'logits/chosen': -2.1368558406829834, 'logits/rejected': -1.744170904159546, 'epoch': 0.56}
 56%|██████████████████████████████████████████████████████████████▉                                                  | 379/681 [24:44<14:13,  2.82s/it] 56%|███████████████████████████████████████████████████████████████                                                  | 380/681 [24:46<13:55,  2.78s/it]                                                                                                                                                        {'loss': 0.6989, 'grad_norm': 28.92926025390625, 'learning_rate': 2.4486703937790243e-07, 'margin_dpo/margin_mean': 26.17973518371582, 'margin_dpo/margin_std': 24.212230682373047, 'logps/chosen': -103.89430236816406, 'logps/rejected': -149.7965087890625, 'logps/ref_chosen': -83.37449645996094, 'logps/ref_rejected': -103.0969467163086, 'logits/chosen': -1.6153287887573242, 'logits/rejected': -1.1990188360214233, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████████████████                                                  | 380/681 [24:46<13:55,  2.78s/it] 56%|███████████████████████████████████████████████████████████████▏                                                 | 381/681 [24:49<14:00,  2.80s/it]                                                                                                                                                        {'loss': 0.7262, 'grad_norm': 32.6840705871582, 'learning_rate': 2.435840528363426e-07, 'margin_dpo/margin_mean': 27.503414154052734, 'margin_dpo/margin_std': 16.12104034423828, 'logps/chosen': -108.6231918334961, 'logps/rejected': -155.37216186523438, 'logps/ref_chosen': -94.2698745727539, 'logps/ref_rejected': -113.51543426513672, 'logits/chosen': -1.619598388671875, 'logits/rejected': -1.1338703632354736, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████████████████▏                                                 | 381/681 [24:49<14:00,  2.80s/it] 56%|███████████████████████████████████████████████████████████████▍                                                 | 382/681 [24:52<14:30,  2.91s/it]                                                                                                                                                        {'loss': 0.5787, 'grad_norm': 24.89579963684082, 'learning_rate': 2.4230123536095745e-07, 'margin_dpo/margin_mean': 30.85987663269043, 'margin_dpo/margin_std': 21.3883113861084, 'logps/chosen': -131.414306640625, 'logps/rejected': -167.5652618408203, 'logps/ref_chosen': -118.74935150146484, 'logps/ref_rejected': -124.04042053222656, 'logits/chosen': -1.8435094356536865, 'logits/rejected': -1.3504945039749146, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████████████████▍                                                 | 382/681 [24:52<14:30,  2.91s/it] 56%|███████████████████████████████████████████████████████████████▌                                                 | 383/681 [24:55<14:28,  2.91s/it]                                                                                                                                                        {'loss': 0.7806, 'grad_norm': 32.93791580200195, 'learning_rate': 2.4101862075518037e-07, 'margin_dpo/margin_mean': 16.65763282775879, 'margin_dpo/margin_std': 20.160343170166016, 'logps/chosen': -109.92510986328125, 'logps/rejected': -113.90255737304688, 'logps/ref_chosen': -84.62395477294922, 'logps/ref_rejected': -71.94377136230469, 'logits/chosen': -2.270036220550537, 'logits/rejected': -1.7036347389221191, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████████████████▌                                                 | 383/681 [24:55<14:28,  2.91s/it] 56%|███████████████████████████████████████████████████████████████▋                                                 | 384/681 [24:58<14:26,  2.92s/it]                                                                                                                                                        {'loss': 0.5823, 'grad_norm': 23.051111221313477, 'learning_rate': 2.397362428170992e-07, 'margin_dpo/margin_mean': 21.950340270996094, 'margin_dpo/margin_std': 19.539579391479492, 'logps/chosen': -84.0343017578125, 'logps/rejected': -122.06885528564453, 'logps/ref_chosen': -58.861610412597656, 'logps/ref_rejected': -74.94581604003906, 'logits/chosen': -1.8162555694580078, 'logits/rejected': -1.813509225845337, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████████████████▋                                                 | 384/681 [24:58<14:26,  2.92s/it] 57%|███████████████████████████████████████████████████████████████▉                                                 | 385/681 [25:01<14:22,  2.91s/it]                                                                                                                                                        {'loss': 0.6257, 'grad_norm': 28.523611068725586, 'learning_rate': 2.3845413533856514e-07, 'margin_dpo/margin_mean': 19.29067611694336, 'margin_dpo/margin_std': 16.32854461669922, 'logps/chosen': -108.14667510986328, 'logps/rejected': -112.58067321777344, 'logps/ref_chosen': -88.04960632324219, 'logps/ref_rejected': -73.19291687011719, 'logits/chosen': -2.339524745941162, 'logits/rejected': -1.4595880508422852, 'epoch': 0.57}
 57%|███████████████████████████████████████████████████████████████▉                                                 | 385/681 [25:01<14:22,  2.91s/it] 57%|████████████████████████████████████████████████████████████████                                                 | 386/681 [25:04<14:21,  2.92s/it]                                                                                                                                                        {'loss': 0.626, 'grad_norm': 24.61203956604004, 'learning_rate': 2.3717233210430254e-07, 'margin_dpo/margin_mean': 14.761992454528809, 'margin_dpo/margin_std': 16.876083374023438, 'logps/chosen': -109.09315490722656, 'logps/rejected': -156.15509033203125, 'logps/ref_chosen': -83.63232421875, 'logps/ref_rejected': -115.93226623535156, 'logits/chosen': -1.5339938402175903, 'logits/rejected': -1.359063982963562, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████                                                 | 386/681 [25:04<14:21,  2.92s/it] 57%|████████████████████████████████████████████████████████████████▏                                                | 387/681 [25:07<14:11,  2.90s/it]                                                                                                                                                        {'loss': 0.686, 'grad_norm': 28.160860061645508, 'learning_rate': 2.3589086689101889e-07, 'margin_dpo/margin_mean': 21.638851165771484, 'margin_dpo/margin_std': 18.822141647338867, 'logps/chosen': -119.5574722290039, 'logps/rejected': -111.73419189453125, 'logps/ref_chosen': -97.42512512207031, 'logps/ref_rejected': -67.96300506591797, 'logits/chosen': -1.8218247890472412, 'logits/rejected': -1.1248939037322998, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████▏                                                | 387/681 [25:07<14:11,  2.90s/it] 57%|████████████████████████████████████████████████████████████████▍                                                | 388/681 [25:09<13:48,  2.83s/it]                                                                                                                                                        {'loss': 0.3795, 'grad_norm': 21.124223709106445, 'learning_rate': 2.3460977346651428e-07, 'margin_dpo/margin_mean': 28.17501449584961, 'margin_dpo/margin_std': 13.74698257446289, 'logps/chosen': -100.3346176147461, 'logps/rejected': -154.15386962890625, 'logps/ref_chosen': -76.29823303222656, 'logps/ref_rejected': -101.94246673583984, 'logits/chosen': -1.9199204444885254, 'logits/rejected': -1.564023494720459, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████▍                                                | 388/681 [25:09<13:48,  2.83s/it] 57%|████████████████████████████████████████████████████████████████▌                                                | 389/681 [25:12<13:54,  2.86s/it]                                                                                                                                                        {'loss': 0.7691, 'grad_norm': 36.40032196044922, 'learning_rate': 2.3332908558879177e-07, 'margin_dpo/margin_mean': 17.538209915161133, 'margin_dpo/margin_std': 22.933223724365234, 'logps/chosen': -122.41304016113281, 'logps/rejected': -133.83741760253906, 'logps/ref_chosen': -97.35070037841797, 'logps/ref_rejected': -91.23686981201172, 'logits/chosen': -1.2836616039276123, 'logits/rejected': -1.0078399181365967, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████▌                                                | 389/681 [25:12<13:54,  2.86s/it] 57%|████████████████████████████████████████████████████████████████▋                                                | 390/681 [25:15<14:02,  2.90s/it]                                                                                                                                                        {'loss': 0.7758, 'grad_norm': 29.538150787353516, 'learning_rate': 2.320488370051681e-07, 'margin_dpo/margin_mean': 16.070911407470703, 'margin_dpo/margin_std': 14.410566329956055, 'logps/chosen': -84.25496673583984, 'logps/rejected': -116.31646728515625, 'logps/ref_chosen': -58.03634262084961, 'logps/ref_rejected': -74.02693176269531, 'logits/chosen': -1.8550262451171875, 'logits/rejected': -1.7845234870910645, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████▋                                                | 390/681 [25:15<14:02,  2.90s/it] 57%|████████████████████████████████████████████████████████████████▉                                                | 391/681 [25:18<13:51,  2.87s/it]                                                                                                                                                        {'loss': 0.5887, 'grad_norm': 27.119056701660156, 'learning_rate': 2.3076906145138405e-07, 'margin_dpo/margin_mean': 15.65703010559082, 'margin_dpo/margin_std': 12.83513069152832, 'logps/chosen': -101.29808044433594, 'logps/rejected': -142.77825927734375, 'logps/ref_chosen': -74.79901885986328, 'logps/ref_rejected': -100.62217712402344, 'logits/chosen': -1.7980409860610962, 'logits/rejected': -1.492868185043335, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████▉                                                | 391/681 [25:18<13:51,  2.87s/it] 58%|█████████████████████████████████████████████████████████████████                                                | 392/681 [25:21<14:07,  2.93s/it]                                                                                                                                                        {'loss': 0.6069, 'grad_norm': 26.66034507751465, 'learning_rate': 2.294897926507156e-07, 'margin_dpo/margin_mean': 15.61727237701416, 'margin_dpo/margin_std': 16.81137466430664, 'logps/chosen': -137.8718719482422, 'logps/rejected': -115.8902816772461, 'logps/ref_chosen': -112.5604019165039, 'logps/ref_rejected': -74.96153259277344, 'logits/chosen': -1.8430507183074951, 'logits/rejected': -1.2197606563568115, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████                                                | 392/681 [25:21<14:07,  2.93s/it] 58%|█████████████████████████████████████████████████████████████████▏                                               | 393/681 [25:24<13:56,  2.90s/it]                                                                                                                                                        {'loss': 0.561, 'grad_norm': 24.514549255371094, 'learning_rate': 2.2821106431308543e-07, 'margin_dpo/margin_mean': 22.472103118896484, 'margin_dpo/margin_std': 14.629976272583008, 'logps/chosen': -100.59256744384766, 'logps/rejected': -131.44895935058594, 'logps/ref_chosen': -81.56492614746094, 'logps/ref_rejected': -89.94920349121094, 'logits/chosen': -1.7378129959106445, 'logits/rejected': -1.5551893711090088, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████▏                                               | 393/681 [25:24<13:56,  2.90s/it] 58%|█████████████████████████████████████████████████████████████████▍                                               | 394/681 [25:27<13:58,  2.92s/it]                                                                                                                                                        {'loss': 0.4967, 'grad_norm': 21.149150848388672, 'learning_rate': 2.2693291013417452e-07, 'margin_dpo/margin_mean': 21.413806915283203, 'margin_dpo/margin_std': 18.011598587036133, 'logps/chosen': -100.30079650878906, 'logps/rejected': -98.2430648803711, 'logps/ref_chosen': -80.80152130126953, 'logps/ref_rejected': -57.329986572265625, 'logits/chosen': -1.8245320320129395, 'logits/rejected': -1.1274913549423218, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████▍                                               | 394/681 [25:27<13:58,  2.92s/it] 58%|█████████████████████████████████████████████████████████████████▌                                               | 395/681 [25:30<13:35,  2.85s/it]                                                                                                                                                        {'loss': 0.7926, 'grad_norm': 29.29093360900879, 'learning_rate': 2.2565536379453404e-07, 'margin_dpo/margin_mean': 12.239519119262695, 'margin_dpo/margin_std': 17.91888427734375, 'logps/chosen': -108.34182739257812, 'logps/rejected': -105.08010864257812, 'logps/ref_chosen': -84.28303527832031, 'logps/ref_rejected': -68.78179931640625, 'logits/chosen': -2.202932357788086, 'logits/rejected': -1.7157886028289795, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████▌                                               | 395/681 [25:30<13:35,  2.85s/it] 58%|█████████████████████████████████████████████████████████████████▋                                               | 396/681 [25:33<13:38,  2.87s/it]                                                                                                                                                        {'loss': 0.7967, 'grad_norm': 34.08306121826172, 'learning_rate': 2.2437845895869825e-07, 'margin_dpo/margin_mean': 14.95408821105957, 'margin_dpo/margin_std': 16.51461410522461, 'logps/chosen': -82.07247924804688, 'logps/rejected': -116.58084106445312, 'logps/ref_chosen': -55.12290954589844, 'logps/ref_rejected': -74.67718505859375, 'logits/chosen': -1.750239372253418, 'logits/rejected': -1.5954954624176025, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████▋                                               | 396/681 [25:33<13:38,  2.87s/it] 58%|█████████████████████████████████████████████████████████████████▉                                               | 397/681 [25:36<13:54,  2.94s/it]                                                                                                                                                        {'loss': 0.6264, 'grad_norm': 25.127824783325195, 'learning_rate': 2.2310222927429716e-07, 'margin_dpo/margin_mean': 21.037246704101562, 'margin_dpo/margin_std': 25.966951370239258, 'logps/chosen': -114.83526611328125, 'logps/rejected': -175.09243774414062, 'logps/ref_chosen': -91.61041259765625, 'logps/ref_rejected': -130.83035278320312, 'logits/chosen': -1.2238702774047852, 'logits/rejected': -1.2863905429840088, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████▉                                               | 397/681 [25:36<13:54,  2.94s/it] 58%|██████████████████████████████████████████████████████████████████                                               | 398/681 [25:38<13:25,  2.85s/it]                                                                                                                                                        {'loss': 0.5462, 'grad_norm': 27.55780792236328, 'learning_rate': 2.2182670837116972e-07, 'margin_dpo/margin_mean': 17.76388168334961, 'margin_dpo/margin_std': 17.782602310180664, 'logps/chosen': -128.46905517578125, 'logps/rejected': -147.94284057617188, 'logps/ref_chosen': -100.79484558105469, 'logps/ref_rejected': -102.5047378540039, 'logits/chosen': -1.5437828302383423, 'logits/rejected': -1.1038641929626465, 'epoch': 0.58}
 58%|██████████████████████████████████████████████████████████████████                                               | 398/681 [25:38<13:25,  2.85s/it] 59%|██████████████████████████████████████████████████████████████████▏                                              | 399/681 [25:41<13:02,  2.78s/it]                                                                                                                                                        {'loss': 0.3647, 'grad_norm': 16.550373077392578, 'learning_rate': 2.2055192986047804e-07, 'margin_dpo/margin_mean': 23.948593139648438, 'margin_dpo/margin_std': 12.468704223632812, 'logps/chosen': -150.08575439453125, 'logps/rejected': -118.81426239013672, 'logps/ref_chosen': -131.33981323242188, 'logps/ref_rejected': -76.11972045898438, 'logits/chosen': -2.9651870727539062, 'logits/rejected': -1.4718399047851562, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████████████████▏                                              | 399/681 [25:41<13:02,  2.78s/it] 59%|██████████████████████████████████████████████████████████████████▎                                              | 400/681 [25:44<13:13,  2.82s/it]                                                                                                                                                        {'loss': 0.4743, 'grad_norm': 28.322050094604492, 'learning_rate': 2.192779273338215e-07, 'margin_dpo/margin_mean': 22.554155349731445, 'margin_dpo/margin_std': 18.595291137695312, 'logps/chosen': -140.05178833007812, 'logps/rejected': -159.77346801757812, 'logps/ref_chosen': -118.27375793457031, 'logps/ref_rejected': -115.4412841796875, 'logits/chosen': -2.360074043273926, 'logits/rejected': -1.4844969511032104, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████████████████▎                                              | 400/681 [25:44<13:13,  2.82s/it][INFO|trainer.py:4307] 2026-04-24 00:20:51,431 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 00:20:51,431 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 00:20:51,431 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:18,  3.82it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:28,  2.46it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:34,  2.00it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:34,  1.95it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.83it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:36,  1.83it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:03<00:34,  1.91it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:38,  1.67it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.69it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:38,  1.62it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:36,  1.66it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:36,  1.67it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.64it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:35,  1.63it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.59it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.58it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:31,  1.72it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:10<00:35,  1.53it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:35,  1.51it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:34,  1.52it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:12<00:33,  1.54it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:31,  1.60it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.55it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.57it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:27,  1.70it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.76it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.68it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.70it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:25,  1.72it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.74it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:24,  1.69it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.71it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:19<00:21,  1.78it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:22,  1.69it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:21,  1.70it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.60it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:21,  1.65it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:21,  1.60it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.69it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:17,  1.73it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:16,  1.78it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.62it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.58it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.68it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.66it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.62it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.64it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:13,  1.71it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.61it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:30<00:13,  1.55it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:13,  1.53it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.65it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.69it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.66it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:09,  1.60it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:07,  1.76it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:08,  1.62it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.69it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:36<00:06,  1.64it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.77it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:37<00:04,  1.84it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.71it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:03,  1.75it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.69it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.73it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:40<00:02,  1.66it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.58it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:42<00:00,  1.59it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.74it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.42923954129219055, 'eval_runtime': 44.0108, 'eval_samples_per_second': 53.146, 'eval_steps_per_second': 1.681, 'eval_margin_dpo/margin_mean': 15.382046699523926, 'eval_margin_dpo/margin_std': 16.76236343383789, 'eval_logps/chosen': -128.40940856933594, 'eval_logps/rejected': -134.59133911132812, 'eval_logps/ref_chosen': -101.88616943359375, 'eval_logps/ref_rejected': -92.68607330322266, 'eval_logits/chosen': -1.2117310762405396, 'eval_logits/rejected': -0.8992021083831787, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████████████████▎                                              | 400/681 [26:28<13:13,  2.82s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.74it/s][A
                                                                                                                                                        [A[INFO|trainer.py:3984] 2026-04-24 00:21:49,514 >> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-400
[INFO|configuration_utils.py:419] 2026-04-24 00:21:49,519 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-400/config.json
[INFO|configuration_utils.py:911] 2026-04-24 00:21:49,522 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-400/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-24 00:22:28,519 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-400/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-24 00:22:28,526 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-400/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-24 00:22:28,530 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-400/special_tokens_map.json
 59%|█████████████████████████████████████████████████████████████████▎                                             | 401/681 [30:51<7:19:43, 94.23s/it]                                                                                                                                                        {'loss': 0.8125, 'grad_norm': 27.084718704223633, 'learning_rate': 2.1800473436235136e-07, 'margin_dpo/margin_mean': 6.442744255065918, 'margin_dpo/margin_std': 16.57547378540039, 'logps/chosen': -119.38215637207031, 'logps/rejected': -99.23313903808594, 'logps/ref_chosen': -90.59347534179688, 'logps/ref_rejected': -64.001708984375, 'logits/chosen': -0.82004714012146, 'logits/rejected': -0.5782370567321777, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████████████████▎                                             | 401/681 [30:51<7:19:43, 94.23s/it] 59%|█████████████████████████████████████████████████████████████████▌                                             | 402/681 [30:54<5:10:19, 66.73s/it]                                                                                                                                                        {'loss': 0.3894, 'grad_norm': 20.646493911743164, 'learning_rate': 2.1673238449588665e-07, 'margin_dpo/margin_mean': 24.005657196044922, 'margin_dpo/margin_std': 14.80632209777832, 'logps/chosen': -114.04674530029297, 'logps/rejected': -132.45294189453125, 'logps/ref_chosen': -92.98797607421875, 'logps/ref_rejected': -87.38853454589844, 'logits/chosen': -1.7929552793502808, 'logits/rejected': -1.4944618940353394, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████████████████▌                                             | 402/681 [30:54<5:10:19, 66.73s/it] 59%|█████████████████████████████████████████████████████████████████▋                                             | 403/681 [30:57<3:40:25, 47.57s/it]                                                                                                                                                        {'loss': 0.5945, 'grad_norm': 20.255006790161133, 'learning_rate': 2.154609112620295e-07, 'margin_dpo/margin_mean': 19.7047061920166, 'margin_dpo/margin_std': 19.972158432006836, 'logps/chosen': -111.00959777832031, 'logps/rejected': -102.13783264160156, 'logps/ref_chosen': -91.2931900024414, 'logps/ref_rejected': -62.71670913696289, 'logits/chosen': -2.186984062194824, 'logits/rejected': -1.762284278869629, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████████████████▋                                             | 403/681 [30:57<3:40:25, 47.57s/it] 59%|█████████████████████████████████████████████████████████████████▊                                             | 404/681 [31:00<2:38:03, 34.24s/it]                                                                                                                                                        {'loss': 0.6096, 'grad_norm': 21.293611526489258, 'learning_rate': 2.1419034816528218e-07, 'margin_dpo/margin_mean': 30.76922035217285, 'margin_dpo/margin_std': 20.257919311523438, 'logps/chosen': -100.58467864990234, 'logps/rejected': -154.99609375, 'logps/ref_chosen': -77.146728515625, 'logps/ref_rejected': -100.78892517089844, 'logits/chosen': -2.028939723968506, 'logits/rejected': -1.676574945449829, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████████████████▊                                             | 404/681 [31:00<2:38:03, 34.24s/it] 59%|██████████████████████████████████████████████████████████████████                                             | 405/681 [31:03<1:53:51, 24.75s/it]                                                                                                                                                        {'loss': 0.6095, 'grad_norm': 26.865093231201172, 'learning_rate': 2.129207286861638e-07, 'margin_dpo/margin_mean': 22.707393646240234, 'margin_dpo/margin_std': 19.417251586914062, 'logps/chosen': -140.56105041503906, 'logps/rejected': -163.43182373046875, 'logps/ref_chosen': -113.60545349121094, 'logps/ref_rejected': -113.76882934570312, 'logits/chosen': -0.8960381746292114, 'logits/rejected': -0.6281898021697998, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████████████████                                             | 405/681 [31:03<1:53:51, 24.75s/it] 60%|██████████████████████████████████████████████████████████████████▏                                            | 406/681 [31:05<1:23:04, 18.13s/it]                                                                                                                                                        {'loss': 0.6461, 'grad_norm': 26.39828109741211, 'learning_rate': 2.1165208628032861e-07, 'margin_dpo/margin_mean': 23.98102378845215, 'margin_dpo/margin_std': 19.551021575927734, 'logps/chosen': -102.27427673339844, 'logps/rejected': -134.26731872558594, 'logps/ref_chosen': -82.02105712890625, 'logps/ref_rejected': -90.03308868408203, 'logits/chosen': -2.1540369987487793, 'logits/rejected': -1.7181463241577148, 'epoch': 0.6}
 60%|██████████████████████████████████████████████████████████████████▏                                            | 406/681 [31:05<1:23:04, 18.13s/it] 60%|██████████████████████████████████████████████████████████████████▎                                            | 407/681 [31:08<1:01:49, 13.54s/it]                                                                                                                                                        {'loss': 0.6719, 'grad_norm': 25.158649444580078, 'learning_rate': 2.1038445437768375e-07, 'margin_dpo/margin_mean': 13.367082595825195, 'margin_dpo/margin_std': 21.264638900756836, 'logps/chosen': -102.0631103515625, 'logps/rejected': -109.44853210449219, 'logps/ref_chosen': -71.41169738769531, 'logps/ref_rejected': -65.43003845214844, 'logits/chosen': -2.754941463470459, 'logits/rejected': -2.005859851837158, 'epoch': 0.6}
 60%|██████████████████████████████████████████████████████████████████▎                                            | 407/681 [31:08<1:01:49, 13.54s/it] 60%|███████████████████████████████████████████████████████████████████▋                                             | 408/681 [31:11<47:19, 10.40s/it]                                                                                                                                                        {'loss': 0.7704, 'grad_norm': 34.24391555786133, 'learning_rate': 2.0911786638150872e-07, 'margin_dpo/margin_mean': 19.870115280151367, 'margin_dpo/margin_std': 19.41891860961914, 'logps/chosen': -129.79104614257812, 'logps/rejected': -112.33432006835938, 'logps/ref_chosen': -103.82225036621094, 'logps/ref_rejected': -66.49540710449219, 'logits/chosen': -0.9452221989631653, 'logits/rejected': -0.40952903032302856, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████████████████▋                                             | 408/681 [31:11<47:19, 10.40s/it] 60%|███████████████████████████████████████████████████████████████████▊                                             | 409/681 [31:14<37:05,  8.18s/it]                                                                                                                                                        {'loss': 0.7749, 'grad_norm': 36.82187271118164, 'learning_rate': 2.0785235566757517e-07, 'margin_dpo/margin_mean': 19.43436050415039, 'margin_dpo/margin_std': 19.317798614501953, 'logps/chosen': -163.90234375, 'logps/rejected': -126.71371459960938, 'logps/ref_chosen': -143.14186096191406, 'logps/ref_rejected': -86.51887512207031, 'logits/chosen': -1.7844617366790771, 'logits/rejected': -1.0885341167449951, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████████████████▊                                             | 409/681 [31:14<37:05,  8.18s/it] 60%|████████████████████████████████████████████████████████████████████                                             | 410/681 [31:17<29:48,  6.60s/it]                                                                                                                                                        {'loss': 0.6685, 'grad_norm': 26.417638778686523, 'learning_rate': 2.065879555832674e-07, 'margin_dpo/margin_mean': 19.673145294189453, 'margin_dpo/margin_std': 14.39936351776123, 'logps/chosen': -86.10826110839844, 'logps/rejected': -125.80564880371094, 'logps/ref_chosen': -60.73199462890625, 'logps/ref_rejected': -80.75624084472656, 'logits/chosen': -2.059418201446533, 'logits/rejected': -1.9821703433990479, 'epoch': 0.6}
 60%|████████████████████████████████████████████████████████████████████                                             | 410/681 [31:17<29:48,  6.60s/it] 60%|████████████████████████████████████████████████████████████████████▏                                            | 411/681 [31:20<24:23,  5.42s/it]                                                                                                                                                        {'loss': 0.6113, 'grad_norm': 26.731914520263672, 'learning_rate': 2.0532469944670343e-07, 'margin_dpo/margin_mean': 14.190881729125977, 'margin_dpo/margin_std': 13.96728515625, 'logps/chosen': -95.44523620605469, 'logps/rejected': -118.89471435546875, 'logps/ref_chosen': -66.200927734375, 'logps/ref_rejected': -75.45953369140625, 'logits/chosen': -2.0580475330352783, 'logits/rejected': -2.118593692779541, 'epoch': 0.6}
 60%|████████████████████████████████████████████████████████████████████▏                                            | 411/681 [31:20<24:23,  5.42s/it] 60%|████████████████████████████████████████████████████████████████████▎                                            | 412/681 [31:23<20:53,  4.66s/it]                                                                                                                                                        {'loss': 0.6431, 'grad_norm': 24.100954055786133, 'learning_rate': 2.0406262054585738e-07, 'margin_dpo/margin_mean': 19.70269203186035, 'margin_dpo/margin_std': 17.422361373901367, 'logps/chosen': -96.10821533203125, 'logps/rejected': -161.6231689453125, 'logps/ref_chosen': -70.4729232788086, 'logps/ref_rejected': -116.28516387939453, 'logits/chosen': -1.6652562618255615, 'logits/rejected': -1.6168675422668457, 'epoch': 0.6}
 60%|████████████████████████████████████████████████████████████████████▎                                            | 412/681 [31:23<20:53,  4.66s/it] 61%|████████████████████████████████████████████████████████████████████▌                                            | 413/681 [31:26<18:27,  4.13s/it]                                                                                                                                                        {'loss': 0.7514, 'grad_norm': 32.71993637084961, 'learning_rate': 2.0280175213768205e-07, 'margin_dpo/margin_mean': 11.658080101013184, 'margin_dpo/margin_std': 13.869819641113281, 'logps/chosen': -121.38672637939453, 'logps/rejected': -119.86428833007812, 'logps/ref_chosen': -91.80178833007812, 'logps/ref_rejected': -78.62126159667969, 'logits/chosen': -0.5341243743896484, 'logits/rejected': -0.1439867466688156, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████████████████▌                                            | 413/681 [31:26<18:27,  4.13s/it] 61%|████████████████████████████████████████████████████████████████████▋                                            | 414/681 [31:28<16:48,  3.78s/it]                                                                                                                                                        {'loss': 0.7371, 'grad_norm': 32.95093536376953, 'learning_rate': 2.0154212744723247e-07, 'margin_dpo/margin_mean': 17.44455337524414, 'margin_dpo/margin_std': 21.200258255004883, 'logps/chosen': -115.67071533203125, 'logps/rejected': -127.25440216064453, 'logps/ref_chosen': -93.31285095214844, 'logps/ref_rejected': -87.45198822021484, 'logits/chosen': -2.0908069610595703, 'logits/rejected': -1.547807216644287, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████████████████▋                                            | 414/681 [31:28<16:48,  3.78s/it] 61%|████████████████████████████████████████████████████████████████████▊                                            | 415/681 [31:32<15:53,  3.59s/it]                                                                                                                                                        {'loss': 0.7499, 'grad_norm': 38.77595520019531, 'learning_rate': 2.002837796667909e-07, 'margin_dpo/margin_mean': 26.036104202270508, 'margin_dpo/margin_std': 21.959575653076172, 'logps/chosen': -131.7755126953125, 'logps/rejected': -146.5677490234375, 'logps/ref_chosen': -108.298095703125, 'logps/ref_rejected': -97.05425262451172, 'logits/chosen': -1.3557873964309692, 'logits/rejected': -0.9005389213562012, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████████████████▊                                            | 415/681 [31:32<15:53,  3.59s/it] 61%|█████████████████████████████████████████████████████████████████████                                            | 416/681 [31:35<15:06,  3.42s/it]                                                                                                                                                        {'loss': 0.4686, 'grad_norm': 20.369680404663086, 'learning_rate': 1.990267419549914e-07, 'margin_dpo/margin_mean': 24.462818145751953, 'margin_dpo/margin_std': 19.401506423950195, 'logps/chosen': -108.19269561767578, 'logps/rejected': -153.75759887695312, 'logps/ref_chosen': -84.23023986816406, 'logps/ref_rejected': -105.33232879638672, 'logits/chosen': -2.151233196258545, 'logits/rejected': -1.5413405895233154, 'epoch': 0.61}
 61%|█████████████████████████████████████████████████████████████████████                                            | 416/681 [31:35<15:06,  3.42s/it] 61%|█████████████████████████████████████████████████████████████████████▏                                           | 417/681 [31:37<14:04,  3.20s/it]                                                                                                                                                        {'loss': 0.5942, 'grad_norm': 24.230409622192383, 'learning_rate': 1.9777104743594686e-07, 'margin_dpo/margin_mean': 23.894100189208984, 'margin_dpo/margin_std': 23.507366180419922, 'logps/chosen': -109.26607513427734, 'logps/rejected': -103.1401596069336, 'logps/ref_chosen': -89.4459457397461, 'logps/ref_rejected': -59.425933837890625, 'logits/chosen': -2.02632474899292, 'logits/rejected': -0.5686318278312683, 'epoch': 0.61}
 61%|█████████████████████████████████████████████████████████████████████▏                                           | 417/681 [31:37<14:04,  3.20s/it] 61%|█████████████████████████████████████████████████████████████████████▎                                           | 418/681 [31:40<13:39,  3.12s/it]                                                                                                                                                        {'loss': 0.5106, 'grad_norm': 26.247756958007812, 'learning_rate': 1.965167291983757e-07, 'margin_dpo/margin_mean': 27.746294021606445, 'margin_dpo/margin_std': 15.890663146972656, 'logps/chosen': -109.95904541015625, 'logps/rejected': -155.7923126220703, 'logps/ref_chosen': -87.28543090820312, 'logps/ref_rejected': -105.37240600585938, 'logits/chosen': -2.066215753555298, 'logits/rejected': -1.878091812133789, 'epoch': 0.61}
 61%|█████████████████████████████████████████████████████████████████████▎                                           | 418/681 [31:40<13:39,  3.12s/it] 62%|█████████████████████████████████████████████████████████████████████▌                                           | 419/681 [31:43<13:39,  3.13s/it]                                                                                                                                                        {'loss': 0.7314, 'grad_norm': 29.40278434753418, 'learning_rate': 1.9526382029472988e-07, 'margin_dpo/margin_mean': 23.130002975463867, 'margin_dpo/margin_std': 20.91366195678711, 'logps/chosen': -118.16517639160156, 'logps/rejected': -162.2279510498047, 'logps/ref_chosen': -94.09585571289062, 'logps/ref_rejected': -115.02862548828125, 'logits/chosen': -1.2009162902832031, 'logits/rejected': -0.9768263101577759, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████████████████▌                                           | 419/681 [31:43<13:39,  3.13s/it] 62%|█████████████████████████████████████████████████████████████████████▋                                           | 420/681 [31:46<13:26,  3.09s/it]                                                                                                                                                        {'loss': 0.598, 'grad_norm': 38.40915298461914, 'learning_rate': 1.9401235374032425e-07, 'margin_dpo/margin_mean': 20.196256637573242, 'margin_dpo/margin_std': 21.781005859375, 'logps/chosen': -123.48500061035156, 'logps/rejected': -136.91636657714844, 'logps/ref_chosen': -101.53406524658203, 'logps/ref_rejected': -94.7691650390625, 'logits/chosen': -1.9284502267837524, 'logits/rejected': -1.554548978805542, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████████████████▋                                           | 420/681 [31:46<13:26,  3.09s/it] 62%|█████████████████████████████████████████████████████████████████████▊                                           | 421/681 [31:49<13:15,  3.06s/it]                                                                                                                                                        {'loss': 0.6178, 'grad_norm': 26.852741241455078, 'learning_rate': 1.9276236251246653e-07, 'margin_dpo/margin_mean': 22.544641494750977, 'margin_dpo/margin_std': 18.13541030883789, 'logps/chosen': -87.1471939086914, 'logps/rejected': -140.4273681640625, 'logps/ref_chosen': -57.393409729003906, 'logps/ref_rejected': -88.12896728515625, 'logits/chosen': -1.4120337963104248, 'logits/rejected': -1.2915436029434204, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████████████████▊                                           | 421/681 [31:49<13:15,  3.06s/it] 62%|██████████████████████████████████████████████████████████████████████                                           | 422/681 [31:52<13:04,  3.03s/it]                                                                                                                                                        {'loss': 0.6448, 'grad_norm': 28.518985748291016, 'learning_rate': 1.9151387954958792e-07, 'margin_dpo/margin_mean': 25.22815704345703, 'margin_dpo/margin_std': 25.092853546142578, 'logps/chosen': -158.14785766601562, 'logps/rejected': -174.84373474121094, 'logps/ref_chosen': -137.25265502929688, 'logps/ref_rejected': -128.72036743164062, 'logits/chosen': -2.0918030738830566, 'logits/rejected': -1.6457126140594482, 'epoch': 0.62}
 62%|██████████████████████████████████████████████████████████████████████                                           | 422/681 [31:52<13:04,  3.03s/it] 62%|██████████████████████████████████████████████████████████████████████▏                                          | 423/681 [31:55<12:48,  2.98s/it]                                                                                                                                                        {'loss': 0.6857, 'grad_norm': 27.90230941772461, 'learning_rate': 1.902669377503756e-07, 'margin_dpo/margin_mean': 13.20401382446289, 'margin_dpo/margin_std': 14.358932495117188, 'logps/chosen': -95.43914794921875, 'logps/rejected': -125.11500549316406, 'logps/ref_chosen': -61.778358459472656, 'logps/ref_rejected': -78.25019836425781, 'logits/chosen': -1.126874566078186, 'logits/rejected': -1.2383806705474854, 'epoch': 0.62}
 62%|██████████████████████████████████████████████████████████████████████▏                                          | 423/681 [31:55<12:48,  2.98s/it] 62%|██████████████████████████████████████████████████████████████████████▎                                          | 424/681 [31:58<12:52,  3.01s/it]                                                                                                                                                        {'loss': 0.7084, 'grad_norm': 31.08055877685547, 'learning_rate': 1.890215699729057e-07, 'margin_dpo/margin_mean': 23.822601318359375, 'margin_dpo/margin_std': 23.501611709594727, 'logps/chosen': -116.06146240234375, 'logps/rejected': -106.29594421386719, 'logps/ref_chosen': -92.41514587402344, 'logps/ref_rejected': -58.8270263671875, 'logits/chosen': -1.6574307680130005, 'logits/rejected': -0.9652201533317566, 'epoch': 0.62}
 62%|██████████████████████████████████████████████████████████████████████▎                                          | 424/681 [31:58<12:52,  3.01s/it] 62%|██████████████████████████████████████████████████████████████████████▌                                          | 425/681 [32:01<12:29,  2.93s/it]                                                                                                                                                        {'loss': 0.8679, 'grad_norm': 31.131589889526367, 'learning_rate': 1.8777780903377732e-07, 'margin_dpo/margin_mean': 8.749892234802246, 'margin_dpo/margin_std': 17.027074813842773, 'logps/chosen': -107.98200988769531, 'logps/rejected': -109.9925308227539, 'logps/ref_chosen': -82.38971710205078, 'logps/ref_rejected': -75.65036010742188, 'logits/chosen': -2.1004793643951416, 'logits/rejected': -1.985741138458252, 'epoch': 0.62}
 62%|██████████████████████████████████████████████████████████████████████▌                                          | 425/681 [32:01<12:29,  2.93s/it] 63%|██████████████████████████████████████████████████████████████████████▋                                          | 426/681 [32:04<12:37,  2.97s/it]                                                                                                                                                        {'loss': 0.4407, 'grad_norm': 31.041427612304688, 'learning_rate': 1.8653568770724803e-07, 'margin_dpo/margin_mean': 23.68649673461914, 'margin_dpo/margin_std': 17.5459041595459, 'logps/chosen': -121.36643981933594, 'logps/rejected': -130.52114868164062, 'logps/ref_chosen': -100.81852722167969, 'logps/ref_rejected': -86.2867431640625, 'logits/chosen': -1.810539960861206, 'logits/rejected': -1.1514090299606323, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████████████████▋                                          | 426/681 [32:04<12:37,  2.97s/it] 63%|██████████████████████████████████████████████████████████████████████▊                                          | 427/681 [32:07<12:52,  3.04s/it]                                                                                                                                                        {'loss': 0.5377, 'grad_norm': 20.86272430419922, 'learning_rate': 1.8529523872436977e-07, 'margin_dpo/margin_mean': 21.26839828491211, 'margin_dpo/margin_std': 21.174129486083984, 'logps/chosen': -113.21662902832031, 'logps/rejected': -146.71148681640625, 'logps/ref_chosen': -90.550537109375, 'logps/ref_rejected': -102.77699279785156, 'logits/chosen': -1.7860926389694214, 'logits/rejected': -1.2939798831939697, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████████████████▊                                          | 427/681 [32:07<12:52,  3.04s/it] 63%|███████████████████████████████████████████████████████████████████████                                          | 428/681 [32:11<13:06,  3.11s/it]                                                                                                                                                        {'loss': 0.8885, 'grad_norm': 39.244056701660156, 'learning_rate': 1.8405649477212697e-07, 'margin_dpo/margin_mean': 22.869205474853516, 'margin_dpo/margin_std': 22.71468734741211, 'logps/chosen': -125.4493408203125, 'logps/rejected': -171.86065673828125, 'logps/ref_chosen': -97.28589630126953, 'logps/ref_rejected': -120.8280029296875, 'logits/chosen': -0.9955465793609619, 'logits/rejected': -1.0620194673538208, 'epoch': 0.63}
 63%|███████████████████████████████████████████████████████████████████████                                          | 428/681 [32:11<13:06,  3.11s/it] 63%|███████████████████████████████████████████████████████████████████████▏                                         | 429/681 [32:14<12:56,  3.08s/it]                                                                                                                                                        {'loss': 0.6668, 'grad_norm': 31.844663619995117, 'learning_rate': 1.828194884925749e-07, 'margin_dpo/margin_mean': 17.7259521484375, 'margin_dpo/margin_std': 19.956687927246094, 'logps/chosen': -149.5, 'logps/rejected': -155.66888427734375, 'logps/ref_chosen': -119.6482162475586, 'logps/ref_rejected': -108.09115600585938, 'logits/chosen': -1.9276843070983887, 'logits/rejected': -1.3610649108886719, 'epoch': 0.63}
 63%|███████████████████████████████████████████████████████████████████████▏                                         | 429/681 [32:14<12:56,  3.08s/it] 63%|███████████████████████████████████████████████████████████████████████▎                                         | 430/681 [32:17<12:53,  3.08s/it]                                                                                                                                                        {'loss': 0.6066, 'grad_norm': 25.210390090942383, 'learning_rate': 1.8158425248197928e-07, 'margin_dpo/margin_mean': 18.67949104309082, 'margin_dpo/margin_std': 18.119897842407227, 'logps/chosen': -125.53485107421875, 'logps/rejected': -172.47962951660156, 'logps/ref_chosen': -97.25688934326172, 'logps/ref_rejected': -125.52217102050781, 'logits/chosen': -0.9649932384490967, 'logits/rejected': -1.147021770477295, 'epoch': 0.63}
 63%|███████████████████████████████████████████████████████████████████████▎                                         | 430/681 [32:17<12:53,  3.08s/it] 63%|███████████████████████████████████████████████████████████████████████▌                                         | 431/681 [32:20<12:45,  3.06s/it]                                                                                                                                                        {'loss': 0.773, 'grad_norm': 33.201725006103516, 'learning_rate': 1.8035081928995788e-07, 'margin_dpo/margin_mean': 19.473228454589844, 'margin_dpo/margin_std': 14.711877822875977, 'logps/chosen': -81.04603576660156, 'logps/rejected': -129.18716430664062, 'logps/ref_chosen': -57.92179870605469, 'logps/ref_rejected': -86.5896987915039, 'logits/chosen': -2.278841972351074, 'logits/rejected': -2.0075526237487793, 'epoch': 0.63}
 63%|███████████████████████████████████████████████████████████████████████▌                                         | 431/681 [32:20<12:45,  3.06s/it] 63%|███████████████████████████████████████████████████████████████████████▋                                         | 432/681 [32:23<12:54,  3.11s/it]                                                                                                                                                        {'loss': 0.5115, 'grad_norm': 22.698999404907227, 'learning_rate': 1.791192214186223e-07, 'margin_dpo/margin_mean': 25.235767364501953, 'margin_dpo/margin_std': 20.750383377075195, 'logps/chosen': -106.17467498779297, 'logps/rejected': -129.19357299804688, 'logps/ref_chosen': -83.56768798828125, 'logps/ref_rejected': -81.35081481933594, 'logits/chosen': -1.4666633605957031, 'logits/rejected': -0.8918869495391846, 'epoch': 0.63}
 63%|███████████████████████████████████████████████████████████████████████▋                                         | 432/681 [32:23<12:54,  3.11s/it] 64%|███████████████████████████████████████████████████████████████████████▊                                         | 433/681 [32:26<12:29,  3.02s/it]                                                                                                                                                        {'loss': 0.836, 'grad_norm': 32.29205322265625, 'learning_rate': 1.7788949132172193e-07, 'margin_dpo/margin_mean': 22.7510929107666, 'margin_dpo/margin_std': 26.510454177856445, 'logps/chosen': -131.34445190429688, 'logps/rejected': -160.79852294921875, 'logps/ref_chosen': -101.5228042602539, 'logps/ref_rejected': -108.22576904296875, 'logits/chosen': -1.1999212503433228, 'logits/rejected': -0.5681695938110352, 'epoch': 0.64}
 64%|███████████████████████████████████████████████████████████████████████▊                                         | 433/681 [32:26<12:29,  3.02s/it] 64%|████████████████████████████████████████████████████████████████████████                                         | 434/681 [32:29<12:35,  3.06s/it]                                                                                                                                                        {'loss': 0.7302, 'grad_norm': 34.036136627197266, 'learning_rate': 1.7666166140378853e-07, 'margin_dpo/margin_mean': 19.487464904785156, 'margin_dpo/margin_std': 28.65212631225586, 'logps/chosen': -147.2008056640625, 'logps/rejected': -154.53948974609375, 'logps/ref_chosen': -124.12574768066406, 'logps/ref_rejected': -111.97697448730469, 'logits/chosen': -2.054288387298584, 'logits/rejected': -1.399308204650879, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████                                         | 434/681 [32:29<12:35,  3.06s/it] 64%|████████████████████████████████████████████████████████████████████████▏                                        | 435/681 [32:31<11:58,  2.92s/it]                                                                                                                                                        {'loss': 0.5765, 'grad_norm': 24.667842864990234, 'learning_rate': 1.7543576401928218e-07, 'margin_dpo/margin_mean': 27.645782470703125, 'margin_dpo/margin_std': 22.643753051757812, 'logps/chosen': -97.1856460571289, 'logps/rejected': -155.25845336914062, 'logps/ref_chosen': -75.44041442871094, 'logps/ref_rejected': -105.867431640625, 'logits/chosen': -1.8135147094726562, 'logits/rejected': -1.378133773803711, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████▏                                        | 435/681 [32:32<11:58,  2.92s/it] 64%|████████████████████████████████████████████████████████████████████████▎                                        | 436/681 [32:35<12:18,  3.01s/it]                                                                                                                                                        {'loss': 0.4742, 'grad_norm': 21.6951961517334, 'learning_rate': 1.742118314717391e-07, 'margin_dpo/margin_mean': 24.306320190429688, 'margin_dpo/margin_std': 22.910158157348633, 'logps/chosen': -118.84077453613281, 'logps/rejected': -109.84593200683594, 'logps/ref_chosen': -98.83950805664062, 'logps/ref_rejected': -65.53834533691406, 'logits/chosen': -1.3429805040359497, 'logits/rejected': -0.3639574348926544, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████▎                                        | 436/681 [32:35<12:18,  3.01s/it] 64%|████████████████████████████████████████████████████████████████████████▌                                        | 437/681 [32:38<12:23,  3.05s/it]                                                                                                                                                        {'loss': 0.6716, 'grad_norm': 21.48826789855957, 'learning_rate': 1.7298989601292036e-07, 'margin_dpo/margin_mean': 14.454059600830078, 'margin_dpo/margin_std': 16.443344116210938, 'logps/chosen': -110.85467529296875, 'logps/rejected': -124.95901489257812, 'logps/ref_chosen': -86.16108703613281, 'logps/ref_rejected': -85.81136322021484, 'logits/chosen': -2.178161144256592, 'logits/rejected': -1.9608675241470337, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████▌                                        | 437/681 [32:38<12:23,  3.05s/it] 64%|████████████████████████████████████████████████████████████████████████▋                                        | 438/681 [32:41<11:59,  2.96s/it]                                                                                                                                                        {'loss': 0.5761, 'grad_norm': 27.280611038208008, 'learning_rate': 1.7176998984196144e-07, 'margin_dpo/margin_mean': 24.969541549682617, 'margin_dpo/margin_std': 16.327075958251953, 'logps/chosen': -97.4400634765625, 'logps/rejected': -137.0142364501953, 'logps/ref_chosen': -72.21536254882812, 'logps/ref_rejected': -86.81999206542969, 'logits/chosen': -1.978929042816162, 'logits/rejected': -1.4313712120056152, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████▋                                        | 438/681 [32:41<11:59,  2.96s/it] 64%|████████████████████████████████████████████████████████████████████████▊                                        | 439/681 [32:43<11:50,  2.94s/it]                                                                                                                                                        {'loss': 0.7894, 'grad_norm': 29.87968635559082, 'learning_rate': 1.7055214510452458e-07, 'margin_dpo/margin_mean': 17.058311462402344, 'margin_dpo/margin_std': 18.533573150634766, 'logps/chosen': -119.00277709960938, 'logps/rejected': -112.55131530761719, 'logps/ref_chosen': -93.64883422851562, 'logps/ref_rejected': -70.13905334472656, 'logits/chosen': -1.223572015762329, 'logits/rejected': -0.7343321442604065, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████▊                                        | 439/681 [32:43<11:50,  2.94s/it] 65%|█████████████████████████████████████████████████████████████████████████                                        | 440/681 [32:46<11:33,  2.88s/it]                                                                                                                                                        {'loss': 0.7767, 'grad_norm': 29.423545837402344, 'learning_rate': 1.6933639389195134e-07, 'margin_dpo/margin_mean': 24.033851623535156, 'margin_dpo/margin_std': 21.511178970336914, 'logps/chosen': -166.27590942382812, 'logps/rejected': -133.2398223876953, 'logps/ref_chosen': -143.11007690429688, 'logps/ref_rejected': -86.04011535644531, 'logits/chosen': -1.738755464553833, 'logits/rejected': -0.7158520817756653, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████                                        | 440/681 [32:46<11:33,  2.88s/it] 65%|█████████████████████████████████████████████████████████████████████████▏                                       | 441/681 [32:49<11:43,  2.93s/it]                                                                                                                                                        {'loss': 0.4617, 'grad_norm': 20.80038070678711, 'learning_rate': 1.681227682404166e-07, 'margin_dpo/margin_mean': 24.737010955810547, 'margin_dpo/margin_std': 11.764477729797363, 'logps/chosen': -132.18185424804688, 'logps/rejected': -119.72990417480469, 'logps/ref_chosen': -109.37970733642578, 'logps/ref_rejected': -72.19073486328125, 'logits/chosen': -1.494542121887207, 'logits/rejected': -0.6456449031829834, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████▏                                       | 441/681 [32:49<11:43,  2.93s/it] 65%|█████████████████████████████████████████████████████████████████████████▎                                       | 442/681 [32:52<11:44,  2.95s/it]                                                                                                                                                        {'loss': 0.4504, 'grad_norm': 19.458789825439453, 'learning_rate': 1.669113001300851e-07, 'margin_dpo/margin_mean': 27.243377685546875, 'margin_dpo/margin_std': 16.030248641967773, 'logps/chosen': -124.80497741699219, 'logps/rejected': -142.98641967773438, 'logps/ref_chosen': -98.47917175292969, 'logps/ref_rejected': -89.41722106933594, 'logits/chosen': -0.5713354349136353, 'logits/rejected': -0.13276606798171997, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████▎                                       | 442/681 [32:52<11:44,  2.95s/it] 65%|█████████████████████████████████████████████████████████████████████████▌                                       | 443/681 [32:55<11:54,  3.00s/it]                                                                                                                                                        {'loss': 0.6083, 'grad_norm': 31.2533016204834, 'learning_rate': 1.6570202148426815e-07, 'margin_dpo/margin_mean': 14.458542823791504, 'margin_dpo/margin_std': 14.307601928710938, 'logps/chosen': -128.31686401367188, 'logps/rejected': -118.65472412109375, 'logps/ref_chosen': -98.59529876708984, 'logps/ref_rejected': -74.47461700439453, 'logits/chosen': -1.5800436735153198, 'logits/rejected': -1.1696522235870361, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████▌                                       | 443/681 [32:55<11:54,  3.00s/it] 65%|█████████████████████████████████████████████████████████████████████████▋                                       | 444/681 [32:58<11:38,  2.95s/it]                                                                                                                                                        {'loss': 0.6585, 'grad_norm': 28.26342010498047, 'learning_rate': 1.6449496416858282e-07, 'margin_dpo/margin_mean': 17.695472717285156, 'margin_dpo/margin_std': 21.756973266601562, 'logps/chosen': -142.62533569335938, 'logps/rejected': -144.64889526367188, 'logps/ref_chosen': -111.86331939697266, 'logps/ref_rejected': -96.1914291381836, 'logits/chosen': -2.4062390327453613, 'logits/rejected': -1.701258897781372, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████▋                                       | 444/681 [32:58<11:38,  2.95s/it] 65%|█████████████████████████████████████████████████████████████████████████▊                                       | 445/681 [33:01<11:33,  2.94s/it]                                                                                                                                                        {'loss': 0.5487, 'grad_norm': 23.41632843017578, 'learning_rate': 1.6329015999011182e-07, 'margin_dpo/margin_mean': 15.405086517333984, 'margin_dpo/margin_std': 11.568341255187988, 'logps/chosen': -117.87601470947266, 'logps/rejected': -122.12147521972656, 'logps/ref_chosen': -89.98236083984375, 'logps/ref_rejected': -78.82273864746094, 'logits/chosen': -1.8755643367767334, 'logits/rejected': -1.7402284145355225, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████▊                                       | 445/681 [33:01<11:33,  2.94s/it] 65%|██████████████████████████████████████████████████████████████████████████                                       | 446/681 [33:04<11:34,  2.96s/it]                                                                                                                                                        {'loss': 0.6084, 'grad_norm': 30.221832275390625, 'learning_rate': 1.6208764069656578e-07, 'margin_dpo/margin_mean': 22.419845581054688, 'margin_dpo/margin_std': 18.770353317260742, 'logps/chosen': -107.57206726074219, 'logps/rejected': -175.65806579589844, 'logps/ref_chosen': -83.11263275146484, 'logps/ref_rejected': -128.77877807617188, 'logits/chosen': -0.7040866613388062, 'logits/rejected': -0.5425094366073608, 'epoch': 0.65}
 65%|██████████████████████████████████████████████████████████████████████████                                       | 446/681 [33:04<11:34,  2.96s/it] 66%|██████████████████████████████████████████████████████████████████████████▏                                      | 447/681 [33:07<11:23,  2.92s/it]                                                                                                                                                        {'loss': 0.6788, 'grad_norm': 26.28083038330078, 'learning_rate': 1.608874379754465e-07, 'margin_dpo/margin_mean': 16.056018829345703, 'margin_dpo/margin_std': 15.311338424682617, 'logps/chosen': -103.27529907226562, 'logps/rejected': -145.8384552001953, 'logps/ref_chosen': -78.08226013183594, 'logps/ref_rejected': -104.58940887451172, 'logits/chosen': -1.621050238609314, 'logits/rejected': -1.6599102020263672, 'epoch': 0.66}
 66%|██████████████████████████████████████████████████████████████████████████▏                                      | 447/681 [33:07<11:23,  2.92s/it] 66%|██████████████████████████████████████████████████████████████████████████▎                                      | 448/681 [33:10<11:21,  2.93s/it]                                                                                                                                                        {'loss': 0.6527, 'grad_norm': 31.752517700195312, 'learning_rate': 1.5968958345321177e-07, 'margin_dpo/margin_mean': 9.410964965820312, 'margin_dpo/margin_std': 19.52904510498047, 'logps/chosen': -130.1195068359375, 'logps/rejected': -171.00125122070312, 'logps/ref_chosen': -102.85002136230469, 'logps/ref_rejected': -134.32081604003906, 'logits/chosen': -1.1484473943710327, 'logits/rejected': -1.2155144214630127, 'epoch': 0.66}
 66%|██████████████████████████████████████████████████████████████████████████▎                                      | 448/681 [33:10<11:21,  2.93s/it] 66%|██████████████████████████████████████████████████████████████████████████▌                                      | 449/681 [33:13<11:20,  2.94s/it]                                                                                                                                                        {'loss': 0.6548, 'grad_norm': 26.76458740234375, 'learning_rate': 1.584941086944423e-07, 'margin_dpo/margin_mean': 22.50650978088379, 'margin_dpo/margin_std': 17.623516082763672, 'logps/chosen': -114.85504913330078, 'logps/rejected': -131.17945861816406, 'logps/ref_chosen': -87.11476135253906, 'logps/ref_rejected': -80.93266296386719, 'logits/chosen': -1.1806657314300537, 'logits/rejected': -0.7023051381111145, 'epoch': 0.66}
 66%|██████████████████████████████████████████████████████████████████████████▌                                      | 449/681 [33:13<11:20,  2.94s/it] 66%|██████████████████████████████████████████████████████████████████████████▋                                      | 450/681 [33:16<11:24,  2.97s/it]                                                                                                                                                        {'loss': 0.4745, 'grad_norm': 24.460163116455078, 'learning_rate': 1.573010452010098e-07, 'margin_dpo/margin_mean': 33.907779693603516, 'margin_dpo/margin_std': 16.30735206604004, 'logps/chosen': -136.053466796875, 'logps/rejected': -204.9149627685547, 'logps/ref_chosen': -114.85942077636719, 'logps/ref_rejected': -149.81314086914062, 'logits/chosen': -2.825883626937866, 'logits/rejected': -2.340266227722168, 'epoch': 0.66}
 66%|██████████████████████████████████████████████████████████████████████████▋                                      | 450/681 [33:16<11:24,  2.97s/it] 66%|██████████████████████████████████████████████████████████████████████████▊                                      | 451/681 [33:19<11:02,  2.88s/it]                                                                                                                                                        {'loss': 0.7374, 'grad_norm': 28.61817741394043, 'learning_rate': 1.5611042441124687e-07, 'margin_dpo/margin_mean': 28.783344268798828, 'margin_dpo/margin_std': 21.23330307006836, 'logps/chosen': -136.8935546875, 'logps/rejected': -156.86073303222656, 'logps/ref_chosen': -114.61380767822266, 'logps/ref_rejected': -105.7976303100586, 'logits/chosen': -1.5507322549819946, 'logits/rejected': -1.089903473854065, 'epoch': 0.66}
 66%|██████████████████████████████████████████████████████████████████████████▊                                      | 451/681 [33:19<11:02,  2.88s/it] 66%|███████████████████████████████████████████████████████████████████████████                                      | 452/681 [33:21<10:57,  2.87s/it]                                                                                                                                                        {'loss': 0.5899, 'grad_norm': 22.830219268798828, 'learning_rate': 1.549222776991186e-07, 'margin_dpo/margin_mean': 16.93113899230957, 'margin_dpo/margin_std': 14.689157485961914, 'logps/chosen': -104.45685577392578, 'logps/rejected': -140.10707092285156, 'logps/ref_chosen': -82.06895446777344, 'logps/ref_rejected': -100.78804016113281, 'logits/chosen': -2.039238929748535, 'logits/rejected': -1.8188178539276123, 'epoch': 0.66}
 66%|███████████████████████████████████████████████████████████████████████████                                      | 452/681 [33:21<10:57,  2.87s/it] 67%|███████████████████████████████████████████████████████████████████████████▏                                     | 453/681 [33:24<10:40,  2.81s/it]                                                                                                                                                        {'loss': 0.4381, 'grad_norm': 18.594497680664062, 'learning_rate': 1.5373663637339584e-07, 'margin_dpo/margin_mean': 20.605459213256836, 'margin_dpo/margin_std': 11.411565780639648, 'logps/chosen': -106.26356506347656, 'logps/rejected': -120.48109436035156, 'logps/ref_chosen': -78.82481384277344, 'logps/ref_rejected': -72.43688201904297, 'logits/chosen': -1.2692456245422363, 'logits/rejected': -1.0498113632202148, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▏                                     | 453/681 [33:24<10:40,  2.81s/it] 67%|███████████████████████████████████████████████████████████████████████████▎                                     | 454/681 [33:27<10:41,  2.83s/it]                                                                                                                                                        {'loss': 0.7431, 'grad_norm': 34.69410705566406, 'learning_rate': 1.5255353167683017e-07, 'margin_dpo/margin_mean': 16.760404586791992, 'margin_dpo/margin_std': 17.026487350463867, 'logps/chosen': -133.55905151367188, 'logps/rejected': -164.92752075195312, 'logps/ref_chosen': -101.30783081054688, 'logps/ref_rejected': -115.9158935546875, 'logits/chosen': -1.726050615310669, 'logits/rejected': -1.4121358394622803, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▎                                     | 454/681 [33:27<10:41,  2.83s/it] 67%|███████████████████████████████████████████████████████████████████████████▍                                     | 455/681 [33:30<10:52,  2.89s/it]                                                                                                                                                        {'loss': 0.5704, 'grad_norm': 27.073896408081055, 'learning_rate': 1.5137299478533064e-07, 'margin_dpo/margin_mean': 25.370182037353516, 'margin_dpo/margin_std': 24.86716651916504, 'logps/chosen': -107.57990264892578, 'logps/rejected': -218.08432006835938, 'logps/ref_chosen': -80.74185943603516, 'logps/ref_rejected': -165.87608337402344, 'logits/chosen': -2.262284994125366, 'logits/rejected': -2.4119272232055664, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▍                                     | 455/681 [33:30<10:52,  2.89s/it] 67%|███████████████████████████████████████████████████████████████████████████▋                                     | 456/681 [33:33<10:47,  2.88s/it]                                                                                                                                                        {'loss': 0.5251, 'grad_norm': 24.588420867919922, 'learning_rate': 1.5019505680714232e-07, 'margin_dpo/margin_mean': 20.554821014404297, 'margin_dpo/margin_std': 16.57241439819336, 'logps/chosen': -104.88959503173828, 'logps/rejected': -166.04608154296875, 'logps/ref_chosen': -83.01458740234375, 'logps/ref_rejected': -123.61626434326172, 'logits/chosen': -1.48960542678833, 'logits/rejected': -1.4934964179992676, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▋                                     | 456/681 [33:33<10:47,  2.88s/it] 67%|███████████████████████████████████████████████████████████████████████████▊                                     | 457/681 [33:36<11:04,  2.97s/it]                                                                                                                                                        {'loss': 0.4447, 'grad_norm': 19.552265167236328, 'learning_rate': 1.4901974878202627e-07, 'margin_dpo/margin_mean': 27.605770111083984, 'margin_dpo/margin_std': 16.504793167114258, 'logps/chosen': -110.44456481933594, 'logps/rejected': -149.5691680908203, 'logps/ref_chosen': -89.19579315185547, 'logps/ref_rejected': -100.71463012695312, 'logits/chosen': -0.9713010787963867, 'logits/rejected': -0.8292329907417297, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▊                                     | 457/681 [33:36<11:04,  2.97s/it] 67%|███████████████████████████████████████████████████████████████████████████▉                                     | 458/681 [33:39<10:57,  2.95s/it]                                                                                                                                                        {'loss': 0.703, 'grad_norm': 33.34504318237305, 'learning_rate': 1.4784710168044212e-07, 'margin_dpo/margin_mean': 15.376252174377441, 'margin_dpo/margin_std': 23.105487823486328, 'logps/chosen': -123.5889663696289, 'logps/rejected': -135.5701904296875, 'logps/ref_chosen': -93.04997253417969, 'logps/ref_rejected': -89.65494537353516, 'logits/chosen': -1.010892629623413, 'logits/rejected': -0.6925811767578125, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▉                                     | 458/681 [33:39<10:57,  2.95s/it] 67%|████████████████████████████████████████████████████████████████████████████▏                                    | 459/681 [33:42<10:57,  2.96s/it]                                                                                                                                                        {'loss': 0.5821, 'grad_norm': 25.338581085205078, 'learning_rate': 1.466771464027316e-07, 'margin_dpo/margin_mean': 18.215126037597656, 'margin_dpo/margin_std': 16.228425979614258, 'logps/chosen': -102.30770874023438, 'logps/rejected': -137.26004028320312, 'logps/ref_chosen': -77.70928192138672, 'logps/ref_rejected': -94.44648742675781, 'logits/chosen': -2.277261734008789, 'logits/rejected': -1.876206636428833, 'epoch': 0.67}
 67%|████████████████████████████████████████████████████████████████████████████▏                                    | 459/681 [33:42<10:57,  2.96s/it] 68%|████████████████████████████████████████████████████████████████████████████▎                                    | 460/681 [33:45<11:00,  2.99s/it]                                                                                                                                                        {'loss': 0.6881, 'grad_norm': 31.598941802978516, 'learning_rate': 1.4550991377830423e-07, 'margin_dpo/margin_mean': 17.550220489501953, 'margin_dpo/margin_std': 15.671613693237305, 'logps/chosen': -120.14390563964844, 'logps/rejected': -166.2212371826172, 'logps/ref_chosen': -86.8564453125, 'logps/ref_rejected': -115.38356018066406, 'logits/chosen': -1.5439469814300537, 'logits/rejected': -1.373673439025879, 'epoch': 0.68}
 68%|████████████████████████████████████████████████████████████████████████████▎                                    | 460/681 [33:45<11:00,  2.99s/it] 68%|████████████████████████████████████████████████████████████████████████████▍                                    | 461/681 [33:48<11:01,  3.01s/it]                                                                                                                                                        {'loss': 0.7707, 'grad_norm': 29.087486267089844, 'learning_rate': 1.4434543456482518e-07, 'margin_dpo/margin_mean': 15.786758422851562, 'margin_dpo/margin_std': 16.66317367553711, 'logps/chosen': -142.9497833251953, 'logps/rejected': -160.65652465820312, 'logps/ref_chosen': -110.2314224243164, 'logps/ref_rejected': -112.15139770507812, 'logits/chosen': -1.0304532051086426, 'logits/rejected': -0.7353922128677368, 'epoch': 0.68}
 68%|████████████████████████████████████████████████████████████████████████████▍                                    | 461/681 [33:48<11:01,  3.01s/it] 68%|████████████████████████████████████████████████████████████████████████████▋                                    | 462/681 [33:51<10:46,  2.95s/it]                                                                                                                                                        {'loss': 0.5766, 'grad_norm': 25.08791160583496, 'learning_rate': 1.4318373944740484e-07, 'margin_dpo/margin_mean': 18.264904022216797, 'margin_dpo/margin_std': 16.625919342041016, 'logps/chosen': -106.20613098144531, 'logps/rejected': -121.96664428710938, 'logps/ref_chosen': -79.80224609375, 'logps/ref_rejected': -77.2978515625, 'logits/chosen': -2.122267723083496, 'logits/rejected': -1.8464157581329346, 'epoch': 0.68}
 68%|████████████████████████████████████████████████████████████████████████████▋                                    | 462/681 [33:51<10:46,  2.95s/it] 68%|████████████████████████████████████████████████████████████████████████████▊                                    | 463/681 [33:54<10:39,  2.93s/it]                                                                                                                                                        {'loss': 0.5968, 'grad_norm': 25.841707229614258, 'learning_rate': 1.4202485903778976e-07, 'margin_dpo/margin_mean': 22.628652572631836, 'margin_dpo/margin_std': 19.861661911010742, 'logps/chosen': -93.4617919921875, 'logps/rejected': -121.64329528808594, 'logps/ref_chosen': -71.40604400634766, 'logps/ref_rejected': -76.95889282226562, 'logits/chosen': -2.0914337635040283, 'logits/rejected': -1.7170106172561646, 'epoch': 0.68}
 68%|████████████████████████████████████████████████████████████████████████████▊                                    | 463/681 [33:54<10:39,  2.93s/it] 68%|████████████████████████████████████████████████████████████████████████████▉                                    | 464/681 [33:56<10:24,  2.88s/it]                                                                                                                                                        {'loss': 0.6442, 'grad_norm': 29.462730407714844, 'learning_rate': 1.4086882387355658e-07, 'margin_dpo/margin_mean': 15.728658676147461, 'margin_dpo/margin_std': 12.379182815551758, 'logps/chosen': -125.587158203125, 'logps/rejected': -170.02841186523438, 'logps/ref_chosen': -92.85479736328125, 'logps/ref_rejected': -121.56739807128906, 'logits/chosen': -1.1162123680114746, 'logits/rejected': -1.4878854751586914, 'epoch': 0.68}
 68%|████████████████████████████████████████████████████████████████████████████▉                                    | 464/681 [33:57<10:24,  2.88s/it] 68%|█████████████████████████████████████████████████████████████████████████████▏                                   | 465/681 [34:00<10:32,  2.93s/it]                                                                                                                                                        {'loss': 0.4936, 'grad_norm': 24.474634170532227, 'learning_rate': 1.3971566441730714e-07, 'margin_dpo/margin_mean': 23.03533172607422, 'margin_dpo/margin_std': 21.698204040527344, 'logps/chosen': -112.57616424560547, 'logps/rejected': -143.59713745117188, 'logps/ref_chosen': -86.05903625488281, 'logps/ref_rejected': -94.044677734375, 'logits/chosen': -1.3897593021392822, 'logits/rejected': -1.0794075727462769, 'epoch': 0.68}
 68%|█████████████████████████████████████████████████████████████████████████████▏                                   | 465/681 [34:00<10:32,  2.93s/it] 68%|█████████████████████████████████████████████████████████████████████████████▎                                   | 466/681 [34:03<10:40,  2.98s/it]                                                                                                                                                        {'loss': 0.5221, 'grad_norm': 25.171062469482422, 'learning_rate': 1.3856541105586545e-07, 'margin_dpo/margin_mean': 24.440139770507812, 'margin_dpo/margin_std': 19.990158081054688, 'logps/chosen': -118.66007232666016, 'logps/rejected': -123.89339447021484, 'logps/ref_chosen': -93.65107727050781, 'logps/ref_rejected': -74.44425964355469, 'logits/chosen': -1.600342035293579, 'logits/rejected': -0.7873063087463379, 'epoch': 0.68}
 68%|█████████████████████████████████████████████████████████████████████████████▎                                   | 466/681 [34:03<10:40,  2.98s/it] 69%|█████████████████████████████████████████████████████████████████████████████▍                                   | 467/681 [34:05<10:30,  2.95s/it]                                                                                                                                                        {'loss': 0.5664, 'grad_norm': 24.633567810058594, 'learning_rate': 1.3741809409947729e-07, 'margin_dpo/margin_mean': 29.18516731262207, 'margin_dpo/margin_std': 19.719329833984375, 'logps/chosen': -127.40275573730469, 'logps/rejected': -163.00355529785156, 'logps/ref_chosen': -100.60771179199219, 'logps/ref_rejected': -107.02332305908203, 'logits/chosen': -1.2185485363006592, 'logits/rejected': -0.803144097328186, 'epoch': 0.69}
 69%|█████████████████████████████████████████████████████████████████████████████▍                                   | 467/681 [34:06<10:30,  2.95s/it] 69%|█████████████████████████████████████████████████████████████████████████████▋                                   | 468/681 [34:09<10:36,  2.99s/it]                                                                                                                                                        {'loss': 0.7409, 'grad_norm': 31.386714935302734, 'learning_rate': 1.362737437810114e-07, 'margin_dpo/margin_mean': 20.559078216552734, 'margin_dpo/margin_std': 20.951251983642578, 'logps/chosen': -118.3271255493164, 'logps/rejected': -163.67080688476562, 'logps/ref_chosen': -96.5201187133789, 'logps/ref_rejected': -121.30470275878906, 'logits/chosen': -1.2606921195983887, 'logits/rejected': -1.089573621749878, 'epoch': 0.69}
 69%|█████████████████████████████████████████████████████████████████████████████▋                                   | 468/681 [34:09<10:36,  2.99s/it] 69%|█████████████████████████████████████████████████████████████████████████████▊                                   | 469/681 [34:12<10:35,  3.00s/it]                                                                                                                                                        {'loss': 0.5459, 'grad_norm': 27.293046951293945, 'learning_rate': 1.351323902551631e-07, 'margin_dpo/margin_mean': 21.50157928466797, 'margin_dpo/margin_std': 19.085735321044922, 'logps/chosen': -88.2209701538086, 'logps/rejected': -139.1120147705078, 'logps/ref_chosen': -57.2293586730957, 'logps/ref_rejected': -86.61882019042969, 'logits/chosen': -1.0601452589035034, 'logits/rejected': -1.0791672468185425, 'epoch': 0.69}
 69%|█████████████████████████████████████████████████████████████████████████████▊                                   | 469/681 [34:12<10:35,  3.00s/it] 69%|█████████████████████████████████████████████████████████████████████████████▉                                   | 470/681 [34:14<10:14,  2.91s/it]                                                                                                                                                        {'loss': 0.5101, 'grad_norm': 22.850967407226562, 'learning_rate': 1.339940635976592e-07, 'margin_dpo/margin_mean': 20.166732788085938, 'margin_dpo/margin_std': 13.451013565063477, 'logps/chosen': -112.50442504882812, 'logps/rejected': -117.85956573486328, 'logps/ref_chosen': -87.85397338867188, 'logps/ref_rejected': -73.04238891601562, 'logits/chosen': -0.9972758889198303, 'logits/rejected': -0.3706229329109192, 'epoch': 0.69}
 69%|█████████████████████████████████████████████████████████████████████████████▉                                   | 470/681 [34:14<10:14,  2.91s/it] 69%|██████████████████████████████████████████████████████████████████████████████▏                                  | 471/681 [34:17<10:02,  2.87s/it]                                                                                                                                                        {'loss': 0.4371, 'grad_norm': 20.220306396484375, 'learning_rate': 1.3285879380446563e-07, 'margin_dpo/margin_mean': 22.2884521484375, 'margin_dpo/margin_std': 12.328178405761719, 'logps/chosen': -130.043701171875, 'logps/rejected': -165.02394104003906, 'logps/ref_chosen': -98.69927978515625, 'logps/ref_rejected': -111.39106750488281, 'logits/chosen': -1.0001336336135864, 'logits/rejected': -1.0569403171539307, 'epoch': 0.69}
 69%|██████████████████████████████████████████████████████████████████████████████▏                                  | 471/681 [34:17<10:02,  2.87s/it] 69%|██████████████████████████████████████████████████████████████████████████████▎                                  | 472/681 [34:20<10:27,  3.00s/it]                                                                                                                                                        {'loss': 0.4734, 'grad_norm': 27.954729080200195, 'learning_rate': 1.317266107909975e-07, 'margin_dpo/margin_mean': 21.763275146484375, 'margin_dpo/margin_std': 16.120174407958984, 'logps/chosen': -180.3785400390625, 'logps/rejected': -163.5217742919922, 'logps/ref_chosen': -154.4603271484375, 'logps/ref_rejected': -115.84030151367188, 'logits/chosen': -1.4778022766113281, 'logits/rejected': -0.5768337249755859, 'epoch': 0.69}
 69%|██████████████████████████████████████████████████████████████████████████████▎                                  | 472/681 [34:20<10:27,  3.00s/it] 69%|██████████████████████████████████████████████████████████████████████████████▍                                  | 473/681 [34:24<10:38,  3.07s/it]                                                                                                                                                        {'loss': 0.6772, 'grad_norm': 27.106035232543945, 'learning_rate': 1.3059754439133002e-07, 'margin_dpo/margin_mean': 14.2333345413208, 'margin_dpo/margin_std': 18.283645629882812, 'logps/chosen': -156.43284606933594, 'logps/rejected': -144.3042449951172, 'logps/ref_chosen': -124.94532775878906, 'logps/ref_rejected': -98.58340454101562, 'logits/chosen': -1.175186276435852, 'logits/rejected': -0.891939640045166, 'epoch': 0.69}
 69%|██████████████████████████████████████████████████████████████████████████████▍                                  | 473/681 [34:24<10:38,  3.07s/it] 70%|██████████████████████████████████████████████████████████████████████████████▋                                  | 474/681 [34:27<10:42,  3.11s/it]                                                                                                                                                        {'loss': 0.9112, 'grad_norm': 41.271942138671875, 'learning_rate': 1.2947162435741277e-07, 'margin_dpo/margin_mean': 21.427288055419922, 'margin_dpo/margin_std': 19.77497673034668, 'logps/chosen': -98.8539810180664, 'logps/rejected': -183.00289916992188, 'logps/ref_chosen': -68.98202514648438, 'logps/ref_rejected': -131.7036590576172, 'logits/chosen': -1.574142575263977, 'logits/rejected': -1.827897071838379, 'epoch': 0.7}
 70%|██████████████████████████████████████████████████████████████████████████████▋                                  | 474/681 [34:27<10:42,  3.11s/it] 70%|██████████████████████████████████████████████████████████████████████████████▊                                  | 475/681 [34:30<10:20,  3.01s/it]                                                                                                                                                        {'loss': 0.6614, 'grad_norm': 27.248205184936523, 'learning_rate': 1.2834888035828596e-07, 'margin_dpo/margin_mean': 17.609081268310547, 'margin_dpo/margin_std': 17.966053009033203, 'logps/chosen': -99.45306396484375, 'logps/rejected': -138.05735778808594, 'logps/ref_chosen': -73.41651916503906, 'logps/ref_rejected': -94.41173553466797, 'logits/chosen': -2.1355481147766113, 'logits/rejected': -2.075871229171753, 'epoch': 0.7}
 70%|██████████████████████████████████████████████████████████████████████████████▊                                  | 475/681 [34:30<10:20,  3.01s/it] 70%|██████████████████████████████████████████████████████████████████████████████▉                                  | 476/681 [34:32<10:10,  2.98s/it]                                                                                                                                                        {'loss': 0.666, 'grad_norm': 22.6929874420166, 'learning_rate': 1.2722934197929802e-07, 'margin_dpo/margin_mean': 22.775375366210938, 'margin_dpo/margin_std': 21.31452178955078, 'logps/chosen': -102.75193786621094, 'logps/rejected': -143.93138122558594, 'logps/ref_chosen': -74.20452117919922, 'logps/ref_rejected': -92.60858917236328, 'logits/chosen': -2.7777254581451416, 'logits/rejected': -2.2750704288482666, 'epoch': 0.7}
 70%|██████████████████████████████████████████████████████████████████████████████▉                                  | 476/681 [34:33<10:10,  2.98s/it] 70%|███████████████████████████████████████████████████████████████████████████████▏                                 | 477/681 [34:35<10:03,  2.96s/it]                                                                                                                                                        {'loss': 0.5533, 'grad_norm': 24.573259353637695, 'learning_rate': 1.2611303872132631e-07, 'margin_dpo/margin_mean': 23.8519287109375, 'margin_dpo/margin_std': 17.174068450927734, 'logps/chosen': -130.92428588867188, 'logps/rejected': -120.82994079589844, 'logps/ref_chosen': -102.4937515258789, 'logps/ref_rejected': -68.5474853515625, 'logits/chosen': -3.4070348739624023, 'logits/rejected': -2.3290576934814453, 'epoch': 0.7}
 70%|███████████████████████████████████████████████████████████████████████████████▏                                 | 477/681 [34:35<10:03,  2.96s/it] 70%|███████████████████████████████████████████████████████████████████████████████▎                                 | 478/681 [34:39<10:17,  3.04s/it]                                                                                                                                                        {'loss': 0.5916, 'grad_norm': 22.8625545501709, 'learning_rate': 1.2500000000000005e-07, 'margin_dpo/margin_mean': 12.25357437133789, 'margin_dpo/margin_std': 14.410320281982422, 'logps/chosen': -93.35462951660156, 'logps/rejected': -111.02110290527344, 'logps/ref_chosen': -64.2506103515625, 'logps/ref_rejected': -69.66351318359375, 'logits/chosen': -1.4574041366577148, 'logits/rejected': -1.3147239685058594, 'epoch': 0.7}
 70%|███████████████████████████████████████████████████████████████████████████████▎                                 | 478/681 [34:39<10:17,  3.04s/it] 70%|███████████████████████████████████████████████████████████████████████████████▍                                 | 479/681 [34:41<09:57,  2.96s/it]                                                                                                                                                        {'loss': 0.6646, 'grad_norm': 27.097768783569336, 'learning_rate': 1.2389025514492456e-07, 'margin_dpo/margin_mean': 20.42224884033203, 'margin_dpo/margin_std': 16.232749938964844, 'logps/chosen': -101.08732604980469, 'logps/rejected': -144.12460327148438, 'logps/ref_chosen': -73.15229034423828, 'logps/ref_rejected': -95.76731872558594, 'logits/chosen': -1.1350903511047363, 'logits/rejected': -1.2377521991729736, 'epoch': 0.7}
 70%|███████████████████████████████████████████████████████████████████████████████▍                                 | 479/681 [34:41<09:57,  2.96s/it] 70%|███████████████████████████████████████████████████████████████████████████████▋                                 | 480/681 [34:44<09:47,  2.92s/it]                                                                                                                                                        {'loss': 0.5901, 'grad_norm': 27.788637161254883, 'learning_rate': 1.227838333989088e-07, 'margin_dpo/margin_mean': 23.498985290527344, 'margin_dpo/margin_std': 15.09835433959961, 'logps/chosen': -117.9144515991211, 'logps/rejected': -129.16677856445312, 'logps/ref_chosen': -90.6583251953125, 'logps/ref_rejected': -78.41166687011719, 'logits/chosen': -0.924386739730835, 'logits/rejected': -0.4081732928752899, 'epoch': 0.7}
 70%|███████████████████████████████████████████████████████████████████████████████▋                                 | 480/681 [34:44<09:47,  2.92s/it] 71%|███████████████████████████████████████████████████████████████████████████████▊                                 | 481/681 [34:47<09:45,  2.93s/it]                                                                                                                                                        {'loss': 0.595, 'grad_norm': 25.31952476501465, 'learning_rate': 1.2168076391719489e-07, 'margin_dpo/margin_mean': 13.803601264953613, 'margin_dpo/margin_std': 14.735580444335938, 'logps/chosen': -112.26165771484375, 'logps/rejected': -123.01365661621094, 'logps/ref_chosen': -77.6314468383789, 'logps/ref_rejected': -74.5798568725586, 'logits/chosen': -1.2236384153366089, 'logits/rejected': -0.7734112739562988, 'epoch': 0.71}
 71%|███████████████████████████████████████████████████████████████████████████████▊                                 | 481/681 [34:47<09:45,  2.93s/it] 71%|███████████████████████████████████████████████████████████████████████████████▉                                 | 482/681 [34:50<09:54,  2.99s/it]                                                                                                                                                        {'loss': 0.705, 'grad_norm': 30.939720153808594, 'learning_rate': 1.2058107576668938e-07, 'margin_dpo/margin_mean': 16.930465698242188, 'margin_dpo/margin_std': 15.111373901367188, 'logps/chosen': -132.59231567382812, 'logps/rejected': -150.3515625, 'logps/ref_chosen': -99.90892791748047, 'logps/ref_rejected': -100.73772430419922, 'logits/chosen': -1.545617938041687, 'logits/rejected': -1.4013819694519043, 'epoch': 0.71}
 71%|███████████████████████████████████████████████████████████████████████████████▉                                 | 482/681 [34:50<09:54,  2.99s/it] 71%|████████████████████████████████████████████████████████████████████████████████▏                                | 483/681 [34:53<09:43,  2.95s/it]                                                                                                                                                        {'loss': 0.523, 'grad_norm': 23.95891571044922, 'learning_rate': 1.194847979251979e-07, 'margin_dpo/margin_mean': 27.50977325439453, 'margin_dpo/margin_std': 21.83698272705078, 'logps/chosen': -138.04351806640625, 'logps/rejected': -157.34286499023438, 'logps/ref_chosen': -114.92469787597656, 'logps/ref_rejected': -106.71426391601562, 'logits/chosen': -2.434985637664795, 'logits/rejected': -1.8117592334747314, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████████████████████▏                                | 483/681 [34:53<09:43,  2.95s/it] 71%|████████████████████████████████████████████████████████████████████████████████▎                                | 484/681 [34:56<09:22,  2.86s/it]                                                                                                                                                        {'loss': 0.5374, 'grad_norm': 20.260234832763672, 'learning_rate': 1.1839195928066101e-07, 'margin_dpo/margin_mean': 20.175811767578125, 'margin_dpo/margin_std': 17.458547592163086, 'logps/chosen': -112.14205932617188, 'logps/rejected': -114.17668914794922, 'logps/ref_chosen': -80.64376831054688, 'logps/ref_rejected': -62.502586364746094, 'logits/chosen': -2.028228759765625, 'logits/rejected': -1.2856285572052002, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████████████████████▎                                | 484/681 [34:56<09:22,  2.86s/it] 71%|████████████████████████████████████████████████████████████████████████████████▍                                | 485/681 [34:59<09:19,  2.85s/it]                                                                                                                                                        {'loss': 0.3976, 'grad_norm': 21.97205924987793, 'learning_rate': 1.1730258863039347e-07, 'margin_dpo/margin_mean': 29.333690643310547, 'margin_dpo/margin_std': 20.77867889404297, 'logps/chosen': -116.61924743652344, 'logps/rejected': -165.03895568847656, 'logps/ref_chosen': -92.76929473876953, 'logps/ref_rejected': -111.85530090332031, 'logits/chosen': -1.9410022497177124, 'logits/rejected': -1.6192748546600342, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████████████████████▍                                | 485/681 [34:59<09:19,  2.85s/it] 71%|████████████████████████████████████████████████████████████████████████████████▋                                | 486/681 [35:01<08:55,  2.75s/it]                                                                                                                                                        {'loss': 0.5486, 'grad_norm': 28.425851821899414, 'learning_rate': 1.1621671468032493e-07, 'margin_dpo/margin_mean': 31.947128295898438, 'margin_dpo/margin_std': 18.083139419555664, 'logps/chosen': -123.26519012451172, 'logps/rejected': -155.62200927734375, 'logps/ref_chosen': -100.41597747802734, 'logps/ref_rejected': -100.8256607055664, 'logits/chosen': -1.306410312652588, 'logits/rejected': -0.296735554933548, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████████████████████▋                                | 486/681 [35:01<08:55,  2.75s/it] 72%|████████████████████████████████████████████████████████████████████████████████▊                                | 487/681 [35:04<09:14,  2.86s/it]                                                                                                                                                        {'loss': 0.4507, 'grad_norm': 23.94493293762207, 'learning_rate': 1.1513436604424378e-07, 'margin_dpo/margin_mean': 27.979373931884766, 'margin_dpo/margin_std': 18.914302825927734, 'logps/chosen': -131.52816772460938, 'logps/rejected': -166.06118774414062, 'logps/ref_chosen': -100.6910400390625, 'logps/ref_rejected': -107.24468994140625, 'logits/chosen': -2.2987453937530518, 'logits/rejected': -1.9822089672088623, 'epoch': 0.72}
 72%|████████████████████████████████████████████████████████████████████████████████▊                                | 487/681 [35:04<09:14,  2.86s/it] 72%|████████████████████████████████████████████████████████████████████████████████▉                                | 488/681 [35:07<09:25,  2.93s/it]                                                                                                                                                        {'loss': 0.5527, 'grad_norm': 27.051164627075195, 'learning_rate': 1.1405557124304335e-07, 'margin_dpo/margin_mean': 19.399627685546875, 'margin_dpo/margin_std': 15.338823318481445, 'logps/chosen': -131.36257934570312, 'logps/rejected': -148.592529296875, 'logps/ref_chosen': -107.36306762695312, 'logps/ref_rejected': -105.19340515136719, 'logits/chosen': -1.088942527770996, 'logits/rejected': -0.8271230459213257, 'epoch': 0.72}
 72%|████████████████████████████████████████████████████████████████████████████████▉                                | 488/681 [35:07<09:25,  2.93s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▏                               | 489/681 [35:10<09:20,  2.92s/it]                                                                                                                                                        {'loss': 0.6173, 'grad_norm': 26.43874168395996, 'learning_rate': 1.1298035870396985e-07, 'margin_dpo/margin_mean': 16.190275192260742, 'margin_dpo/margin_std': 13.990297317504883, 'logps/chosen': -119.86599731445312, 'logps/rejected': -122.27718353271484, 'logps/ref_chosen': -95.271240234375, 'logps/ref_rejected': -81.49215698242188, 'logits/chosen': -0.9547609090805054, 'logits/rejected': -0.39513295888900757, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████████████████████▏                               | 489/681 [35:10<09:20,  2.92s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▎                               | 490/681 [35:13<09:28,  2.97s/it]                                                                                                                                                        {'loss': 0.7967, 'grad_norm': 29.264699935913086, 'learning_rate': 1.1190875675987355e-07, 'margin_dpo/margin_mean': 15.706191062927246, 'margin_dpo/margin_std': 23.679283142089844, 'logps/chosen': -112.51838684082031, 'logps/rejected': -191.67208862304688, 'logps/ref_chosen': -85.32609558105469, 'logps/ref_rejected': -148.7736053466797, 'logits/chosen': -2.5108864307403564, 'logits/rejected': -2.8467113971710205, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████████████████████▎                               | 490/681 [35:13<09:28,  2.97s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▍                               | 491/681 [35:16<09:14,  2.92s/it]                                                                                                                                                        {'loss': 0.7306, 'grad_norm': 28.753334045410156, 'learning_rate': 1.1084079364846241e-07, 'margin_dpo/margin_mean': 23.228939056396484, 'margin_dpo/margin_std': 21.352033615112305, 'logps/chosen': -135.39317321777344, 'logps/rejected': -144.2461700439453, 'logps/ref_chosen': -105.19956970214844, 'logps/ref_rejected': -90.82363891601562, 'logits/chosen': -1.7324990034103394, 'logits/rejected': -1.075792670249939, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████████████████████▍                               | 491/681 [35:16<09:14,  2.92s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▋                               | 492/681 [35:19<09:12,  2.92s/it]                                                                                                                                                        {'loss': 0.7929, 'grad_norm': 26.195093154907227, 'learning_rate': 1.097764975115576e-07, 'margin_dpo/margin_mean': 18.426122665405273, 'margin_dpo/margin_std': 19.221683502197266, 'logps/chosen': -91.94832611083984, 'logps/rejected': -113.68507385253906, 'logps/ref_chosen': -66.54839324951172, 'logps/ref_rejected': -69.85902404785156, 'logits/chosen': -2.059189558029175, 'logits/rejected': -1.671616792678833, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████████████████████▋                               | 492/681 [35:19<09:12,  2.92s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▊                               | 493/681 [35:22<09:18,  2.97s/it]                                                                                                                                                        {'loss': 0.5993, 'grad_norm': 27.575870513916016, 'learning_rate': 1.0871589639435203e-07, 'margin_dpo/margin_mean': 26.582361221313477, 'margin_dpo/margin_std': 20.35706329345703, 'logps/chosen': -162.7125244140625, 'logps/rejected': -184.400390625, 'logps/ref_chosen': -138.72125244140625, 'logps/ref_rejected': -133.82675170898438, 'logits/chosen': -1.1041479110717773, 'logits/rejected': -0.9681916236877441, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████████████████████▊                               | 493/681 [35:22<09:18,  2.97s/it] 73%|█████████████████████████████████████████████████████████████████████████████████▉                               | 494/681 [35:25<08:57,  2.87s/it]                                                                                                                                                        {'loss': 0.5601, 'grad_norm': 23.7596492767334, 'learning_rate': 1.0765901824467166e-07, 'margin_dpo/margin_mean': 31.34137535095215, 'margin_dpo/margin_std': 21.264366149902344, 'logps/chosen': -97.23701477050781, 'logps/rejected': -135.43707275390625, 'logps/ref_chosen': -66.82516479492188, 'logps/ref_rejected': -73.68384552001953, 'logits/chosen': -0.6587156057357788, 'logits/rejected': -0.5145885348320007, 'epoch': 0.73}
 73%|█████████████████████████████████████████████████████████████████████████████████▉                               | 494/681 [35:25<08:57,  2.87s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▏                              | 495/681 [35:28<09:04,  2.93s/it]                                                                                                                                                        {'loss': 0.7539, 'grad_norm': 34.367488861083984, 'learning_rate': 1.0660589091223854e-07, 'margin_dpo/margin_mean': 18.730424880981445, 'margin_dpo/margin_std': 13.805540084838867, 'logps/chosen': -108.4244613647461, 'logps/rejected': -108.88243103027344, 'logps/ref_chosen': -87.1620864868164, 'logps/ref_rejected': -68.8896255493164, 'logits/chosen': -1.8472561836242676, 'logits/rejected': -1.2327227592468262, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▏                              | 495/681 [35:28<09:04,  2.93s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▎                              | 496/681 [35:31<09:12,  2.99s/it]                                                                                                                                                        {'loss': 0.6622, 'grad_norm': 30.489227294921875, 'learning_rate': 1.0555654214793722e-07, 'margin_dpo/margin_mean': 18.975727081298828, 'margin_dpo/margin_std': 19.945220947265625, 'logps/chosen': -122.41502380371094, 'logps/rejected': -157.75169372558594, 'logps/ref_chosen': -90.9640884399414, 'logps/ref_rejected': -107.32502746582031, 'logits/chosen': -2.2407476902008057, 'logits/rejected': -2.1656553745269775, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▎                              | 496/681 [35:31<09:12,  2.99s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▍                              | 497/681 [35:34<09:16,  3.03s/it]                                                                                                                                                        {'loss': 0.6999, 'grad_norm': 24.2734432220459, 'learning_rate': 1.0451099960308374e-07, 'margin_dpo/margin_mean': 19.450889587402344, 'margin_dpo/margin_std': 14.824586868286133, 'logps/chosen': -114.13996124267578, 'logps/rejected': -121.43716430664062, 'logps/ref_chosen': -89.48576354980469, 'logps/ref_rejected': -77.33207702636719, 'logits/chosen': -1.2152756452560425, 'logits/rejected': -0.7649951577186584, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▍                              | 497/681 [35:34<09:16,  3.03s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▋                              | 498/681 [35:37<09:10,  3.01s/it]                                                                                                                                                        {'loss': 0.5858, 'grad_norm': 31.715137481689453, 'learning_rate': 1.0346929082869641e-07, 'margin_dpo/margin_mean': 16.34941864013672, 'margin_dpo/margin_std': 10.946194648742676, 'logps/chosen': -113.42682647705078, 'logps/rejected': -101.58597564697266, 'logps/ref_chosen': -86.19139099121094, 'logps/ref_rejected': -58.00111389160156, 'logits/chosen': -1.5480034351348877, 'logits/rejected': -0.859655499458313, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▋                              | 498/681 [35:37<09:10,  3.01s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▊                              | 499/681 [35:40<09:00,  2.97s/it]                                                                                                                                                        {'loss': 0.6569, 'grad_norm': 26.94870376586914, 'learning_rate': 1.0243144327477013e-07, 'margin_dpo/margin_mean': 15.444196701049805, 'margin_dpo/margin_std': 16.970027923583984, 'logps/chosen': -121.62670135498047, 'logps/rejected': -175.87213134765625, 'logps/ref_chosen': -93.28053283691406, 'logps/ref_rejected': -132.08175659179688, 'logits/chosen': -1.2497620582580566, 'logits/rejected': -1.404412031173706, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▊                              | 499/681 [35:40<09:00,  2.97s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▉                              | 500/681 [35:43<08:48,  2.92s/it]                                                                                                                                                        {'loss': 0.7107, 'grad_norm': 30.46588897705078, 'learning_rate': 1.0139748428955333e-07, 'margin_dpo/margin_mean': 21.971506118774414, 'margin_dpo/margin_std': 22.098201751708984, 'logps/chosen': -104.04843139648438, 'logps/rejected': -146.70986938476562, 'logps/ref_chosen': -77.39090728759766, 'logps/ref_rejected': -98.08084106445312, 'logits/chosen': -2.575468063354492, 'logits/rejected': -2.286226272583008, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▉                              | 500/681 [35:43<08:48,  2.92s/it][INFO|trainer.py:4307] 2026-04-24 00:30:50,324 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 00:30:50,324 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 00:30:50,324 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:18,  3.84it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:28,  2.45it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:34,  1.99it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:34,  1.95it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.82it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:36,  1.83it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:03<00:34,  1.91it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:38,  1.68it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.69it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:38,  1.62it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:36,  1.66it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:36,  1.66it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.64it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:35,  1.63it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.59it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.58it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:31,  1.72it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:10<00:35,  1.53it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:35,  1.50it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:34,  1.52it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:12<00:33,  1.54it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:31,  1.60it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.54it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.57it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:27,  1.70it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.76it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.68it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.70it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:25,  1.72it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.75it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:24,  1.69it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.70it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:19<00:21,  1.78it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:22,  1.69it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:21,  1.70it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.60it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:21,  1.65it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:21,  1.60it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.69it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:17,  1.73it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:16,  1.77it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.62it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.57it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.67it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.66it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.62it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.64it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:13,  1.71it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.60it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:31<00:13,  1.55it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:13,  1.53it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.65it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.69it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.65it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:09,  1.60it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:07,  1.76it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:08,  1.62it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.69it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:36<00:06,  1.64it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.77it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:37<00:04,  1.84it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.71it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:03,  1.75it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.69it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.73it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:40<00:02,  1.66it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.58it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:42<00:00,  1.59it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.73it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.4213423430919647, 'eval_runtime': 44.044, 'eval_samples_per_second': 53.106, 'eval_steps_per_second': 1.68, 'eval_margin_dpo/margin_mean': 15.860573768615723, 'eval_margin_dpo/margin_std': 17.095046997070312, 'eval_logps/chosen': -131.5918426513672, 'eval_logps/rejected': -138.25230407714844, 'eval_logps/ref_chosen': -101.88616943359375, 'eval_logps/ref_rejected': -92.68607330322266, 'eval_logits/chosen': -1.337835669517517, 'eval_logits/rejected': -1.0359337329864502, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▉                              | 500/681 [36:27<08:48,  2.92s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.73it/s][A
                                                                                                                                                        [A 74%|███████████████████████████████████████████████████████████████████████████████████▏                             | 501/681 [36:30<48:20, 16.11s/it]                                                                                                                                                        {'loss': 0.7031, 'grad_norm': 32.96603775024414, 'learning_rate': 1.0036744111882672e-07, 'margin_dpo/margin_mean': 18.67972755432129, 'margin_dpo/margin_std': 21.08388900756836, 'logps/chosen': -104.76618957519531, 'logps/rejected': -124.26972961425781, 'logps/ref_chosen': -76.12673950195312, 'logps/ref_rejected': -76.95055389404297, 'logits/chosen': -1.9527108669281006, 'logits/rejected': -1.451664924621582, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▏                             | 501/681 [36:30<48:20, 16.11s/it] 74%|███████████████████████████████████████████████████████████████████████████████████▎                             | 502/681 [36:33<36:19, 12.18s/it]                                                                                                                                                        {'loss': 0.6598, 'grad_norm': 26.178499221801758, 'learning_rate': 9.934134090518592e-08, 'margin_dpo/margin_mean': 14.95276165008545, 'margin_dpo/margin_std': 16.38261604309082, 'logps/chosen': -137.14662170410156, 'logps/rejected': -124.19863891601562, 'logps/ref_chosen': -105.97865295410156, 'logps/ref_rejected': -78.07791137695312, 'logits/chosen': -1.0793780088424683, 'logits/rejected': -0.21455411612987518, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▎                             | 502/681 [36:33<36:19, 12.18s/it] 74%|███████████████████████████████████████████████████████████████████████████████████▍                             | 503/681 [36:36<28:03,  9.46s/it]                                                                                                                                                        {'loss': 0.6637, 'grad_norm': 29.94610595703125, 'learning_rate': 9.831921068732571e-08, 'margin_dpo/margin_mean': 21.43708038330078, 'margin_dpo/margin_std': 14.342729568481445, 'logps/chosen': -97.82994079589844, 'logps/rejected': -107.19987487792969, 'logps/ref_chosen': -74.26416015625, 'logps/ref_rejected': -62.19700241088867, 'logits/chosen': -0.928479015827179, 'logits/rejected': -0.2922493815422058, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▍                             | 503/681 [36:36<28:03,  9.46s/it] 74%|███████████████████████████████████████████████████████████████████████████████████▋                             | 504/681 [36:39<22:16,  7.55s/it]                                                                                                                                                        {'loss': 0.4438, 'grad_norm': 25.398269653320312, 'learning_rate': 9.730107739932805e-08, 'margin_dpo/margin_mean': 24.96117401123047, 'margin_dpo/margin_std': 15.161877632141113, 'logps/chosen': -123.76087951660156, 'logps/rejected': -140.589111328125, 'logps/ref_chosen': -100.04080200195312, 'logps/ref_rejected': -91.90785217285156, 'logits/chosen': -1.9864063262939453, 'logits/rejected': -1.3488131761550903, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▋                             | 504/681 [36:39<22:16,  7.55s/it] 74%|███████████████████████████████████████████████████████████████████████████████████▊                             | 505/681 [36:42<18:05,  6.16s/it]                                                                                                                                                        {'loss': 0.5544, 'grad_norm': 36.0130500793457, 'learning_rate': 9.628696786995188e-08, 'margin_dpo/margin_mean': 29.554908752441406, 'margin_dpo/margin_std': 23.2249698638916, 'logps/chosen': -144.2436065673828, 'logps/rejected': -159.46884155273438, 'logps/ref_chosen': -120.70248413085938, 'logps/ref_rejected': -106.37281799316406, 'logits/chosen': -2.0708212852478027, 'logits/rejected': -1.4549051523208618, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▊                             | 505/681 [36:42<18:05,  6.16s/it] 74%|███████████████████████████████████████████████████████████████████████████████████▉                             | 506/681 [36:45<14:58,  5.13s/it]                                                                                                                                                        {'loss': 0.5739, 'grad_norm': 22.152841567993164, 'learning_rate': 9.527690882192635e-08, 'margin_dpo/margin_mean': 15.469791412353516, 'margin_dpo/margin_std': 15.011087417602539, 'logps/chosen': -129.5956268310547, 'logps/rejected': -122.17888641357422, 'logps/ref_chosen': -99.54842376708984, 'logps/ref_rejected': -76.66189575195312, 'logits/chosen': -2.4234611988067627, 'logits/rejected': -1.7693153619766235, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▉                             | 506/681 [36:45<14:58,  5.13s/it] 74%|████████████████████████████████████████████████████████████████████████████████████▏                            | 507/681 [36:47<12:52,  4.44s/it]                                                                                                                                                        {'loss': 0.6956, 'grad_norm': 30.579790115356445, 'learning_rate': 9.427092687124691e-08, 'margin_dpo/margin_mean': 25.025875091552734, 'margin_dpo/margin_std': 18.596511840820312, 'logps/chosen': -135.46640014648438, 'logps/rejected': -167.599365234375, 'logps/ref_chosen': -110.98868560791016, 'logps/ref_rejected': -118.09579467773438, 'logits/chosen': -1.8249220848083496, 'logits/rejected': -1.0810041427612305, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████████████████████▏                            | 507/681 [36:47<12:52,  4.44s/it] 75%|████████████████████████████████████████████████████████████████████████████████████▎                            | 508/681 [36:50<11:34,  4.01s/it]                                                                                                                                                        {'loss': 0.7563, 'grad_norm': 32.01652908325195, 'learning_rate': 9.326904852647344e-08, 'margin_dpo/margin_mean': 25.71923065185547, 'margin_dpo/margin_std': 28.898908615112305, 'logps/chosen': -140.34487915039062, 'logps/rejected': -210.63319396972656, 'logps/ref_chosen': -115.07064819335938, 'logps/ref_rejected': -159.63973999023438, 'logits/chosen': -1.6956753730773926, 'logits/rejected': -1.3768240213394165, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████████████████████▎                            | 508/681 [36:50<11:34,  4.01s/it] 75%|████████████████████████████████████████████████████████████████████████████████████▍                            | 509/681 [36:54<10:45,  3.75s/it]                                                                                                                                                        {'loss': 0.8266, 'grad_norm': 38.91352081298828, 'learning_rate': 9.227130018803195e-08, 'margin_dpo/margin_mean': 16.547025680541992, 'margin_dpo/margin_std': 21.260597229003906, 'logps/chosen': -126.22138977050781, 'logps/rejected': -149.70640563964844, 'logps/ref_chosen': -101.36344909667969, 'logps/ref_rejected': -108.30143737792969, 'logits/chosen': -1.2427645921707153, 'logits/rejected': -0.8354566693305969, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████████████████████▍                            | 509/681 [36:54<10:45,  3.75s/it] 75%|████████████████████████████████████████████████████████████████████████████████████▋                            | 510/681 [36:57<10:05,  3.54s/it]                                                                                                                                                        {'loss': 0.7292, 'grad_norm': 28.172101974487305, 'learning_rate': 9.127770814751932e-08, 'margin_dpo/margin_mean': 30.24038314819336, 'margin_dpo/margin_std': 28.988506317138672, 'logps/chosen': -110.28907775878906, 'logps/rejected': -142.86691284179688, 'logps/ref_chosen': -74.63158416748047, 'logps/ref_rejected': -76.96902465820312, 'logits/chosen': -1.961017370223999, 'logits/rejected': -1.5561909675598145, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████████████████████▋                            | 510/681 [36:57<10:05,  3.54s/it] 75%|████████████████████████████████████████████████████████████████████████████████████▊                            | 511/681 [37:00<09:50,  3.47s/it]                                                                                                                                                        {'loss': 0.7293, 'grad_norm': 29.637191772460938, 'learning_rate': 9.028829858700973e-08, 'margin_dpo/margin_mean': 22.036819458007812, 'margin_dpo/margin_std': 23.274316787719727, 'logps/chosen': -93.00399780273438, 'logps/rejected': -149.43972778320312, 'logps/ref_chosen': -64.2794189453125, 'logps/ref_rejected': -98.6783218383789, 'logits/chosen': -2.0202572345733643, 'logits/rejected': -1.8201736211776733, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████████████████████▊                            | 511/681 [37:00<09:50,  3.47s/it] 75%|████████████████████████████████████████████████████████████████████████████████████▉                            | 512/681 [37:02<09:01,  3.20s/it]                                                                                                                                                        {'loss': 0.7216, 'grad_norm': 34.43431854248047, 'learning_rate': 8.930309757836516e-08, 'margin_dpo/margin_mean': 18.924272537231445, 'margin_dpo/margin_std': 21.845081329345703, 'logps/chosen': -110.59320831298828, 'logps/rejected': -126.40013122558594, 'logps/ref_chosen': -82.41152954101562, 'logps/ref_rejected': -79.29417419433594, 'logits/chosen': -2.452205181121826, 'logits/rejected': -1.9652907848358154, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████████████████████▉                            | 512/681 [37:02<09:01,  3.20s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████                            | 513/681 [37:05<08:41,  3.11s/it]                                                                                                                                                        {'loss': 0.6583, 'grad_norm': 24.879047393798828, 'learning_rate': 8.832213108254863e-08, 'margin_dpo/margin_mean': 20.637096405029297, 'margin_dpo/margin_std': 14.324064254760742, 'logps/chosen': -95.06507110595703, 'logps/rejected': -128.31956481933594, 'logps/ref_chosen': -68.55144500732422, 'logps/ref_rejected': -81.16883850097656, 'logits/chosen': -2.379291534423828, 'logits/rejected': -2.0403084754943848, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████████████████████                            | 513/681 [37:05<08:41,  3.11s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████▎                           | 514/681 [37:08<08:36,  3.09s/it]                                                                                                                                                        {'loss': 0.6437, 'grad_norm': 26.90195083618164, 'learning_rate': 8.734542494893954e-08, 'margin_dpo/margin_mean': 20.49066162109375, 'margin_dpo/margin_std': 21.157379150390625, 'logps/chosen': -151.19822692871094, 'logps/rejected': -165.733154296875, 'logps/ref_chosen': -128.8970947265625, 'logps/ref_rejected': -122.94134521484375, 'logits/chosen': -1.9824368953704834, 'logits/rejected': -1.517698049545288, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████████████████████▎                           | 514/681 [37:08<08:36,  3.09s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████▍                           | 515/681 [37:11<08:26,  3.05s/it]                                                                                                                                                        {'loss': 0.7953, 'grad_norm': 30.2961368560791, 'learning_rate': 8.637300491465272e-08, 'margin_dpo/margin_mean': 11.612812042236328, 'margin_dpo/margin_std': 18.925113677978516, 'logps/chosen': -116.65281677246094, 'logps/rejected': -160.9093780517578, 'logps/ref_chosen': -83.93804931640625, 'logps/ref_rejected': -116.58180236816406, 'logits/chosen': -1.1363587379455566, 'logits/rejected': -0.9900952577590942, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████████████████████▍                           | 515/681 [37:11<08:26,  3.05s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████▌                           | 516/681 [37:14<07:56,  2.89s/it]                                                                                                                                                        {'loss': 0.6418, 'grad_norm': 27.436569213867188, 'learning_rate': 8.540489660386064e-08, 'margin_dpo/margin_mean': 24.01278305053711, 'margin_dpo/margin_std': 17.438676834106445, 'logps/chosen': -132.43113708496094, 'logps/rejected': -160.17745971679688, 'logps/ref_chosen': -106.92062377929688, 'logps/ref_rejected': -110.65416717529297, 'logits/chosen': -2.0557169914245605, 'logits/rejected': -1.6514482498168945, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████████████████████▌                           | 516/681 [37:14<07:56,  2.89s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████▊                           | 517/681 [37:17<07:56,  2.90s/it]                                                                                                                                                        {'loss': 0.539, 'grad_norm': 28.32579231262207, 'learning_rate': 8.444112552711752e-08, 'margin_dpo/margin_mean': 25.427875518798828, 'margin_dpo/margin_std': 11.098093032836914, 'logps/chosen': -110.68536376953125, 'logps/rejected': -137.059326171875, 'logps/ref_chosen': -86.00096130371094, 'logps/ref_rejected': -86.94703674316406, 'logits/chosen': -1.3749854564666748, 'logits/rejected': -1.1191842555999756, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████████████████████▊                           | 517/681 [37:17<07:56,  2.90s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████▉                           | 518/681 [37:20<08:12,  3.02s/it]                                                                                                                                                        {'loss': 0.7406, 'grad_norm': 28.546537399291992, 'learning_rate': 8.348171708068747e-08, 'margin_dpo/margin_mean': 13.710941314697266, 'margin_dpo/margin_std': 13.447914123535156, 'logps/chosen': -104.00096893310547, 'logps/rejected': -142.74261474609375, 'logps/ref_chosen': -70.59335327148438, 'logps/ref_rejected': -95.62405395507812, 'logits/chosen': -1.2067550420761108, 'logits/rejected': -1.171380639076233, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████████████████████▉                           | 518/681 [37:20<08:12,  3.02s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████                           | 519/681 [37:23<08:17,  3.07s/it]                                                                                                                                                        {'loss': 0.4639, 'grad_norm': 19.51987648010254, 'learning_rate': 8.25266965458755e-08, 'margin_dpo/margin_mean': 22.15669822692871, 'margin_dpo/margin_std': 15.507266998291016, 'logps/chosen': -124.48606872558594, 'logps/rejected': -167.92465209960938, 'logps/ref_chosen': -96.66695404052734, 'logps/ref_rejected': -117.94882202148438, 'logits/chosen': -1.9919052124023438, 'logits/rejected': -1.7074830532073975, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████████████████████                           | 519/681 [37:23<08:17,  3.07s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████▎                          | 520/681 [37:26<08:10,  3.04s/it]                                                                                                                                                        {'loss': 0.4543, 'grad_norm': 21.792402267456055, 'learning_rate': 8.15760890883607e-08, 'margin_dpo/margin_mean': 16.192813873291016, 'margin_dpo/margin_std': 14.938676834106445, 'logps/chosen': -145.54800415039062, 'logps/rejected': -172.96063232421875, 'logps/ref_chosen': -116.01941680908203, 'logps/ref_rejected': -127.23921203613281, 'logits/chosen': -1.5175939798355103, 'logits/rejected': -0.9286727905273438, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████████████████████▎                          | 520/681 [37:26<08:10,  3.04s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████▍                          | 521/681 [37:29<08:05,  3.03s/it]                                                                                                                                                        {'loss': 0.5567, 'grad_norm': 23.45681381225586, 'learning_rate': 8.062991975753378e-08, 'margin_dpo/margin_mean': 18.221412658691406, 'margin_dpo/margin_std': 10.629344940185547, 'logps/chosen': -99.95437622070312, 'logps/rejected': -126.59786987304688, 'logps/ref_chosen': -71.46085357666016, 'logps/ref_rejected': -79.8829345703125, 'logits/chosen': -1.2491178512573242, 'logits/rejected': -1.037899374961853, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████████████████████▍                          | 521/681 [37:29<08:05,  3.03s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████▌                          | 522/681 [37:32<07:57,  3.00s/it]                                                                                                                                                        {'loss': 0.6518, 'grad_norm': 24.551103591918945, 'learning_rate': 7.968821348583643e-08, 'margin_dpo/margin_mean': 22.660873413085938, 'margin_dpo/margin_std': 21.646053314208984, 'logps/chosen': -69.39967346191406, 'logps/rejected': -126.54615020751953, 'logps/ref_chosen': -42.4521369934082, 'logps/ref_rejected': -76.93772888183594, 'logits/chosen': -0.8299498558044434, 'logits/rejected': -1.041572093963623, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████████████████████▌                          | 522/681 [37:32<07:57,  3.00s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████▊                          | 523/681 [37:35<07:44,  2.94s/it]                                                                                                                                                        {'loss': 0.7682, 'grad_norm': 34.3400993347168, 'learning_rate': 7.875099508810484e-08, 'margin_dpo/margin_mean': 18.640913009643555, 'margin_dpo/margin_std': 19.8717041015625, 'logps/chosen': -174.81800842285156, 'logps/rejected': -118.07229614257812, 'logps/ref_chosen': -148.17559814453125, 'logps/ref_rejected': -72.78897857666016, 'logits/chosen': -2.052365779876709, 'logits/rejected': -0.4013219475746155, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████████████████████▊                          | 523/681 [37:35<07:44,  2.94s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████▉                          | 524/681 [37:38<07:43,  2.96s/it]                                                                                                                                                        {'loss': 0.5851, 'grad_norm': 24.858745574951172, 'learning_rate': 7.781828926091535e-08, 'margin_dpo/margin_mean': 19.25895881652832, 'margin_dpo/margin_std': 13.380806922912598, 'logps/chosen': -116.93294525146484, 'logps/rejected': -138.82461547851562, 'logps/ref_chosen': -93.44391632080078, 'logps/ref_rejected': -96.07662200927734, 'logits/chosen': -1.7648762464523315, 'logits/rejected': -1.5137319564819336, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████████████████████▉                          | 524/681 [37:38<07:43,  2.96s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████                          | 525/681 [37:41<07:36,  2.93s/it]                                                                                                                                                        {'loss': 0.6649, 'grad_norm': 31.337230682373047, 'learning_rate': 7.689012058193384e-08, 'margin_dpo/margin_mean': 18.081356048583984, 'margin_dpo/margin_std': 19.914634704589844, 'logps/chosen': -112.10871124267578, 'logps/rejected': -135.60104370117188, 'logps/ref_chosen': -83.10411834716797, 'logps/ref_rejected': -88.51509094238281, 'logits/chosen': -1.9353046417236328, 'logits/rejected': -1.7126715183258057, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████████████████████                          | 525/681 [37:41<07:36,  2.93s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████▎                         | 526/681 [37:44<07:40,  2.97s/it]                                                                                                                                                        {'loss': 0.5904, 'grad_norm': 25.90157127380371, 'learning_rate': 7.596651350926836e-08, 'margin_dpo/margin_mean': 19.199670791625977, 'margin_dpo/margin_std': 16.344276428222656, 'logps/chosen': -125.15325164794922, 'logps/rejected': -120.48922729492188, 'logps/ref_chosen': -94.63446807861328, 'logps/ref_rejected': -70.77076721191406, 'logits/chosen': -0.9229705929756165, 'logits/rejected': -0.26788192987442017, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████████████████████▎                         | 526/681 [37:44<07:40,  2.97s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████▍                         | 527/681 [37:47<07:35,  2.96s/it]                                                                                                                                                        {'loss': 0.539, 'grad_norm': 22.789775848388672, 'learning_rate': 7.504749238082414e-08, 'margin_dpo/margin_mean': 21.305864334106445, 'margin_dpo/margin_std': 20.422344207763672, 'logps/chosen': -125.09730529785156, 'logps/rejected': -143.50888061523438, 'logps/ref_chosen': -100.09386444091797, 'logps/ref_rejected': -97.19957733154297, 'logits/chosen': -1.9874346256256104, 'logits/rejected': -1.2692365646362305, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████████████████████▍                         | 527/681 [37:47<07:35,  2.96s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████▌                         | 528/681 [37:50<07:39,  3.00s/it]                                                                                                                                                        {'loss': 0.5995, 'grad_norm': 21.659528732299805, 'learning_rate': 7.413308141366254e-08, 'margin_dpo/margin_mean': 20.505146026611328, 'margin_dpo/margin_std': 19.203224182128906, 'logps/chosen': -133.10507202148438, 'logps/rejected': -145.65003967285156, 'logps/ref_chosen': -110.18800354003906, 'logps/ref_rejected': -102.22782135009766, 'logits/chosen': -2.231781005859375, 'logits/rejected': -1.9260224103927612, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████████████████████▌                         | 528/681 [37:50<07:39,  3.00s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████▊                         | 529/681 [37:53<07:39,  3.02s/it]                                                                                                                                                        {'loss': 0.6501, 'grad_norm': 29.118371963500977, 'learning_rate': 7.322330470336313e-08, 'margin_dpo/margin_mean': 21.471858978271484, 'margin_dpo/margin_std': 19.392187118530273, 'logps/chosen': -104.53858184814453, 'logps/rejected': -144.15533447265625, 'logps/ref_chosen': -77.38128662109375, 'logps/ref_rejected': -95.52617645263672, 'logits/chosen': -1.4017257690429688, 'logits/rejected': -1.16348135471344, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████████████████████▊                         | 529/681 [37:53<07:39,  3.02s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████▉                         | 530/681 [37:56<07:32,  3.00s/it]                                                                                                                                                        {'loss': 0.4763, 'grad_norm': 20.232019424438477, 'learning_rate': 7.231818622338822e-08, 'margin_dpo/margin_mean': 19.240493774414062, 'margin_dpo/margin_std': 13.067811012268066, 'logps/chosen': -104.87347412109375, 'logps/rejected': -124.8089599609375, 'logps/ref_chosen': -77.66940307617188, 'logps/ref_rejected': -78.3644027709961, 'logits/chosen': -0.6151648759841919, 'logits/rejected': -0.207261323928833, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████████████████████▉                         | 530/681 [37:56<07:32,  3.00s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████                         | 531/681 [37:58<07:07,  2.85s/it]                                                                                                                                                        {'loss': 0.5318, 'grad_norm': 20.91158103942871, 'learning_rate': 7.141774982445147e-08, 'margin_dpo/margin_mean': 22.77933120727539, 'margin_dpo/margin_std': 19.406822204589844, 'logps/chosen': -94.38259887695312, 'logps/rejected': -123.50054931640625, 'logps/ref_chosen': -67.79977416992188, 'logps/ref_rejected': -74.13839721679688, 'logits/chosen': -2.1337180137634277, 'logits/rejected': -1.653696060180664, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████████████████████                         | 531/681 [37:58<07:07,  2.85s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████▎                        | 532/681 [38:01<07:09,  2.88s/it]                                                                                                                                                        {'loss': 0.41, 'grad_norm': 27.96685218811035, 'learning_rate': 7.052201923388953e-08, 'margin_dpo/margin_mean': 31.30377197265625, 'margin_dpo/margin_std': 14.452159881591797, 'logps/chosen': -131.53196716308594, 'logps/rejected': -164.3619842529297, 'logps/ref_chosen': -103.95175170898438, 'logps/ref_rejected': -105.47799682617188, 'logits/chosen': -0.6504892706871033, 'logits/rejected': -0.17150549590587616, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████████████████████▎                        | 532/681 [38:01<07:09,  2.88s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████▍                        | 533/681 [38:05<07:24,  3.00s/it]                                                                                                                                                        {'loss': 0.7967, 'grad_norm': 27.39715003967285, 'learning_rate': 6.963101805503646e-08, 'margin_dpo/margin_mean': 14.76324462890625, 'margin_dpo/margin_std': 17.567630767822266, 'logps/chosen': -111.36788177490234, 'logps/rejected': -163.6744384765625, 'logps/ref_chosen': -85.58866119384766, 'logps/ref_rejected': -123.13199615478516, 'logits/chosen': -2.3065249919891357, 'logits/rejected': -2.3915162086486816, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████████████████████▍                        | 533/681 [38:05<07:24,  3.00s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████▌                        | 534/681 [38:08<07:12,  2.94s/it]                                                                                                                                                        {'loss': 0.564, 'grad_norm': 25.041467666625977, 'learning_rate': 6.874476976660184e-08, 'margin_dpo/margin_mean': 24.668193817138672, 'margin_dpo/margin_std': 17.151203155517578, 'logps/chosen': -117.07095336914062, 'logps/rejected': -126.13896942138672, 'logps/ref_chosen': -91.5281753540039, 'logps/ref_rejected': -75.92799377441406, 'logits/chosen': -1.307136058807373, 'logits/rejected': -0.8812864422798157, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████████████████████▌                        | 534/681 [38:08<07:12,  2.94s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▊                        | 535/681 [38:11<07:17,  3.00s/it]                                                                                                                                                        {'loss': 0.6317, 'grad_norm': 23.80198860168457, 'learning_rate': 6.786329772205246e-08, 'margin_dpo/margin_mean': 25.195722579956055, 'margin_dpo/margin_std': 20.150222778320312, 'logps/chosen': -118.31693267822266, 'logps/rejected': -169.48883056640625, 'logps/ref_chosen': -93.79539489746094, 'logps/ref_rejected': -119.77159118652344, 'logits/chosen': -0.8859176635742188, 'logits/rejected': -0.7408356666564941, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████████████████████▊                        | 535/681 [38:11<07:17,  3.00s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▉                        | 536/681 [38:14<07:11,  2.97s/it]                                                                                                                                                        {'loss': 0.5392, 'grad_norm': 24.914581298828125, 'learning_rate': 6.698662514899638e-08, 'margin_dpo/margin_mean': 26.884937286376953, 'margin_dpo/margin_std': 16.595741271972656, 'logps/chosen': -92.461181640625, 'logps/rejected': -118.23365783691406, 'logps/ref_chosen': -69.53123474121094, 'logps/ref_rejected': -68.41876220703125, 'logits/chosen': -2.2322561740875244, 'logits/rejected': -1.6124215126037598, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████████████████████▉                        | 536/681 [38:14<07:11,  2.97s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████                        | 537/681 [38:16<07:06,  2.96s/it]                                                                                                                                                        {'loss': 0.413, 'grad_norm': 16.780048370361328, 'learning_rate': 6.611477514857114e-08, 'margin_dpo/margin_mean': 18.879819869995117, 'margin_dpo/margin_std': 17.38238525390625, 'logps/chosen': -117.74217224121094, 'logps/rejected': -135.7506866455078, 'logps/ref_chosen': -95.1636962890625, 'logps/ref_rejected': -94.2923812866211, 'logits/chosen': -1.0513997077941895, 'logits/rejected': -0.77760249376297, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████████████████████                        | 537/681 [38:17<07:06,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████▎                       | 538/681 [38:19<07:04,  2.97s/it]                                                                                                                                                        {'loss': 0.5387, 'grad_norm': 23.98692512512207, 'learning_rate': 6.524777069483525e-08, 'margin_dpo/margin_mean': 21.498611450195312, 'margin_dpo/margin_std': 10.918216705322266, 'logps/chosen': -128.1285858154297, 'logps/rejected': -137.56033325195312, 'logps/ref_chosen': -102.02078247070312, 'logps/ref_rejected': -89.95391082763672, 'logits/chosen': -1.9336012601852417, 'logits/rejected': -1.4487353563308716, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████████████████████▎                       | 538/681 [38:20<07:04,  2.97s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████▍                       | 539/681 [38:22<06:56,  2.93s/it]                                                                                                                                                        {'loss': 0.6208, 'grad_norm': 27.972061157226562, 'learning_rate': 6.438563463416221e-08, 'margin_dpo/margin_mean': 17.301036834716797, 'margin_dpo/margin_std': 15.256547927856445, 'logps/chosen': -139.71206665039062, 'logps/rejected': -125.41854095458984, 'logps/ref_chosen': -114.733154296875, 'logps/ref_rejected': -83.13861083984375, 'logits/chosen': -1.7122726440429688, 'logits/rejected': -1.3533068895339966, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████████████████████▍                       | 539/681 [38:22<06:56,  2.93s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████▌                       | 540/681 [38:25<06:54,  2.94s/it]                                                                                                                                                        {'loss': 0.6429, 'grad_norm': 29.838821411132812, 'learning_rate': 6.352838968463919e-08, 'margin_dpo/margin_mean': 20.843917846679688, 'margin_dpo/margin_std': 24.12029457092285, 'logps/chosen': -132.5393524169922, 'logps/rejected': -153.77479553222656, 'logps/ref_chosen': -106.70039367675781, 'logps/ref_rejected': -107.09190368652344, 'logits/chosen': -1.6790308952331543, 'logits/rejected': -1.3257447481155396, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████████████████████▌                       | 540/681 [38:25<06:54,  2.94s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████▊                       | 541/681 [38:28<06:57,  2.98s/it]                                                                                                                                                        {'loss': 0.5465, 'grad_norm': 24.643421173095703, 'learning_rate': 6.267605843546767e-08, 'margin_dpo/margin_mean': 23.38041114807129, 'margin_dpo/margin_std': 16.1546630859375, 'logps/chosen': -167.45968627929688, 'logps/rejected': -176.2462615966797, 'logps/ref_chosen': -135.84811401367188, 'logps/ref_rejected': -121.25428009033203, 'logits/chosen': -1.0789179801940918, 'logits/rejected': -0.5022500157356262, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████████████████████▊                       | 541/681 [38:28<06:57,  2.98s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▉                       | 542/681 [38:32<07:01,  3.04s/it]                                                                                                                                                        {'loss': 0.5527, 'grad_norm': 24.163631439208984, 'learning_rate': 6.182866334636888e-08, 'margin_dpo/margin_mean': 30.305194854736328, 'margin_dpo/margin_std': 17.951576232910156, 'logps/chosen': -92.60365295410156, 'logps/rejected': -155.03704833984375, 'logps/ref_chosen': -68.84876251220703, 'logps/ref_rejected': -100.97695922851562, 'logits/chosen': -2.3853206634521484, 'logits/rejected': -2.185912609100342, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████████████████████▉                       | 542/681 [38:32<07:01,  3.04s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████                       | 543/681 [38:34<06:52,  2.99s/it]                                                                                                                                                        {'loss': 0.8397, 'grad_norm': 32.94911575317383, 'learning_rate': 6.098622674699147e-08, 'margin_dpo/margin_mean': 11.22932243347168, 'margin_dpo/margin_std': 23.324386596679688, 'logps/chosen': -130.04563903808594, 'logps/rejected': -140.88246154785156, 'logps/ref_chosen': -100.33512115478516, 'logps/ref_rejected': -99.94261932373047, 'logits/chosen': -0.9092826843261719, 'logits/rejected': -0.7881707549095154, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████                       | 543/681 [38:34<06:52,  2.99s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▎                      | 544/681 [38:37<06:40,  2.92s/it]                                                                                                                                                        {'loss': 0.5924, 'grad_norm': 25.188100814819336, 'learning_rate': 6.01487708363232e-08, 'margin_dpo/margin_mean': 21.180089950561523, 'margin_dpo/margin_std': 21.94754409790039, 'logps/chosen': -130.50936889648438, 'logps/rejected': -167.39077758789062, 'logps/ref_chosen': -103.06536102294922, 'logps/ref_rejected': -118.76666259765625, 'logits/chosen': -1.485346794128418, 'logits/rejected': -1.2233922481536865, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████▎                      | 544/681 [38:37<06:40,  2.92s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▍                      | 545/681 [38:40<06:34,  2.90s/it]                                                                                                                                                        {'loss': 0.6574, 'grad_norm': 28.579204559326172, 'learning_rate': 5.9316317682106294e-08, 'margin_dpo/margin_mean': 14.666326522827148, 'margin_dpo/margin_std': 19.2750244140625, 'logps/chosen': -113.33309173583984, 'logps/rejected': -151.92977905273438, 'logps/ref_chosen': -84.86571502685547, 'logps/ref_rejected': -108.79608154296875, 'logits/chosen': -1.371840000152588, 'logits/rejected': -1.1238985061645508, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████▍                      | 545/681 [38:40<06:34,  2.90s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▌                      | 546/681 [38:43<06:31,  2.90s/it]                                                                                                                                                        {'loss': 0.679, 'grad_norm': 28.237146377563477, 'learning_rate': 5.848888922025552e-08, 'margin_dpo/margin_mean': 21.78207778930664, 'margin_dpo/margin_std': 12.5681734085083, 'logps/chosen': -95.30905151367188, 'logps/rejected': -110.25160217285156, 'logps/ref_chosen': -70.455078125, 'logps/ref_rejected': -63.61554718017578, 'logits/chosen': -0.9829261898994446, 'logits/rejected': -0.5799949169158936, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████▌                      | 546/681 [38:43<06:31,  2.90s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▊                      | 547/681 [38:46<06:37,  2.97s/it]                                                                                                                                                        {'loss': 0.485, 'grad_norm': 20.89057731628418, 'learning_rate': 5.7666507254280265e-08, 'margin_dpo/margin_mean': 21.930328369140625, 'margin_dpo/margin_std': 25.41767120361328, 'logps/chosen': -140.72103881835938, 'logps/rejected': -170.63926696777344, 'logps/ref_chosen': -107.83323669433594, 'logps/ref_rejected': -115.82113647460938, 'logits/chosen': -1.4058809280395508, 'logits/rejected': -1.014687418937683, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████▊                      | 547/681 [38:46<06:37,  2.97s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▉                      | 548/681 [38:49<06:33,  2.95s/it]                                                                                                                                                        {'loss': 0.8659, 'grad_norm': 34.20707321166992, 'learning_rate': 5.684919345471029e-08, 'margin_dpo/margin_mean': 16.36090850830078, 'margin_dpo/margin_std': 16.906295776367188, 'logps/chosen': -98.56684112548828, 'logps/rejected': -128.52069091796875, 'logps/ref_chosen': -69.65579223632812, 'logps/ref_rejected': -83.24872589111328, 'logits/chosen': -2.0937061309814453, 'logits/rejected': -2.137777090072632, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████▉                      | 548/681 [38:49<06:33,  2.95s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████                      | 549/681 [38:52<06:34,  2.99s/it]                                                                                                                                                        {'loss': 0.5675, 'grad_norm': 23.242633819580078, 'learning_rate': 5.603696935852426e-08, 'margin_dpo/margin_mean': 27.356380462646484, 'margin_dpo/margin_std': 18.783891677856445, 'logps/chosen': -126.3386001586914, 'logps/rejected': -132.23867797851562, 'logps/ref_chosen': -105.56031036376953, 'logps/ref_rejected': -84.10400390625, 'logits/chosen': -1.707764983177185, 'logits/rejected': -0.5650928020477295, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████                      | 549/681 [38:52<06:34,  2.99s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▎                     | 550/681 [38:55<06:34,  3.01s/it]                                                                                                                                                        {'loss': 0.4972, 'grad_norm': 25.554492950439453, 'learning_rate': 5.5229856368582376e-08, 'margin_dpo/margin_mean': 22.688209533691406, 'margin_dpo/margin_std': 14.742086410522461, 'logps/chosen': -106.12084197998047, 'logps/rejected': -153.0285186767578, 'logps/ref_chosen': -76.27791595458984, 'logps/ref_rejected': -100.49739074707031, 'logits/chosen': 0.1068572849035263, 'logits/rejected': 0.1513178050518036, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████▎                     | 550/681 [38:55<06:34,  3.01s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▍                     | 551/681 [38:58<06:21,  2.93s/it]                                                                                                                                                        {'loss': 0.423, 'grad_norm': 22.723278045654297, 'learning_rate': 5.4427875753062734e-08, 'margin_dpo/margin_mean': 23.418901443481445, 'margin_dpo/margin_std': 14.990714073181152, 'logps/chosen': -127.6473159790039, 'logps/rejected': -145.43980407714844, 'logps/ref_chosen': -102.71890258789062, 'logps/ref_rejected': -97.09249877929688, 'logits/chosen': -1.7522798776626587, 'logits/rejected': -1.0569827556610107, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████▍                     | 551/681 [38:58<06:21,  2.93s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▌                     | 552/681 [39:00<06:05,  2.84s/it]                                                                                                                                                        {'loss': 0.5215, 'grad_norm': 24.465240478515625, 'learning_rate': 5.363104864490034e-08, 'margin_dpo/margin_mean': 28.674596786499023, 'margin_dpo/margin_std': 17.37641143798828, 'logps/chosen': -128.99668884277344, 'logps/rejected': -163.40673828125, 'logps/ref_chosen': -102.84449005126953, 'logps/ref_rejected': -108.57992553710938, 'logits/chosen': -1.6065510511398315, 'logits/rejected': -1.269682765007019, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████▌                     | 552/681 [39:00<06:05,  2.84s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▊                     | 553/681 [39:03<06:06,  2.87s/it]                                                                                                                                                        {'loss': 0.5763, 'grad_norm': 26.768144607543945, 'learning_rate': 5.2839396041230415e-08, 'margin_dpo/margin_mean': 19.5629940032959, 'margin_dpo/margin_std': 16.6281795501709, 'logps/chosen': -97.16468811035156, 'logps/rejected': -149.51959228515625, 'logps/ref_chosen': -69.79757690429688, 'logps/ref_rejected': -102.5894775390625, 'logits/chosen': -0.9789568185806274, 'logits/rejected': -1.1432013511657715, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████▊                     | 553/681 [39:03<06:06,  2.87s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▉                     | 554/681 [39:06<06:06,  2.88s/it]                                                                                                                                                        {'loss': 0.5706, 'grad_norm': 28.801767349243164, 'learning_rate': 5.205293880283551e-08, 'margin_dpo/margin_mean': 21.034685134887695, 'margin_dpo/margin_std': 11.804601669311523, 'logps/chosen': -139.305419921875, 'logps/rejected': -138.11862182617188, 'logps/ref_chosen': -111.99177551269531, 'logps/ref_rejected': -89.77027893066406, 'logits/chosen': -1.2124251127243042, 'logits/rejected': -0.50566166639328, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████▉                     | 554/681 [39:06<06:06,  2.88s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████                     | 555/681 [39:09<05:53,  2.81s/it]                                                                                                                                                        {'loss': 0.6231, 'grad_norm': 28.282394409179688, 'learning_rate': 5.127169765359515e-08, 'margin_dpo/margin_mean': 24.7275390625, 'margin_dpo/margin_std': 17.48480796813965, 'logps/chosen': -106.81584167480469, 'logps/rejected': -148.74456787109375, 'logps/ref_chosen': -75.38294982910156, 'logps/ref_rejected': -92.58414459228516, 'logits/chosen': -1.374567985534668, 'logits/rejected': -1.305861473083496, 'epoch': 0.81}
 81%|████████████████████████████████████████████████████████████████████████████████████████████                     | 555/681 [39:09<05:53,  2.81s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▎                    | 556/681 [39:12<06:09,  2.96s/it]                                                                                                                                                        {'loss': 0.553, 'grad_norm': 28.61037826538086, 'learning_rate': 5.049569317994012e-08, 'margin_dpo/margin_mean': 23.114587783813477, 'margin_dpo/margin_std': 16.753026962280273, 'logps/chosen': -105.55892944335938, 'logps/rejected': -131.9959716796875, 'logps/ref_chosen': -79.32157897949219, 'logps/ref_rejected': -82.64404296875, 'logits/chosen': -1.6289178133010864, 'logits/rejected': -0.9854074716567993, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████████████████████████████████████▎                    | 556/681 [39:12<06:09,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▍                    | 557/681 [39:16<06:17,  3.05s/it]                                                                                                                                                        {'loss': 0.6707, 'grad_norm': 26.416162490844727, 'learning_rate': 4.9724945830310144e-08, 'margin_dpo/margin_mean': 21.37244415283203, 'margin_dpo/margin_std': 20.823997497558594, 'logps/chosen': -124.50114440917969, 'logps/rejected': -170.90692138671875, 'logps/ref_chosen': -98.14947509765625, 'logps/ref_rejected': -123.18280029296875, 'logits/chosen': -1.8984003067016602, 'logits/rejected': -1.9594836235046387, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████████████████████████████████████▍                    | 557/681 [39:16<06:17,  3.05s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▌                    | 558/681 [39:18<06:09,  3.00s/it]                                                                                                                                                        {'loss': 0.4902, 'grad_norm': 21.28540802001953, 'learning_rate': 4.8959475914614554e-08, 'margin_dpo/margin_mean': 19.151586532592773, 'margin_dpo/margin_std': 13.445259094238281, 'logps/chosen': -137.03941345214844, 'logps/rejected': -133.84918212890625, 'logps/ref_chosen': -108.68679809570312, 'logps/ref_rejected': -86.3449935913086, 'logits/chosen': -2.3782596588134766, 'logits/rejected': -1.9224114418029785, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████████████████████████████████████▌                    | 558/681 [39:18<06:09,  3.00s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▊                    | 559/681 [39:21<06:03,  2.98s/it]                                                                                                                                                        {'loss': 0.596, 'grad_norm': 25.445751190185547, 'learning_rate': 4.8199303603697614e-08, 'margin_dpo/margin_mean': 28.814769744873047, 'margin_dpo/margin_std': 15.901989936828613, 'logps/chosen': -136.66253662109375, 'logps/rejected': -147.06002807617188, 'logps/ref_chosen': -112.66477966308594, 'logps/ref_rejected': -94.24748992919922, 'logits/chosen': -2.1156458854675293, 'logits/rejected': -1.5914777517318726, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████████████████████████████████████▊                    | 559/681 [39:21<06:03,  2.98s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▉                    | 560/681 [39:24<06:05,  3.02s/it]                                                                                                                                                        {'loss': 0.6773, 'grad_norm': 25.374601364135742, 'learning_rate': 4.7444448928806615e-08, 'margin_dpo/margin_mean': 21.806716918945312, 'margin_dpo/margin_std': 23.361881256103516, 'logps/chosen': -104.58026123046875, 'logps/rejected': -159.85110473632812, 'logps/ref_chosen': -75.38302612304688, 'logps/ref_rejected': -108.84716033935547, 'logits/chosen': -0.29492858052253723, 'logits/rejected': -0.17774538695812225, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████████████████████████████████████▉                    | 560/681 [39:25<06:05,  3.02s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████                    | 561/681 [39:27<05:54,  2.96s/it]                                                                                                                                                        {'loss': 0.635, 'grad_norm': 24.0804500579834, 'learning_rate': 4.669493178106432e-08, 'margin_dpo/margin_mean': 23.192569732666016, 'margin_dpo/margin_std': 19.936168670654297, 'logps/chosen': -121.85696411132812, 'logps/rejected': -123.22027587890625, 'logps/ref_chosen': -90.67036437988281, 'logps/ref_rejected': -68.84110260009766, 'logits/chosen': -1.1828765869140625, 'logits/rejected': -0.6570239067077637, 'epoch': 0.82}
 82%|█████████████████████████████████████████████████████████████████████████████████████████████                    | 561/681 [39:27<05:54,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 562/681 [39:30<05:55,  2.99s/it]                                                                                                                                                        {'loss': 0.7298, 'grad_norm': 28.623416900634766, 'learning_rate': 4.5950771910944596e-08, 'margin_dpo/margin_mean': 21.58222770690918, 'margin_dpo/margin_std': 18.971715927124023, 'logps/chosen': -96.68048858642578, 'logps/rejected': -141.97848510742188, 'logps/ref_chosen': -70.02510070800781, 'logps/ref_rejected': -93.74087524414062, 'logits/chosen': -1.246302843093872, 'logits/rejected': -1.3074339628219604, 'epoch': 0.83}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 562/681 [39:30<05:55,  2.99s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▍                   | 563/681 [39:33<05:41,  2.89s/it]                                                                                                                                                        {'loss': 0.7532, 'grad_norm': 37.866973876953125, 'learning_rate': 4.521198892775202e-08, 'margin_dpo/margin_mean': 12.987737655639648, 'margin_dpo/margin_std': 17.41985511779785, 'logps/chosen': -156.23606872558594, 'logps/rejected': -141.616455078125, 'logps/ref_chosen': -124.02999877929688, 'logps/ref_rejected': -96.42265319824219, 'logits/chosen': -1.2940800189971924, 'logits/rejected': -0.7970089912414551, 'epoch': 0.83}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████▍                   | 563/681 [39:33<05:41,  2.89s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▌                   | 564/681 [39:36<05:46,  2.96s/it]                                                                                                                                                        {'loss': 0.628, 'grad_norm': 26.319257736206055, 'learning_rate': 4.447860229910544e-08, 'margin_dpo/margin_mean': 15.065828323364258, 'margin_dpo/margin_std': 12.99314022064209, 'logps/chosen': -169.05923461914062, 'logps/rejected': -155.19082641601562, 'logps/ref_chosen': -141.51185607910156, 'logps/ref_rejected': -112.57762145996094, 'logits/chosen': -1.7149813175201416, 'logits/rejected': -1.1024806499481201, 'epoch': 0.83}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████▌                   | 564/681 [39:36<05:46,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▊                   | 565/681 [39:39<05:48,  3.00s/it]                                                                                                                                                        {'loss': 0.5127, 'grad_norm': 32.7898063659668, 'learning_rate': 4.375063135042445e-08, 'margin_dpo/margin_mean': 25.629154205322266, 'margin_dpo/margin_std': 19.308208465576172, 'logps/chosen': -139.33755493164062, 'logps/rejected': -143.7384490966797, 'logps/ref_chosen': -113.30201721191406, 'logps/ref_rejected': -92.07376098632812, 'logits/chosen': -1.7462910413742065, 'logits/rejected': -0.5241377353668213, 'epoch': 0.83}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████▊                   | 565/681 [39:39<05:48,  3.00s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▉                   | 566/681 [39:42<05:45,  3.01s/it]                                                                                                                                                        {'loss': 0.5636, 'grad_norm': 19.79732322692871, 'learning_rate': 4.3028095264420525e-08, 'margin_dpo/margin_mean': 28.117481231689453, 'margin_dpo/margin_std': 14.197080612182617, 'logps/chosen': -168.4169921875, 'logps/rejected': -171.9524383544922, 'logps/ref_chosen': -147.71287536621094, 'logps/ref_rejected': -123.13082885742188, 'logits/chosen': -1.873335361480713, 'logits/rejected': -1.0767878293991089, 'epoch': 0.83}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████▉                   | 566/681 [39:42<05:45,  3.01s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████                   | 567/681 [39:45<05:30,  2.90s/it]                                                                                                                                                        {'loss': 0.6424, 'grad_norm': 28.859512329101562, 'learning_rate': 4.231101308059165e-08, 'margin_dpo/margin_mean': 23.53559112548828, 'margin_dpo/margin_std': 18.061981201171875, 'logps/chosen': -129.6639404296875, 'logps/rejected': -185.67556762695312, 'logps/ref_chosen': -103.08148193359375, 'logps/ref_rejected': -135.55751037597656, 'logits/chosen': -1.336463451385498, 'logits/rejected': -1.3242238759994507, 'epoch': 0.83}
 83%|██████████████████████████████████████████████████████████████████████████████████████████████                   | 567/681 [39:45<05:30,  2.90s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████▏                  | 568/681 [39:48<05:19,  2.83s/it]                                                                                                                                                        {'loss': 0.5057, 'grad_norm': 22.684192657470703, 'learning_rate': 4.1599403694720145e-08, 'margin_dpo/margin_mean': 21.98537254333496, 'margin_dpo/margin_std': 21.847187042236328, 'logps/chosen': -101.66519165039062, 'logps/rejected': -135.9856414794922, 'logps/ref_chosen': -79.48320007324219, 'logps/ref_rejected': -91.81827545166016, 'logits/chosen': -2.0500826835632324, 'logits/rejected': -1.7743902206420898, 'epoch': 0.83}
 83%|██████████████████████████████████████████████████████████████████████████████████████████████▏                  | 568/681 [39:48<05:19,  2.83s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▍                  | 569/681 [39:51<05:21,  2.87s/it]                                                                                                                                                        {'loss': 0.8075, 'grad_norm': 33.8665771484375, 'learning_rate': 4.089328585837512e-08, 'margin_dpo/margin_mean': 19.654869079589844, 'margin_dpo/margin_std': 22.281082153320312, 'logps/chosen': -112.8988265991211, 'logps/rejected': -136.52499389648438, 'logps/ref_chosen': -84.46160888671875, 'logps/ref_rejected': -88.43289947509766, 'logits/chosen': -1.0648646354675293, 'logits/rejected': -0.8371211886405945, 'epoch': 0.84}
 84%|██████████████████████████████████████████████████████████████████████████████████████████████▍                  | 569/681 [39:51<05:21,  2.87s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▌                  | 570/681 [39:53<05:21,  2.89s/it]                                                                                                                                                        {'loss': 0.5036, 'grad_norm': 21.87103843688965, 'learning_rate': 4.019267817841834e-08, 'margin_dpo/margin_mean': 26.1025390625, 'margin_dpo/margin_std': 18.09876251220703, 'logps/chosen': -136.2928924560547, 'logps/rejected': -141.99786376953125, 'logps/ref_chosen': -110.28079986572266, 'logps/ref_rejected': -89.88323211669922, 'logits/chosen': -2.1644656658172607, 'logits/rejected': -1.2819344997406006, 'epoch': 0.84}
 84%|██████████████████████████████████████████████████████████████████████████████████████████████▌                  | 570/681 [39:54<05:21,  2.89s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▋                  | 571/681 [39:56<05:21,  2.92s/it]                                                                                                                                                        {'loss': 0.516, 'grad_norm': 24.671363830566406, 'learning_rate': 3.9497599116513705e-08, 'margin_dpo/margin_mean': 21.094158172607422, 'margin_dpo/margin_std': 17.385196685791016, 'logps/chosen': -89.88897705078125, 'logps/rejected': -134.61260986328125, 'logps/ref_chosen': -63.78746032714844, 'logps/ref_rejected': -87.41693115234375, 'logits/chosen': -1.0694646835327148, 'logits/rejected': -1.1418089866638184, 'epoch': 0.84}
 84%|██████████████████████████████████████████████████████████████████████████████████████████████▋                  | 571/681 [39:56<05:21,  2.92s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▉                  | 572/681 [39:59<05:18,  2.93s/it]                                                                                                                                                        {'loss': 0.6028, 'grad_norm': 24.654348373413086, 'learning_rate': 3.880806698864086e-08, 'margin_dpo/margin_mean': 13.719372749328613, 'margin_dpo/margin_std': 16.3624267578125, 'logps/chosen': -114.6158676147461, 'logps/rejected': -151.9698486328125, 'logps/ref_chosen': -81.1136245727539, 'logps/ref_rejected': -104.74822998046875, 'logits/chosen': -2.017566204071045, 'logits/rejected': -2.3396568298339844, 'epoch': 0.84}
 84%|██████████████████████████████████████████████████████████████████████████████████████████████▉                  | 572/681 [39:59<05:18,  2.93s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████                  | 573/681 [40:02<05:08,  2.85s/it]                                                                                                                                                        {'loss': 0.6495, 'grad_norm': 24.63699722290039, 'learning_rate': 3.812409996461275e-08, 'margin_dpo/margin_mean': 25.578380584716797, 'margin_dpo/margin_std': 18.0982723236084, 'logps/chosen': -92.43038177490234, 'logps/rejected': -143.63778686523438, 'logps/ref_chosen': -62.825836181640625, 'logps/ref_rejected': -88.45487213134766, 'logits/chosen': -1.3356173038482666, 'logits/rejected': -1.1175293922424316, 'epoch': 0.84}
 84%|███████████████████████████████████████████████████████████████████████████████████████████████                  | 573/681 [40:02<05:08,  2.85s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████▏                 | 574/681 [40:05<05:13,  2.93s/it]                                                                                                                                                        {'loss': 0.5408, 'grad_norm': 25.474008560180664, 'learning_rate': 3.74457160675965e-08, 'margin_dpo/margin_mean': 30.184980392456055, 'margin_dpo/margin_std': 17.348926544189453, 'logps/chosen': -99.78987884521484, 'logps/rejected': -152.71780395507812, 'logps/ref_chosen': -77.86640930175781, 'logps/ref_rejected': -100.60933685302734, 'logits/chosen': -1.7099212408065796, 'logits/rejected': -1.0368297100067139, 'epoch': 0.84}
 84%|███████████████████████████████████████████████████████████████████████████████████████████████▏                 | 574/681 [40:05<05:13,  2.93s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████▍                 | 575/681 [40:08<05:12,  2.95s/it]                                                                                                                                                        {'loss': 0.6186, 'grad_norm': 36.82394790649414, 'learning_rate': 3.677293317363864e-08, 'margin_dpo/margin_mean': 26.45035743713379, 'margin_dpo/margin_std': 12.797685623168945, 'logps/chosen': -137.8572998046875, 'logps/rejected': -152.94381713867188, 'logps/ref_chosen': -113.77069091796875, 'logps/ref_rejected': -102.4068603515625, 'logits/chosen': -1.2702062129974365, 'logits/rejected': -0.623336911201477, 'epoch': 0.84}
 84%|███████████████████████████████████████████████████████████████████████████████████████████████▍                 | 575/681 [40:08<05:12,  2.95s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▌                 | 576/681 [40:11<05:01,  2.88s/it]                                                                                                                                                        {'loss': 0.728, 'grad_norm': 27.242877960205078, 'learning_rate': 3.6105769011194224e-08, 'margin_dpo/margin_mean': 23.154489517211914, 'margin_dpo/margin_std': 16.945371627807617, 'logps/chosen': -103.07350158691406, 'logps/rejected': -130.0419921875, 'logps/ref_chosen': -73.22354125976562, 'logps/ref_rejected': -77.03753662109375, 'logits/chosen': -1.1757344007492065, 'logits/rejected': -1.024355411529541, 'epoch': 0.85}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████▌                 | 576/681 [40:11<05:01,  2.88s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                 | 577/681 [40:14<04:54,  2.83s/it]                                                                                                                                                        {'loss': 0.57, 'grad_norm': 26.261314392089844, 'learning_rate': 3.5444241160659304e-08, 'margin_dpo/margin_mean': 28.903701782226562, 'margin_dpo/margin_std': 21.926589965820312, 'logps/chosen': -132.17788696289062, 'logps/rejected': -150.16122436523438, 'logps/ref_chosen': -111.53047943115234, 'logps/ref_rejected': -100.61012268066406, 'logits/chosen': -2.1024394035339355, 'logits/rejected': -1.363139033317566, 'epoch': 0.85}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                 | 577/681 [40:14<04:54,  2.83s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▉                 | 578/681 [40:17<04:56,  2.87s/it]                                                                                                                                                        {'loss': 0.6897, 'grad_norm': 28.919174194335938, 'learning_rate': 3.478836705390808e-08, 'margin_dpo/margin_mean': 17.827260971069336, 'margin_dpo/margin_std': 14.1982421875, 'logps/chosen': -97.9559326171875, 'logps/rejected': -147.69058227539062, 'logps/ref_chosen': -69.15601348876953, 'logps/ref_rejected': -101.06340789794922, 'logits/chosen': -0.9342671036720276, 'logits/rejected': -1.0065442323684692, 'epoch': 0.85}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████▉                 | 578/681 [40:17<04:56,  2.87s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████                 | 579/681 [40:20<05:02,  2.97s/it]                                                                                                                                                        {'loss': 0.5835, 'grad_norm': 23.156034469604492, 'learning_rate': 3.41381639738331e-08, 'margin_dpo/margin_mean': 19.12502670288086, 'margin_dpo/margin_std': 16.983705520629883, 'logps/chosen': -122.92021179199219, 'logps/rejected': -119.78824615478516, 'logps/ref_chosen': -94.19979858398438, 'logps/ref_rejected': -71.94280242919922, 'logits/chosen': -2.2614612579345703, 'logits/rejected': -1.3790278434753418, 'epoch': 0.85}
 85%|████████████████████████████████████████████████████████████████████████████████████████████████                 | 579/681 [40:20<05:02,  2.97s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████▏                | 580/681 [40:23<04:59,  2.97s/it]                                                                                                                                                        {'loss': 0.5858, 'grad_norm': 22.19964027404785, 'learning_rate': 3.349364905389032e-08, 'margin_dpo/margin_mean': 23.47968864440918, 'margin_dpo/margin_std': 18.69431495666504, 'logps/chosen': -143.45135498046875, 'logps/rejected': -134.01918029785156, 'logps/ref_chosen': -115.61140441894531, 'logps/ref_rejected': -82.69953155517578, 'logits/chosen': -0.7070454359054565, 'logits/rejected': -0.4206308126449585, 'epoch': 0.85}
 85%|████████████████████████████████████████████████████████████████████████████████████████████████▏                | 580/681 [40:23<04:59,  2.97s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████▍                | 581/681 [40:26<04:54,  2.94s/it]                                                                                                                                                        {'loss': 0.6392, 'grad_norm': 27.800729751586914, 'learning_rate': 3.285483927764726e-08, 'margin_dpo/margin_mean': 17.64190101623535, 'margin_dpo/margin_std': 13.56999397277832, 'logps/chosen': -103.3560562133789, 'logps/rejected': -147.3246612548828, 'logps/ref_chosen': -75.1635971069336, 'logps/ref_rejected': -101.49029541015625, 'logits/chosen': -1.2207493782043457, 'logits/rejected': -1.4801889657974243, 'epoch': 0.85}
 85%|████████████████████████████████████████████████████████████████████████████████████████████████▍                | 581/681 [40:26<04:54,  2.94s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████▌                | 582/681 [40:29<04:51,  2.95s/it]                                                                                                                                                        {'loss': 0.6833, 'grad_norm': 26.177412033081055, 'learning_rate': 3.222175147833556e-08, 'margin_dpo/margin_mean': 27.334815979003906, 'margin_dpo/margin_std': 18.021024703979492, 'logps/chosen': -126.73898315429688, 'logps/rejected': -165.69467163085938, 'logps/ref_chosen': -107.35800170898438, 'logps/ref_rejected': -118.97886657714844, 'logits/chosen': -1.5780534744262695, 'logits/rejected': -1.2352222204208374, 'epoch': 0.85}
 85%|████████████████████████████████████████████████████████████████████████████████████████████████▌                | 582/681 [40:29<04:51,  2.95s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▋                | 583/681 [40:32<04:51,  2.97s/it]                                                                                                                                                        {'loss': 0.6948, 'grad_norm': 33.17780685424805, 'learning_rate': 3.159440233840763e-08, 'margin_dpo/margin_mean': 12.204545974731445, 'margin_dpo/margin_std': 18.54879379272461, 'logps/chosen': -130.53958129882812, 'logps/rejected': -130.51904296875, 'logps/ref_chosen': -96.88568115234375, 'logps/ref_rejected': -84.66061401367188, 'logits/chosen': -1.4593960046768188, 'logits/rejected': -1.1161738634109497, 'epoch': 0.86}
 86%|████████████████████████████████████████████████████████████████████████████████████████████████▋                | 583/681 [40:32<04:51,  2.97s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▉                | 584/681 [40:34<04:42,  2.91s/it]                                                                                                                                                        {'loss': 0.6102, 'grad_norm': 31.337125778198242, 'learning_rate': 3.0972808389096635e-08, 'margin_dpo/margin_mean': 20.88245964050293, 'margin_dpo/margin_std': 11.362781524658203, 'logps/chosen': -122.12081146240234, 'logps/rejected': -155.17088317871094, 'logps/ref_chosen': -99.00904083251953, 'logps/ref_rejected': -111.17665100097656, 'logits/chosen': -1.4248698949813843, 'logits/rejected': -0.8519065380096436, 'epoch': 0.86}
 86%|████████████████████████████████████████████████████████████████████████████████████████████████▉                | 584/681 [40:34<04:42,  2.91s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████                | 585/681 [40:37<04:36,  2.88s/it]                                                                                                                                                        {'loss': 0.5842, 'grad_norm': 22.652122497558594, 'learning_rate': 3.035698600998121e-08, 'margin_dpo/margin_mean': 23.94426727294922, 'margin_dpo/margin_std': 15.578774452209473, 'logps/chosen': -96.15231323242188, 'logps/rejected': -123.78256225585938, 'logps/ref_chosen': -67.79874420166016, 'logps/ref_rejected': -71.48472595214844, 'logits/chosen': -1.6795928478240967, 'logits/rejected': -1.4183259010314941, 'epoch': 0.86}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████                | 585/681 [40:37<04:36,  2.88s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▏               | 586/681 [40:40<04:26,  2.81s/it]                                                                                                                                                        {'loss': 0.6058, 'grad_norm': 25.997224807739258, 'learning_rate': 2.974695142855388e-08, 'margin_dpo/margin_mean': 17.969219207763672, 'margin_dpo/margin_std': 19.24755859375, 'logps/chosen': -92.78762817382812, 'logps/rejected': -133.53366088867188, 'logps/ref_chosen': -58.51750183105469, 'logps/ref_rejected': -81.29431915283203, 'logits/chosen': -1.0662152767181396, 'logits/rejected': -1.0517430305480957, 'epoch': 0.86}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▏               | 586/681 [40:40<04:26,  2.81s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▍               | 587/681 [40:43<04:33,  2.91s/it]                                                                                                                                                        {'loss': 0.7339, 'grad_norm': 24.352365493774414, 'learning_rate': 2.9142720719793122e-08, 'margin_dpo/margin_mean': 22.398693084716797, 'margin_dpo/margin_std': 17.78519058227539, 'logps/chosen': -91.87644958496094, 'logps/rejected': -117.914306640625, 'logps/ref_chosen': -64.46495056152344, 'logps/ref_rejected': -68.1041259765625, 'logits/chosen': -2.5131826400756836, 'logits/rejected': -2.127216100692749, 'epoch': 0.86}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▍               | 587/681 [40:43<04:33,  2.91s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▌               | 588/681 [40:46<04:25,  2.85s/it]                                                                                                                                                        {'loss': 0.7691, 'grad_norm': 39.026004791259766, 'learning_rate': 2.8544309805740018e-08, 'margin_dpo/margin_mean': 23.088871002197266, 'margin_dpo/margin_std': 21.23520278930664, 'logps/chosen': -105.52696228027344, 'logps/rejected': -149.39785766601562, 'logps/ref_chosen': -77.16580200195312, 'logps/ref_rejected': -97.94784545898438, 'logits/chosen': -1.4373981952667236, 'logits/rejected': -1.0331122875213623, 'epoch': 0.86}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▌               | 588/681 [40:46<04:25,  2.85s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▋               | 589/681 [40:48<04:21,  2.84s/it]                                                                                                                                                        {'loss': 0.4628, 'grad_norm': 25.116107940673828, 'learning_rate': 2.7951734455078786e-08, 'margin_dpo/margin_mean': 26.475025177001953, 'margin_dpo/margin_std': 19.995899200439453, 'logps/chosen': -132.01768493652344, 'logps/rejected': -153.23219299316406, 'logps/ref_chosen': -109.15735626220703, 'logps/ref_rejected': -103.8968505859375, 'logits/chosen': -1.8460958003997803, 'logits/rejected': -1.2316406965255737, 'epoch': 0.86}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▋               | 589/681 [40:49<04:21,  2.84s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▉               | 590/681 [40:51<04:14,  2.80s/it]                                                                                                                                                        {'loss': 0.4637, 'grad_norm': 20.96693229675293, 'learning_rate': 2.736501028272095e-08, 'margin_dpo/margin_mean': 23.990245819091797, 'margin_dpo/margin_std': 23.85308837890625, 'logps/chosen': -100.31023406982422, 'logps/rejected': -153.43533325195312, 'logps/ref_chosen': -73.52894592285156, 'logps/ref_rejected': -102.6637954711914, 'logits/chosen': -1.6605994701385498, 'logits/rejected': -1.5838966369628906, 'epoch': 0.87}
 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▉               | 590/681 [40:51<04:14,  2.80s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████               | 591/681 [40:54<04:00,  2.68s/it]                                                                                                                                                        {'loss': 0.4883, 'grad_norm': 24.580368041992188, 'learning_rate': 2.678415274939408e-08, 'margin_dpo/margin_mean': 28.712928771972656, 'margin_dpo/margin_std': 19.021089553833008, 'logps/chosen': -104.53363037109375, 'logps/rejected': -156.94107055664062, 'logps/ref_chosen': -81.24513244628906, 'logps/ref_rejected': -104.93965148925781, 'logits/chosen': -0.8293085694313049, 'logits/rejected': -0.7269066572189331, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████               | 591/681 [40:54<04:00,  2.68s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▏              | 592/681 [40:56<04:00,  2.70s/it]                                                                                                                                                        {'loss': 0.6852, 'grad_norm': 26.056900024414062, 'learning_rate': 2.6209177161234442e-08, 'margin_dpo/margin_mean': 12.467700958251953, 'margin_dpo/margin_std': 20.66848373413086, 'logps/chosen': -106.28244018554688, 'logps/rejected': -132.59182739257812, 'logps/ref_chosen': -71.50765991210938, 'logps/ref_rejected': -85.3493423461914, 'logits/chosen': -1.4577271938323975, 'logits/rejected': -1.3645278215408325, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▏              | 592/681 [40:56<04:00,  2.70s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▍              | 593/681 [40:59<04:03,  2.77s/it]                                                                                                                                                        {'loss': 0.7436, 'grad_norm': 27.79155731201172, 'learning_rate': 2.564009866938349e-08, 'margin_dpo/margin_mean': 15.886906623840332, 'margin_dpo/margin_std': 14.40092945098877, 'logps/chosen': -99.52073669433594, 'logps/rejected': -134.16650390625, 'logps/ref_chosen': -70.61467742919922, 'logps/ref_rejected': -89.37353515625, 'logits/chosen': -1.6856143474578857, 'logits/rejected': -1.3747767210006714, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▍              | 593/681 [40:59<04:03,  2.77s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▌              | 594/681 [41:02<04:04,  2.81s/it]                                                                                                                                                        {'loss': 0.5016, 'grad_norm': 22.358192443847656, 'learning_rate': 2.5076932269588708e-08, 'margin_dpo/margin_mean': 20.586183547973633, 'margin_dpo/margin_std': 17.020692825317383, 'logps/chosen': -120.62618255615234, 'logps/rejected': -124.12226104736328, 'logps/ref_chosen': -91.4361801147461, 'logps/ref_rejected': -74.34607696533203, 'logits/chosen': -1.6691186428070068, 'logits/rejected': -1.2223987579345703, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▌              | 594/681 [41:02<04:04,  2.81s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▋              | 595/681 [41:05<04:08,  2.89s/it]                                                                                                                                                        {'loss': 0.7549, 'grad_norm': 27.895854949951172, 'learning_rate': 2.451969280180849e-08, 'margin_dpo/margin_mean': 19.725078582763672, 'margin_dpo/margin_std': 20.610492706298828, 'logps/chosen': -78.96890258789062, 'logps/rejected': -113.44318389892578, 'logps/ref_chosen': -50.59502410888672, 'logps/ref_rejected': -65.34422302246094, 'logits/chosen': -2.383293628692627, 'logits/rejected': -2.2450737953186035, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▋              | 595/681 [41:05<04:08,  2.89s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉              | 596/681 [41:08<04:10,  2.95s/it]                                                                                                                                                        {'loss': 0.6443, 'grad_norm': 27.49303436279297, 'learning_rate': 2.396839494982103e-08, 'margin_dpo/margin_mean': 24.949066162109375, 'margin_dpo/margin_std': 21.884986877441406, 'logps/chosen': -124.57491302490234, 'logps/rejected': -172.03057861328125, 'logps/ref_chosen': -95.0877456665039, 'logps/ref_rejected': -117.5943374633789, 'logits/chosen': -0.7340579032897949, 'logits/rejected': -0.5988126993179321, 'epoch': 0.88}
 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉              | 596/681 [41:08<04:10,  2.95s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████              | 597/681 [41:11<04:08,  2.95s/it]                                                                                                                                                        {'loss': 0.5819, 'grad_norm': 25.584749221801758, 'learning_rate': 2.3423053240837514e-08, 'margin_dpo/margin_mean': 17.993831634521484, 'margin_dpo/margin_std': 20.48471450805664, 'logps/chosen': -116.6168212890625, 'logps/rejected': -152.90264892578125, 'logps/ref_chosen': -87.56103515625, 'logps/ref_rejected': -105.85301971435547, 'logits/chosen': -0.8481107354164124, 'logits/rejected': -0.7759636640548706, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████              | 597/681 [41:11<04:08,  2.95s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▏             | 598/681 [41:14<03:57,  2.87s/it]                                                                                                                                                        {'loss': 0.7032, 'grad_norm': 29.62306785583496, 'learning_rate': 2.2883682045119062e-08, 'margin_dpo/margin_mean': 16.564979553222656, 'margin_dpo/margin_std': 17.32196044921875, 'logps/chosen': -161.9443359375, 'logps/rejected': -172.46737670898438, 'logps/ref_chosen': -132.37234497070312, 'logps/ref_rejected': -126.33038330078125, 'logits/chosen': -3.3226518630981445, 'logits/rejected': -2.930318832397461, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▏             | 598/681 [41:14<03:57,  2.87s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▍             | 599/681 [41:17<04:01,  2.94s/it]                                                                                                                                                        {'loss': 0.5828, 'grad_norm': 25.984834671020508, 'learning_rate': 2.2350295575598367e-08, 'margin_dpo/margin_mean': 19.097774505615234, 'margin_dpo/margin_std': 16.6318302154541, 'logps/chosen': -109.2089614868164, 'logps/rejected': -146.1300048828125, 'logps/ref_chosen': -80.37190246582031, 'logps/ref_rejected': -98.19518280029297, 'logits/chosen': -1.3305424451828003, 'logits/rejected': -1.1590290069580078, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▍             | 599/681 [41:17<04:01,  2.94s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▌             | 600/681 [41:20<03:54,  2.90s/it]                                                                                                                                                        {'loss': 0.5423, 'grad_norm': 20.932893753051758, 'learning_rate': 2.1822907887504932e-08, 'margin_dpo/margin_mean': 20.060239791870117, 'margin_dpo/margin_std': 17.122276306152344, 'logps/chosen': -102.33708190917969, 'logps/rejected': -137.10244750976562, 'logps/ref_chosen': -73.66311645507812, 'logps/ref_rejected': -88.36824035644531, 'logits/chosen': -1.6403688192367554, 'logits/rejected': -1.5137927532196045, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▌             | 600/681 [41:20<03:54,  2.90s/it][INFO|trainer.py:4307] 2026-04-24 00:36:27,449 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 00:36:27,449 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 00:36:27,449 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:18,  3.79it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:28,  2.43it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:34,  1.99it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:35,  1.94it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.81it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:36,  1.82it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:03<00:34,  1.91it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:38,  1.67it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.69it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:38,  1.62it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:36,  1.66it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:36,  1.66it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.64it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:35,  1.63it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.59it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.58it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:31,  1.72it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:11<00:35,  1.53it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:35,  1.50it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:34,  1.52it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:12<00:33,  1.54it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:31,  1.60it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.54it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.57it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:27,  1.70it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.76it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.69it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.70it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:25,  1.72it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.75it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:24,  1.69it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.70it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:19<00:21,  1.78it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:22,  1.68it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:21,  1.69it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.60it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:21,  1.65it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:21,  1.60it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:19,  1.68it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:17,  1.73it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:16,  1.77it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.62it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.57it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.67it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.66it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.62it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.64it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:13,  1.71it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.61it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:31<00:13,  1.55it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:13,  1.54it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.65it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.70it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.65it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:10,  1.60it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:07,  1.76it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:08,  1.62it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.69it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:36<00:06,  1.64it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.77it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:37<00:04,  1.84it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.71it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:03,  1.76it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.69it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.73it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:40<00:02,  1.67it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.59it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:42<00:00,  1.59it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.73it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.41954532265663147, 'eval_runtime': 44.0423, 'eval_samples_per_second': 53.108, 'eval_steps_per_second': 1.68, 'eval_margin_dpo/margin_mean': 15.871517181396484, 'eval_margin_dpo/margin_std': 17.077098846435547, 'eval_logps/chosen': -132.64610290527344, 'eval_logps/rejected': -139.3175048828125, 'eval_logps/ref_chosen': -101.88616943359375, 'eval_logps/ref_rejected': -92.68607330322266, 'eval_logits/chosen': -1.4537636041641235, 'eval_logits/rejected': -1.1605932712554932, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▌             | 600/681 [42:04<03:54,  2.90s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.73it/s][A
                                                                                                                                                        [A[INFO|trainer.py:3984] 2026-04-24 00:37:25,586 >> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-600
[INFO|configuration_utils.py:419] 2026-04-24 00:37:25,600 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-600/config.json
[INFO|configuration_utils.py:911] 2026-04-24 00:37:25,607 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-600/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-24 00:38:04,762 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-600/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-24 00:38:04,767 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-600/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-24 00:38:04,770 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-600/special_tokens_map.json
[INFO|trainer.py:4083] 2026-04-24 00:41:36,665 >> Deleting older checkpoint [/scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-200] due to args.save_total_limit
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████▉             | 601/681 [46:34<2:08:13, 96.17s/it]                                                                                                                                                        {'loss': 0.5885, 'grad_norm': 26.41422462463379, 'learning_rate': 2.1301532877994742e-08, 'margin_dpo/margin_mean': 30.145484924316406, 'margin_dpo/margin_std': 24.454891204833984, 'logps/chosen': -104.30206298828125, 'logps/rejected': -170.05686950683594, 'logps/ref_chosen': -75.11897277832031, 'logps/ref_rejected': -110.72828674316406, 'logits/chosen': -1.7634140253067017, 'logits/rejected': -1.8990434408187866, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████▉             | 601/681 [46:34<2:08:13, 96.17s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████             | 602/681 [46:37<1:29:55, 68.30s/it]                                                                                                                                                        {'loss': 0.5053, 'grad_norm': 24.838815689086914, 'learning_rate': 2.0786184285784298e-08, 'margin_dpo/margin_mean': 13.836491584777832, 'margin_dpo/margin_std': 8.537615776062012, 'logps/chosen': -94.12992858886719, 'logps/rejected': -113.13572692871094, 'logps/ref_chosen': -65.56060791015625, 'logps/ref_rejected': -70.72991943359375, 'logits/chosen': -1.9122300148010254, 'logits/rejected': -1.8413580656051636, 'epoch': 0.88}
 88%|██████████████████████████████████████████████████████████████████████████████████████████████████             | 602/681 [46:37<1:29:55, 68.30s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████▎            | 603/681 [46:40<1:03:17, 48.69s/it]                                                                                                                                                        {'loss': 0.4995, 'grad_norm': 21.262638092041016, 'learning_rate': 2.0276875690788204e-08, 'margin_dpo/margin_mean': 24.044979095458984, 'margin_dpo/margin_std': 16.012496948242188, 'logps/chosen': -142.13864135742188, 'logps/rejected': -173.14385986328125, 'logps/ref_chosen': -122.12416076660156, 'logps/ref_rejected': -129.0844268798828, 'logits/chosen': -1.533982753753662, 'logits/rejected': -0.9280251264572144, 'epoch': 0.89}
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████▎            | 603/681 [46:40<1:03:17, 48.69s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 604/681 [46:43<44:53, 34.99s/it]                                                                                                                                                        {'loss': 0.5316, 'grad_norm': 23.620716094970703, 'learning_rate': 1.977362051376158e-08, 'margin_dpo/margin_mean': 15.964040756225586, 'margin_dpo/margin_std': 17.116283416748047, 'logps/chosen': -123.72084045410156, 'logps/rejected': -132.3470458984375, 'logps/ref_chosen': -95.43553161621094, 'logps/ref_rejected': -88.09769439697266, 'logits/chosen': -2.0624282360076904, 'logits/rejected': -1.6026830673217773, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 604/681 [46:43<44:53, 34.99s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 605/681 [46:46<32:10, 25.40s/it]                                                                                                                                                        {'loss': 0.6004, 'grad_norm': 23.886274337768555, 'learning_rate': 1.9276432015946446e-08, 'margin_dpo/margin_mean': 26.88275146484375, 'margin_dpo/margin_std': 12.025161743164062, 'logps/chosen': -124.10987854003906, 'logps/rejected': -113.97074127197266, 'logps/ref_chosen': -98.30979919433594, 'logps/ref_rejected': -61.28790283203125, 'logits/chosen': -0.8116771578788757, 'logits/rejected': 0.05416472256183624, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 605/681 [46:46<32:10, 25.40s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 606/681 [46:49<23:14, 18.59s/it]                                                                                                                                                        {'loss': 0.4465, 'grad_norm': 19.38317108154297, 'learning_rate': 1.8785323298722093e-08, 'margin_dpo/margin_mean': 24.26314926147461, 'margin_dpo/margin_std': 23.452638626098633, 'logps/chosen': -119.4458999633789, 'logps/rejected': -173.896484375, 'logps/ref_chosen': -91.20582580566406, 'logps/ref_rejected': -121.39325714111328, 'logits/chosen': -1.7569808959960938, 'logits/rejected': -1.498138427734375, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 606/681 [46:49<23:14, 18.59s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 607/681 [46:52<17:09, 13.91s/it]                                                                                                                                                        {'loss': 0.7087, 'grad_norm': 31.742523193359375, 'learning_rate': 1.8300307303259904e-08, 'margin_dpo/margin_mean': 27.137123107910156, 'margin_dpo/margin_std': 22.96157455444336, 'logps/chosen': -117.7818603515625, 'logps/rejected': -143.45266723632812, 'logps/ref_chosen': -93.03514099121094, 'logps/ref_rejected': -91.56881713867188, 'logits/chosen': -1.2356622219085693, 'logits/rejected': -0.7431513071060181, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 607/681 [46:52<17:09, 13.91s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 608/681 [46:54<12:51, 10.57s/it]                                                                                                                                                        {'loss': 0.6131, 'grad_norm': 26.023786544799805, 'learning_rate': 1.7821396810182437e-08, 'margin_dpo/margin_mean': 16.4940128326416, 'margin_dpo/margin_std': 14.074356079101562, 'logps/chosen': -93.41421508789062, 'logps/rejected': -107.28245544433594, 'logps/ref_chosen': -67.08824157714844, 'logps/ref_rejected': -64.46246337890625, 'logits/chosen': -1.4785089492797852, 'logits/rejected': -0.9715176820755005, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 608/681 [46:54<12:51, 10.57s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████            | 609/681 [46:57<09:54,  8.26s/it]                                                                                                                                                        {'loss': 0.5371, 'grad_norm': 22.36457061767578, 'learning_rate': 1.7348604439226617e-08, 'margin_dpo/margin_mean': 22.16372299194336, 'margin_dpo/margin_std': 17.413898468017578, 'logps/chosen': -112.64973449707031, 'logps/rejected': -131.94284057617188, 'logps/ref_chosen': -87.85757446289062, 'logps/ref_rejected': -84.98696899414062, 'logits/chosen': -1.7442258596420288, 'logits/rejected': -1.2550201416015625, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████            | 609/681 [46:57<09:54,  8.26s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 610/681 [47:00<07:50,  6.63s/it]                                                                                                                                                        {'loss': 0.5567, 'grad_norm': 35.290225982666016, 'learning_rate': 1.6881942648911074e-08, 'margin_dpo/margin_mean': 29.52370834350586, 'margin_dpo/margin_std': 20.365798950195312, 'logps/chosen': -124.01420593261719, 'logps/rejected': -175.32977294921875, 'logps/ref_chosen': -96.38543701171875, 'logps/ref_rejected': -118.17731475830078, 'logits/chosen': -0.8668674230575562, 'logits/rejected': -0.7067489624023438, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 610/681 [47:00<07:50,  6.63s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 611/681 [47:03<06:21,  5.45s/it]                                                                                                                                                        {'loss': 0.6434, 'grad_norm': 24.000062942504883, 'learning_rate': 1.6421423736208e-08, 'margin_dpo/margin_mean': 18.321395874023438, 'margin_dpo/margin_std': 21.715795516967773, 'logps/chosen': -87.62871551513672, 'logps/rejected': -145.35049438476562, 'logps/ref_chosen': -52.06251525878906, 'logps/ref_rejected': -91.46289825439453, 'logits/chosen': -1.1134871244430542, 'logits/rejected': -1.3368947505950928, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 611/681 [47:03<06:21,  5.45s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 612/681 [47:05<05:18,  4.61s/it]                                                                                                                                                        {'loss': 0.6102, 'grad_norm': 28.72694206237793, 'learning_rate': 1.5967059836219042e-08, 'margin_dpo/margin_mean': 30.159427642822266, 'margin_dpo/margin_std': 28.102706909179688, 'logps/chosen': -129.73422241210938, 'logps/rejected': -140.9920654296875, 'logps/ref_chosen': -111.08282470703125, 'logps/ref_rejected': -92.18126678466797, 'logits/chosen': -2.4680771827697754, 'logits/rejected': -1.2184339761734009, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 612/681 [47:05<05:18,  4.61s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 613/681 [47:08<04:37,  4.09s/it]                                                                                                                                                        {'loss': 0.4778, 'grad_norm': 29.352991104125977, 'learning_rate': 1.551886292185553e-08, 'margin_dpo/margin_mean': 31.312606811523438, 'margin_dpo/margin_std': 19.18683624267578, 'logps/chosen': -123.05023193359375, 'logps/rejected': -153.18783569335938, 'logps/ref_chosen': -98.03831481933594, 'logps/ref_rejected': -96.86331176757812, 'logits/chosen': -0.9738931655883789, 'logits/rejected': -0.4800354242324829, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 613/681 [47:08<04:37,  4.09s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 614/681 [47:11<04:08,  3.72s/it]                                                                                                                                                        {'loss': 0.557, 'grad_norm': 31.17698860168457, 'learning_rate': 1.507684480352292e-08, 'margin_dpo/margin_mean': 14.707442283630371, 'margin_dpo/margin_std': 17.06017303466797, 'logps/chosen': -106.69200134277344, 'logps/rejected': -185.89691162109375, 'logps/ref_chosen': -77.41725158691406, 'logps/ref_rejected': -141.9147186279297, 'logits/chosen': -1.1176828145980835, 'logits/rejected': -1.1149662733078003, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 614/681 [47:11<04:08,  3.72s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████           | 615/681 [47:14<03:50,  3.50s/it]                                                                                                                                                        {'loss': 0.6647, 'grad_norm': 23.951841354370117, 'learning_rate': 1.4641017128809801e-08, 'margin_dpo/margin_mean': 20.90196418762207, 'margin_dpo/margin_std': 15.42950439453125, 'logps/chosen': -186.31454467773438, 'logps/rejected': -133.49378967285156, 'logps/ref_chosen': -159.53976440429688, 'logps/ref_rejected': -85.81703186035156, 'logits/chosen': -2.5860671997070312, 'logits/rejected': -1.4683854579925537, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████           | 615/681 [47:14<03:50,  3.50s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 616/681 [47:17<03:37,  3.34s/it]                                                                                                                                                        {'loss': 0.655, 'grad_norm': 28.593801498413086, 'learning_rate': 1.4211391382180637e-08, 'margin_dpo/margin_mean': 26.75563621520996, 'margin_dpo/margin_std': 24.228565216064453, 'logps/chosen': -113.18240356445312, 'logps/rejected': -125.2229995727539, 'logps/ref_chosen': -86.95388793945312, 'logps/ref_rejected': -72.23883819580078, 'logits/chosen': -1.352514624595642, 'logits/rejected': -0.6652741432189941, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 616/681 [47:17<03:37,  3.34s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 617/681 [47:21<03:36,  3.38s/it]                                                                                                                                                        {'loss': 0.7685, 'grad_norm': 32.52434158325195, 'learning_rate': 1.378797888467345e-08, 'margin_dpo/margin_mean': 18.52096939086914, 'margin_dpo/margin_std': 16.058685302734375, 'logps/chosen': -133.91485595703125, 'logps/rejected': -101.05567932128906, 'logps/ref_chosen': -105.39964294433594, 'logps/ref_rejected': -54.019500732421875, 'logits/chosen': -1.0046977996826172, 'logits/rejected': -0.2724980413913727, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 617/681 [47:21<03:36,  3.38s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 618/681 [47:24<03:28,  3.30s/it]                                                                                                                                                        {'loss': 0.7211, 'grad_norm': 33.953426361083984, 'learning_rate': 1.3370790793601371e-08, 'margin_dpo/margin_mean': 19.089811325073242, 'margin_dpo/margin_std': 17.1854248046875, 'logps/chosen': -137.4913330078125, 'logps/rejected': -132.3260498046875, 'logps/ref_chosen': -111.18899536132812, 'logps/ref_rejected': -86.93389892578125, 'logits/chosen': -2.503714084625244, 'logits/rejected': -2.1493351459503174, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 618/681 [47:24<03:28,  3.30s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 619/681 [47:27<03:19,  3.22s/it]                                                                                                                                                        {'loss': 0.6267, 'grad_norm': 26.156822204589844, 'learning_rate': 1.2959838102258535e-08, 'margin_dpo/margin_mean': 26.543346405029297, 'margin_dpo/margin_std': 19.007911682128906, 'logps/chosen': -142.80148315429688, 'logps/rejected': -154.7870330810547, 'logps/ref_chosen': -122.91197204589844, 'logps/ref_rejected': -108.35417175292969, 'logits/chosen': -1.3825751543045044, 'logits/rejected': -0.729312002658844, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 619/681 [47:27<03:19,  3.22s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 620/681 [47:30<03:10,  3.12s/it]                                                                                                                                                        {'loss': 0.7628, 'grad_norm': 31.405254364013672, 'learning_rate': 1.2555131639630567e-08, 'margin_dpo/margin_mean': 16.232501983642578, 'margin_dpo/margin_std': 18.031766891479492, 'logps/chosen': -98.9208984375, 'logps/rejected': -130.6840362548828, 'logps/ref_chosen': -66.8671875, 'logps/ref_rejected': -82.39781188964844, 'logits/chosen': -1.6282209157943726, 'logits/rejected': -1.5203661918640137, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 620/681 [47:30<03:10,  3.12s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████          | 621/681 [47:33<03:05,  3.09s/it]                                                                                                                                                        {'loss': 0.697, 'grad_norm': 27.288387298583984, 'learning_rate': 1.2156682070109086e-08, 'margin_dpo/margin_mean': 16.956809997558594, 'margin_dpo/margin_std': 20.150236129760742, 'logps/chosen': -122.62663269042969, 'logps/rejected': -124.19369506835938, 'logps/ref_chosen': -100.42076110839844, 'logps/ref_rejected': -85.03102111816406, 'logits/chosen': -1.5042550563812256, 'logits/rejected': -1.1285921335220337, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████          | 621/681 [47:33<03:05,  3.09s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 622/681 [47:36<02:59,  3.04s/it]                                                                                                                                                        {'loss': 0.4756, 'grad_norm': 22.930315017700195, 'learning_rate': 1.1764499893210878e-08, 'margin_dpo/margin_mean': 24.725618362426758, 'margin_dpo/margin_std': 19.953989028930664, 'logps/chosen': -109.48207092285156, 'logps/rejected': -106.65364074707031, 'logps/ref_chosen': -86.09562683105469, 'logps/ref_rejected': -58.54158020019531, 'logits/chosen': -0.6095631122589111, 'logits/rejected': 0.05947205424308777, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 622/681 [47:36<02:59,  3.04s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 623/681 [47:38<02:46,  2.87s/it]                                                                                                                                                        {'loss': 0.8517, 'grad_norm': 34.40840148925781, 'learning_rate': 1.1378595443300998e-08, 'margin_dpo/margin_mean': 19.931346893310547, 'margin_dpo/margin_std': 23.866024017333984, 'logps/chosen': -109.72994232177734, 'logps/rejected': -163.298583984375, 'logps/ref_chosen': -80.37020874023438, 'logps/ref_rejected': -114.00752258300781, 'logits/chosen': -2.1641011238098145, 'logits/rejected': -2.284421443939209, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 623/681 [47:38<02:46,  2.87s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 624/681 [47:41<02:43,  2.87s/it]                                                                                                                                                        {'loss': 0.5314, 'grad_norm': 30.061717987060547, 'learning_rate': 1.0998978889320582e-08, 'margin_dpo/margin_mean': 27.737272262573242, 'margin_dpo/margin_std': 21.234542846679688, 'logps/chosen': -135.16061401367188, 'logps/rejected': -146.82891845703125, 'logps/ref_chosen': -112.427734375, 'logps/ref_rejected': -96.3587646484375, 'logits/chosen': -1.5450116395950317, 'logits/rejected': -0.4716716408729553, 'epoch': 0.92}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 624/681 [47:41<02:43,  2.87s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 625/681 [47:44<02:49,  3.02s/it]                                                                                                                                                        {'loss': 0.553, 'grad_norm': 24.109561920166016, 'learning_rate': 1.0625660234518913e-08, 'margin_dpo/margin_mean': 21.44537353515625, 'margin_dpo/margin_std': 15.984648704528809, 'logps/chosen': -109.12333679199219, 'logps/rejected': -162.85675048828125, 'logps/ref_chosen': -75.3917465209961, 'logps/ref_rejected': -107.67977905273438, 'logits/chosen': -2.4023971557617188, 'logits/rejected': -2.229701280593872, 'epoch': 0.92}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 625/681 [47:44<02:49,  3.02s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 626/681 [47:48<02:49,  3.08s/it]                                                                                                                                                        {'loss': 0.8693, 'grad_norm': 40.272911071777344, 'learning_rate': 1.0258649316189721e-08, 'margin_dpo/margin_mean': 14.079477310180664, 'margin_dpo/margin_std': 25.268157958984375, 'logps/chosen': -132.60232543945312, 'logps/rejected': -151.58079528808594, 'logps/ref_chosen': -96.54901123046875, 'logps/ref_rejected': -101.44801330566406, 'logits/chosen': -2.329925537109375, 'logits/rejected': -2.2528748512268066, 'epoch': 0.92}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 626/681 [47:48<02:49,  3.08s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████         | 627/681 [47:51<02:46,  3.08s/it]                                                                                                                                                        {'loss': 0.6398, 'grad_norm': 26.63361358642578, 'learning_rate': 9.897955805412e-09, 'margin_dpo/margin_mean': 19.443174362182617, 'margin_dpo/margin_std': 14.579084396362305, 'logps/chosen': -119.01112365722656, 'logps/rejected': -146.07315063476562, 'logps/ref_chosen': -88.80218505859375, 'logps/ref_rejected': -96.42103576660156, 'logits/chosen': -1.4621191024780273, 'logits/rejected': -1.2315270900726318, 'epoch': 0.92}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████         | 627/681 [47:51<02:46,  3.08s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 628/681 [47:54<02:40,  3.04s/it]                                                                                                                                                        {'loss': 0.5028, 'grad_norm': 24.76960563659668, 'learning_rate': 9.543589206795238e-09, 'margin_dpo/margin_mean': 19.077255249023438, 'margin_dpo/margin_std': 12.725533485412598, 'logps/chosen': -126.72996520996094, 'logps/rejected': -147.0572052001953, 'logps/ref_chosen': -99.37443542480469, 'logps/ref_rejected': -100.62442779541016, 'logits/chosen': -1.3107500076293945, 'logits/rejected': -0.9299607276916504, 'epoch': 0.92}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 628/681 [47:54<02:40,  3.04s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 629/681 [47:57<02:37,  3.02s/it]                                                                                                                                                        {'loss': 0.7023, 'grad_norm': 32.12858581542969, 'learning_rate': 9.19555885822887e-09, 'margin_dpo/margin_mean': 21.597137451171875, 'margin_dpo/margin_std': 15.778484344482422, 'logps/chosen': -121.68482208251953, 'logps/rejected': -129.65162658691406, 'logps/ref_chosen': -98.16767120361328, 'logps/ref_rejected': -84.53733825683594, 'logits/chosen': -1.940063238143921, 'logits/rejected': -1.3807988166809082, 'epoch': 0.92}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 629/681 [47:57<02:37,  3.02s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 630/681 [48:00<02:33,  3.02s/it]                                                                                                                                                        {'loss': 0.6629, 'grad_norm': 29.0245361328125, 'learning_rate': 8.85387393063622e-09, 'margin_dpo/margin_mean': 26.629322052001953, 'margin_dpo/margin_std': 19.489566802978516, 'logps/chosen': -127.28799438476562, 'logps/rejected': -128.5855712890625, 'logps/ref_chosen': -102.16020202636719, 'logps/ref_rejected': -76.82844543457031, 'logits/chosen': -2.2557272911071777, 'logits/rejected': -0.403414249420166, 'epoch': 0.93}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 630/681 [48:00<02:33,  3.02s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 631/681 [48:02<02:27,  2.96s/it]                                                                                                                                                        {'loss': 0.4943, 'grad_norm': 19.227121353149414, 'learning_rate': 8.518543427732949e-09, 'margin_dpo/margin_mean': 26.273296356201172, 'margin_dpo/margin_std': 15.153189659118652, 'logps/chosen': -133.84732055664062, 'logps/rejected': -121.6485824584961, 'logps/ref_chosen': -114.78280639648438, 'logps/ref_rejected': -76.31077575683594, 'logits/chosen': -2.5818333625793457, 'logits/rejected': -1.2536900043487549, 'epoch': 0.93}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 631/681 [48:02<02:27,  2.96s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 632/681 [48:05<02:21,  2.89s/it]                                                                                                                                                        {'loss': 0.5382, 'grad_norm': 23.025691986083984, 'learning_rate': 8.189576185789637e-09, 'margin_dpo/margin_mean': 25.185754776000977, 'margin_dpo/margin_std': 19.113544464111328, 'logps/chosen': -107.76996612548828, 'logps/rejected': -147.23556518554688, 'logps/ref_chosen': -80.00565338134766, 'logps/ref_rejected': -94.28547668457031, 'logits/chosen': -1.9373183250427246, 'logits/rejected': -1.6466472148895264, 'epoch': 0.93}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 632/681 [48:05<02:21,  2.89s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████        | 633/681 [48:08<02:22,  2.96s/it]                                                                                                                                                        {'loss': 0.7673, 'grad_norm': 31.93626594543457, 'learning_rate': 7.866980873399015e-09, 'margin_dpo/margin_mean': 19.91036605834961, 'margin_dpo/margin_std': 21.933469772338867, 'logps/chosen': -107.93728637695312, 'logps/rejected': -133.3818359375, 'logps/ref_chosen': -79.70408630371094, 'logps/ref_rejected': -85.23828125, 'logits/chosen': -3.0079336166381836, 'logits/rejected': -2.5928359031677246, 'epoch': 0.93}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████        | 633/681 [48:08<02:22,  2.96s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 634/681 [48:11<02:19,  2.96s/it]                                                                                                                                                        {'loss': 0.5543, 'grad_norm': 24.426607131958008, 'learning_rate': 7.550765991247654e-09, 'margin_dpo/margin_mean': 24.123126983642578, 'margin_dpo/margin_std': 15.052120208740234, 'logps/chosen': -95.75471496582031, 'logps/rejected': -150.92276000976562, 'logps/ref_chosen': -65.44131469726562, 'logps/ref_rejected': -96.48623657226562, 'logits/chosen': -1.3841078281402588, 'logits/rejected': -1.0601425170898438, 'epoch': 0.93}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 634/681 [48:11<02:19,  2.96s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 635/681 [48:14<02:14,  2.92s/it]                                                                                                                                                        {'loss': 0.6623, 'grad_norm': 26.585651397705078, 'learning_rate': 7.240939871891699e-09, 'margin_dpo/margin_mean': 21.39522933959961, 'margin_dpo/margin_std': 16.801891326904297, 'logps/chosen': -126.51262664794922, 'logps/rejected': -126.68396759033203, 'logps/ref_chosen': -99.6771240234375, 'logps/ref_rejected': -78.4532470703125, 'logits/chosen': -1.7034859657287598, 'logits/rejected': -1.0522689819335938, 'epoch': 0.93}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 635/681 [48:14<02:14,  2.92s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 636/681 [48:17<02:13,  2.97s/it]                                                                                                                                                        {'loss': 0.6777, 'grad_norm': 28.644737243652344, 'learning_rate': 6.937510679537628e-09, 'margin_dpo/margin_mean': 14.933639526367188, 'margin_dpo/margin_std': 14.684162139892578, 'logps/chosen': -130.71478271484375, 'logps/rejected': -131.12960815429688, 'logps/ref_chosen': -102.57931518554688, 'logps/ref_rejected': -88.06050109863281, 'logits/chosen': -0.9782381057739258, 'logits/rejected': -0.4344422221183777, 'epoch': 0.93}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 636/681 [48:17<02:13,  2.97s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 637/681 [48:20<02:09,  2.95s/it]                                                                                                                                                        {'loss': 0.7009, 'grad_norm': 29.544261932373047, 'learning_rate': 6.640486409826785e-09, 'margin_dpo/margin_mean': 20.864341735839844, 'margin_dpo/margin_std': 27.72216033935547, 'logps/chosen': -98.80889892578125, 'logps/rejected': -121.78729248046875, 'logps/ref_chosen': -73.93675994873047, 'logps/ref_rejected': -76.05081176757812, 'logits/chosen': -1.4342460632324219, 'logits/rejected': -1.0915610790252686, 'epoch': 0.94}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 637/681 [48:20<02:09,  2.95s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 638/681 [48:23<02:05,  2.92s/it]                                                                                                                                                        {'loss': 0.3867, 'grad_norm': 15.684412956237793, 'learning_rate': 6.349874889624962e-09, 'margin_dpo/margin_mean': 34.11281967163086, 'margin_dpo/margin_std': 22.033653259277344, 'logps/chosen': -162.9862518310547, 'logps/rejected': -122.63823699951172, 'logps/ref_chosen': -146.49359130859375, 'logps/ref_rejected': -72.0327377319336, 'logits/chosen': -2.4961729049682617, 'logits/rejected': -0.7357807159423828, 'epoch': 0.94}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 638/681 [48:23<02:05,  2.92s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████       | 639/681 [48:26<02:02,  2.91s/it]                                                                                                                                                        {'loss': 0.8664, 'grad_norm': 41.89670181274414, 'learning_rate': 6.065683776815933e-09, 'margin_dpo/margin_mean': 20.680925369262695, 'margin_dpo/margin_std': 17.583145141601562, 'logps/chosen': -126.6545181274414, 'logps/rejected': -126.32666015625, 'logps/ref_chosen': -99.16008758544922, 'logps/ref_rejected': -78.15130615234375, 'logits/chosen': -2.0428102016448975, 'logits/rejected': -0.9309650659561157, 'epoch': 0.94}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████       | 639/681 [48:26<02:02,  2.91s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 640/681 [48:29<02:02,  3.00s/it]                                                                                                                                                        {'loss': 0.5627, 'grad_norm': 26.69725227355957, 'learning_rate': 5.7879205600998296e-09, 'margin_dpo/margin_mean': 23.118385314941406, 'margin_dpo/margin_std': 11.315099716186523, 'logps/chosen': -100.805419921875, 'logps/rejected': -126.19176483154297, 'logps/ref_chosen': -70.03657531738281, 'logps/ref_rejected': -72.30453491210938, 'logits/chosen': -0.8534713387489319, 'logits/rejected': -0.35765373706817627, 'epoch': 0.94}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 640/681 [48:29<02:02,  3.00s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 641/681 [48:32<02:02,  3.05s/it]                                                                                                                                                        {'loss': 0.5443, 'grad_norm': 24.453815460205078, 'learning_rate': 5.516592558795746e-09, 'margin_dpo/margin_mean': 22.078567504882812, 'margin_dpo/margin_std': 24.4644775390625, 'logps/chosen': -113.69627380371094, 'logps/rejected': -158.95619201660156, 'logps/ref_chosen': -86.68313598632812, 'logps/ref_rejected': -109.86448669433594, 'logits/chosen': -1.6536837816238403, 'logits/rejected': -1.5010559558868408, 'epoch': 0.94}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 641/681 [48:32<02:02,  3.05s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 642/681 [48:35<01:56,  3.00s/it]                                                                                                                                                        {'loss': 0.6432, 'grad_norm': 27.494384765625, 'learning_rate': 5.251706922648868e-09, 'margin_dpo/margin_mean': 18.521900177001953, 'margin_dpo/margin_std': 18.387256622314453, 'logps/chosen': -112.55367279052734, 'logps/rejected': -176.6457061767578, 'logps/ref_chosen': -81.20620727539062, 'logps/ref_rejected': -126.77632141113281, 'logits/chosen': -0.8695433139801025, 'logits/rejected': -0.6438785791397095, 'epoch': 0.94}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 642/681 [48:35<01:56,  3.00s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 643/681 [48:38<01:54,  3.02s/it]                                                                                                                                                        {'loss': 0.5499, 'grad_norm': 21.128366470336914, 'learning_rate': 4.993270631642038e-09, 'margin_dpo/margin_mean': 20.74580955505371, 'margin_dpo/margin_std': 12.552116394042969, 'logps/chosen': -116.45796203613281, 'logps/rejected': -121.64019012451172, 'logps/ref_chosen': -89.84759521484375, 'logps/ref_rejected': -74.28402709960938, 'logits/chosen': -1.7625564336776733, 'logits/rejected': -1.2028493881225586, 'epoch': 0.94}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 643/681 [48:38<01:54,  3.02s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 644/681 [48:41<01:51,  3.01s/it]                                                                                                                                                        {'loss': 0.7342, 'grad_norm': 28.339998245239258, 'learning_rate': 4.741290495811873e-09, 'margin_dpo/margin_mean': 19.04413414001465, 'margin_dpo/margin_std': 20.908920288085938, 'logps/chosen': -106.68426513671875, 'logps/rejected': -146.94818115234375, 'logps/ref_chosen': -76.54374694824219, 'logps/ref_rejected': -97.76353454589844, 'logits/chosen': -1.7750461101531982, 'logits/rejected': -1.5512135028839111, 'epoch': 0.95}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 644/681 [48:41<01:51,  3.01s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████      | 645/681 [48:44<01:47,  2.99s/it]                                                                                                                                                        {'loss': 0.8305, 'grad_norm': 32.95466232299805, 'learning_rate': 4.495773155069299e-09, 'margin_dpo/margin_mean': 12.096460342407227, 'margin_dpo/margin_std': 17.232433319091797, 'logps/chosen': -137.83843994140625, 'logps/rejected': -107.06454467773438, 'logps/ref_chosen': -108.44778442382812, 'logps/ref_rejected': -65.57743072509766, 'logits/chosen': -1.6883985996246338, 'logits/rejected': -0.7081927061080933, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████      | 645/681 [48:44<01:47,  2.99s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 646/681 [48:47<01:42,  2.94s/it]                                                                                                                                                        {'loss': 0.4552, 'grad_norm': 23.519771575927734, 'learning_rate': 4.256725079024553e-09, 'margin_dpo/margin_mean': 26.582338333129883, 'margin_dpo/margin_std': 12.872812271118164, 'logps/chosen': -124.54080963134766, 'logps/rejected': -167.08096313476562, 'logps/ref_chosen': -99.14352416992188, 'logps/ref_rejected': -115.10133361816406, 'logits/chosen': -1.1280121803283691, 'logits/rejected': -0.7711001038551331, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 646/681 [48:47<01:42,  2.94s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 647/681 [48:50<01:41,  2.98s/it]                                                                                                                                                        {'loss': 0.7834, 'grad_norm': 32.113014221191406, 'learning_rate': 4.024152566816791e-09, 'margin_dpo/margin_mean': 19.25110626220703, 'margin_dpo/margin_std': 20.14596176147461, 'logps/chosen': -114.12860107421875, 'logps/rejected': -149.02532958984375, 'logps/ref_chosen': -82.64013671875, 'logps/ref_rejected': -98.2857666015625, 'logits/chosen': -0.8513507843017578, 'logits/rejected': -0.7660804390907288, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 647/681 [48:50<01:41,  2.98s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 648/681 [48:53<01:38,  2.99s/it]                                                                                                                                                        {'loss': 0.5122, 'grad_norm': 26.356727600097656, 'learning_rate': 3.798061746947995e-09, 'margin_dpo/margin_mean': 21.967853546142578, 'margin_dpo/margin_std': 16.269351959228516, 'logps/chosen': -109.87057495117188, 'logps/rejected': -153.75718688964844, 'logps/ref_chosen': -77.24684143066406, 'logps/ref_rejected': -99.16560363769531, 'logits/chosen': -1.376887559890747, 'logits/rejected': -1.3346166610717773, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 648/681 [48:53<01:38,  2.99s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 649/681 [48:56<01:38,  3.08s/it]                                                                                                                                                        {'loss': 0.609, 'grad_norm': 24.207809448242188, 'learning_rate': 3.5784585771215235e-09, 'margin_dpo/margin_mean': 13.484968185424805, 'margin_dpo/margin_std': 18.346370697021484, 'logps/chosen': -131.0638427734375, 'logps/rejected': -116.54486846923828, 'logps/ref_chosen': -105.46896362304688, 'logps/ref_rejected': -77.46502685546875, 'logits/chosen': -1.8359942436218262, 'logits/rejected': -1.2063957452774048, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 649/681 [48:56<01:38,  3.08s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 650/681 [48:59<01:32,  2.98s/it]                                                                                                                                                        {'loss': 0.6071, 'grad_norm': 37.710941314697266, 'learning_rate': 3.3653488440851253e-09, 'margin_dpo/margin_mean': 25.702922821044922, 'margin_dpo/margin_std': 18.235645294189453, 'logps/chosen': -109.78580474853516, 'logps/rejected': -155.64500427246094, 'logps/ref_chosen': -83.3130111694336, 'logps/ref_rejected': -103.46926879882812, 'logits/chosen': -1.2717688083648682, 'logits/rejected': -1.2444267272949219, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 650/681 [48:59<01:32,  2.98s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 651/681 [49:02<01:28,  2.96s/it]                                                                                                                                                        {'loss': 0.4133, 'grad_norm': 20.15422248840332, 'learning_rate': 3.158738163478475e-09, 'margin_dpo/margin_mean': 34.41473388671875, 'margin_dpo/margin_std': 15.260412216186523, 'logps/chosen': -125.57213592529297, 'logps/rejected': -186.22874450683594, 'logps/ref_chosen': -109.26248168945312, 'logps/ref_rejected': -135.50436401367188, 'logits/chosen': -2.506378412246704, 'logits/rejected': -1.909285306930542, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 651/681 [49:02<01:28,  2.96s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 652/681 [49:05<01:25,  2.95s/it]                                                                                                                                                        {'loss': 0.5575, 'grad_norm': 23.561294555664062, 'learning_rate': 2.9586319796851555e-09, 'margin_dpo/margin_mean': 25.084617614746094, 'margin_dpo/margin_std': 15.043981552124023, 'logps/chosen': -103.1104736328125, 'logps/rejected': -159.1099853515625, 'logps/ref_chosen': -77.7144775390625, 'logps/ref_rejected': -108.62936401367188, 'logits/chosen': -1.4572404623031616, 'logits/rejected': -1.3910325765609741, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 652/681 [49:05<01:25,  2.95s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 653/681 [49:08<01:22,  2.93s/it]                                                                                                                                                        {'loss': 0.5885, 'grad_norm': 28.391294479370117, 'learning_rate': 2.7650355656892166e-09, 'margin_dpo/margin_mean': 20.083072662353516, 'margin_dpo/margin_std': 16.388137817382812, 'logps/chosen': -119.31652069091797, 'logps/rejected': -177.6236114501953, 'logps/ref_chosen': -93.11857604980469, 'logps/ref_rejected': -131.34259033203125, 'logits/chosen': -2.1806952953338623, 'logits/rejected': -2.2581558227539062, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 653/681 [49:08<01:22,  2.93s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 654/681 [49:11<01:19,  2.93s/it]                                                                                                                                                        {'loss': 0.7289, 'grad_norm': 31.213104248046875, 'learning_rate': 2.577954022936174e-09, 'margin_dpo/margin_mean': 17.339649200439453, 'margin_dpo/margin_std': 15.09589672088623, 'logps/chosen': -109.99600219726562, 'logps/rejected': -140.29420471191406, 'logps/ref_chosen': -78.7916488647461, 'logps/ref_rejected': -91.75021362304688, 'logits/chosen': -1.9482306241989136, 'logits/rejected': -1.3727693557739258, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 654/681 [49:11<01:19,  2.93s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 655/681 [49:14<01:16,  2.93s/it]                                                                                                                                                        {'loss': 0.72, 'grad_norm': 27.248577117919922, 'learning_rate': 2.397392281198729e-09, 'margin_dpo/margin_mean': 13.799907684326172, 'margin_dpo/margin_std': 12.526430130004883, 'logps/chosen': -106.54402923583984, 'logps/rejected': -121.86129760742188, 'logps/ref_chosen': -74.46823120117188, 'logps/ref_rejected': -75.98558807373047, 'logits/chosen': -1.7276451587677002, 'logits/rejected': -1.683257818222046, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 655/681 [49:14<01:16,  2.93s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 656/681 [49:17<01:15,  3.02s/it]                                                                                                                                                        {'loss': 0.4748, 'grad_norm': 22.945934295654297, 'learning_rate': 2.223355098446622e-09, 'margin_dpo/margin_mean': 27.725685119628906, 'margin_dpo/margin_std': 16.44278335571289, 'logps/chosen': -111.42201232910156, 'logps/rejected': -194.20220947265625, 'logps/ref_chosen': -80.48881530761719, 'logps/ref_rejected': -135.5433349609375, 'logits/chosen': -1.748338222503662, 'logits/rejected': -1.9085040092468262, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 656/681 [49:17<01:15,  3.02s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 657/681 [49:20<01:10,  2.95s/it]                                                                                                                                                        {'loss': 0.6366, 'grad_norm': 25.630002975463867, 'learning_rate': 2.055847060721566e-09, 'margin_dpo/margin_mean': 22.592342376708984, 'margin_dpo/margin_std': 27.992549896240234, 'logps/chosen': -116.6616439819336, 'logps/rejected': -147.25933837890625, 'logps/ref_chosen': -91.72633361816406, 'logps/ref_rejected': -99.731689453125, 'logits/chosen': -1.4626106023788452, 'logits/rejected': -1.0344831943511963, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 657/681 [49:20<01:10,  2.95s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 658/681 [49:22<01:05,  2.87s/it]                                                                                                                                                        {'loss': 0.5872, 'grad_norm': 24.88594627380371, 'learning_rate': 1.8948725820160662e-09, 'margin_dpo/margin_mean': 17.340206146240234, 'margin_dpo/margin_std': 20.778215408325195, 'logps/chosen': -146.45626831054688, 'logps/rejected': -156.04794311523438, 'logps/ref_chosen': -112.55894470214844, 'logps/ref_rejected': -104.8104019165039, 'logits/chosen': -1.8801562786102295, 'logits/rejected': -1.3535478115081787, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 658/681 [49:22<01:05,  2.87s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 659/681 [49:25<01:03,  2.89s/it]                                                                                                                                                        {'loss': 0.532, 'grad_norm': 24.542510986328125, 'learning_rate': 1.7404359041573723e-09, 'margin_dpo/margin_mean': 26.33460235595703, 'margin_dpo/margin_std': 24.5662841796875, 'logps/chosen': -104.23818969726562, 'logps/rejected': -126.01404571533203, 'logps/ref_chosen': -76.53956604003906, 'logps/ref_rejected': -71.9808120727539, 'logits/chosen': -2.352703094482422, 'logits/rejected': -1.7414582967758179, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 659/681 [49:25<01:03,  2.89s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 660/681 [49:28<00:59,  2.86s/it]                                                                                                                                                        {'loss': 0.54, 'grad_norm': 23.398681640625, 'learning_rate': 1.592541096695571e-09, 'margin_dpo/margin_mean': 28.028095245361328, 'margin_dpo/margin_std': 18.708595275878906, 'logps/chosen': -111.40882873535156, 'logps/rejected': -124.7333984375, 'logps/ref_chosen': -84.62733459472656, 'logps/ref_rejected': -69.92381286621094, 'logits/chosen': -2.1632814407348633, 'logits/rejected': -1.345157504081726, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 660/681 [49:28<00:59,  2.86s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 661/681 [49:30<00:54,  2.74s/it]                                                                                                                                                        {'loss': 0.5883, 'grad_norm': 29.665576934814453, 'learning_rate': 1.4511920567963908e-09, 'margin_dpo/margin_mean': 22.2477970123291, 'margin_dpo/margin_std': 23.344955444335938, 'logps/chosen': -123.57489013671875, 'logps/rejected': -167.12649536132812, 'logps/ref_chosen': -92.84153747558594, 'logps/ref_rejected': -114.14533996582031, 'logits/chosen': -1.6013872623443604, 'logits/rejected': -1.1411731243133545, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 661/681 [49:30<00:54,  2.74s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 662/681 [49:34<00:54,  2.85s/it]                                                                                                                                                        {'loss': 0.4635, 'grad_norm': 24.84825897216797, 'learning_rate': 1.3163925091384532e-09, 'margin_dpo/margin_mean': 20.56658935546875, 'margin_dpo/margin_std': 13.022397994995117, 'logps/chosen': -112.46092987060547, 'logps/rejected': -137.53738403320312, 'logps/ref_chosen': -82.68042755126953, 'logps/ref_rejected': -87.19029235839844, 'logits/chosen': -1.088799238204956, 'logits/rejected': -0.6112481355667114, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 662/681 [49:34<00:54,  2.85s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 663/681 [49:37<00:54,  3.00s/it]                                                                                                                                                        {'loss': 0.5211, 'grad_norm': 22.896821975708008, 'learning_rate': 1.1881460058152382e-09, 'margin_dpo/margin_mean': 19.316484451293945, 'margin_dpo/margin_std': 15.610393524169922, 'logps/chosen': -135.431640625, 'logps/rejected': -179.110595703125, 'logps/ref_chosen': -106.22300720214844, 'logps/ref_rejected': -130.58547973632812, 'logits/chosen': -1.5960707664489746, 'logits/rejected': -1.2925134897232056, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 663/681 [49:37<00:54,  3.00s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 664/681 [49:40<00:52,  3.06s/it]                                                                                                                                                        {'loss': 0.5275, 'grad_norm': 27.367639541625977, 'learning_rate': 1.066455926241383e-09, 'margin_dpo/margin_mean': 30.288034439086914, 'margin_dpo/margin_std': 14.453622817993164, 'logps/chosen': -117.2126693725586, 'logps/rejected': -151.74496459960938, 'logps/ref_chosen': -93.286376953125, 'logps/ref_rejected': -97.53064727783203, 'logits/chosen': -1.6287367343902588, 'logits/rejected': -1.190144658088684, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 664/681 [49:40<00:52,  3.06s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 665/681 [49:43<00:47,  2.95s/it]                                                                                                                                                        {'loss': 0.564, 'grad_norm': 22.599021911621094, 'learning_rate': 9.513254770636137e-10, 'margin_dpo/margin_mean': 15.369461059570312, 'margin_dpo/margin_std': 11.922895431518555, 'logps/chosen': -131.42825317382812, 'logps/rejected': -145.77651977539062, 'logps/ref_chosen': -105.4872817993164, 'logps/ref_rejected': -104.466064453125, 'logits/chosen': -2.1870265007019043, 'logits/rejected': -1.971346139907837, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 665/681 [49:43<00:47,  2.95s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 666/681 [49:46<00:44,  3.00s/it]                                                                                                                                                        {'loss': 0.815, 'grad_norm': 31.737276077270508, 'learning_rate': 8.427576920763956e-10, 'margin_dpo/margin_mean': 14.71677017211914, 'margin_dpo/margin_std': 17.84575653076172, 'logps/chosen': -116.85716247558594, 'logps/rejected': -136.8424835205078, 'logps/ref_chosen': -85.33709716796875, 'logps/ref_rejected': -90.60565185546875, 'logits/chosen': -1.3515913486480713, 'logits/rejected': -1.0945022106170654, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 666/681 [49:46<00:44,  3.00s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 667/681 [49:49<00:42,  3.00s/it]                                                                                                                                                        {'loss': 0.4763, 'grad_norm': 26.36996078491211, 'learning_rate': 7.407554321417764e-10, 'margin_dpo/margin_mean': 26.86260223388672, 'margin_dpo/margin_std': 18.75882911682129, 'logps/chosen': -105.82881927490234, 'logps/rejected': -120.00591278076172, 'logps/ref_chosen': -80.93008422851562, 'logps/ref_rejected': -68.24456787109375, 'logits/chosen': -1.5280002355575562, 'logits/rejected': -0.8938305377960205, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 667/681 [49:49<00:42,  3.00s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 668/681 [49:52<00:39,  3.01s/it]                                                                                                                                                        {'loss': 0.4135, 'grad_norm': 23.50409698486328, 'learning_rate': 6.453213851142225e-10, 'margin_dpo/margin_mean': 22.471668243408203, 'margin_dpo/margin_std': 17.230484008789062, 'logps/chosen': -104.58021545410156, 'logps/rejected': -168.6148223876953, 'logps/ref_chosen': -76.60061645507812, 'logps/ref_rejected': -118.1635513305664, 'logits/chosen': -1.4292489290237427, 'logits/rejected': -1.478631615638733, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 668/681 [49:52<00:39,  3.01s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 669/681 [49:55<00:36,  3.03s/it]                                                                                                                                                        {'loss': 0.5988, 'grad_norm': 24.116369247436523, 'learning_rate': 5.564580657695939e-10, 'margin_dpo/margin_mean': 14.25910758972168, 'margin_dpo/margin_std': 19.90908432006836, 'logps/chosen': -120.40367126464844, 'logps/rejected': -104.82398986816406, 'logps/ref_chosen': -91.93134307861328, 'logps/ref_rejected': -62.09255599975586, 'logits/chosen': -1.528371810913086, 'logits/rejected': -0.9692767858505249, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 669/681 [49:55<00:36,  3.03s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 670/681 [49:58<00:33,  3.06s/it]                                                                                                                                                        {'loss': 0.4798, 'grad_norm': 21.280534744262695, 'learning_rate': 4.741678157389739e-10, 'margin_dpo/margin_mean': 28.047285079956055, 'margin_dpo/margin_std': 18.901243209838867, 'logps/chosen': -98.46882629394531, 'logps/rejected': -138.5927276611328, 'logps/ref_chosen': -71.73137664794922, 'logps/ref_rejected': -83.80799102783203, 'logits/chosen': -1.3773136138916016, 'logits/rejected': -1.061061978340149, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 670/681 [49:58<00:33,  3.06s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 671/681 [50:01<00:29,  2.98s/it]                                                                                                                                                        {'loss': 0.5645, 'grad_norm': 22.35253143310547, 'learning_rate': 3.9845280344705245e-10, 'margin_dpo/margin_mean': 17.332304000854492, 'margin_dpo/margin_std': 15.1148042678833, 'logps/chosen': -131.175048828125, 'logps/rejected': -140.61334228515625, 'logps/ref_chosen': -97.33171844482422, 'logps/ref_rejected': -89.43772888183594, 'logits/chosen': -0.859630823135376, 'logits/rejected': -0.6215537190437317, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 671/681 [50:01<00:29,  2.98s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 672/681 [50:04<00:27,  3.02s/it]                                                                                                                                                        {'loss': 0.6272, 'grad_norm': 28.22157096862793, 'learning_rate': 3.293150240547549e-10, 'margin_dpo/margin_mean': 13.203832626342773, 'margin_dpo/margin_std': 15.262359619140625, 'logps/chosen': -108.41804504394531, 'logps/rejected': -139.38845825195312, 'logps/ref_chosen': -77.21369171142578, 'logps/ref_rejected': -94.98027038574219, 'logits/chosen': -2.014643907546997, 'logits/rejected': -1.8692243099212646, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 672/681 [50:04<00:27,  3.02s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 673/681 [50:07<00:23,  2.89s/it]                                                                                                                                                        {'loss': 0.505, 'grad_norm': 22.13953399658203, 'learning_rate': 2.6675629940689504e-10, 'margin_dpo/margin_mean': 23.310997009277344, 'margin_dpo/margin_std': 15.188114166259766, 'logps/chosen': -91.1622543334961, 'logps/rejected': -152.5889892578125, 'logps/ref_chosen': -63.30126190185547, 'logps/ref_rejected': -101.4169921875, 'logits/chosen': -0.9023149013519287, 'logits/rejected': -0.7241397500038147, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 673/681 [50:07<00:23,  2.89s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 674/681 [50:10<00:20,  2.94s/it]                                                                                                                                                        {'loss': 0.4786, 'grad_norm': 20.051538467407227, 'learning_rate': 2.1077827798404725e-10, 'margin_dpo/margin_mean': 25.555042266845703, 'margin_dpo/margin_std': 18.46479606628418, 'logps/chosen': -109.16806030273438, 'logps/rejected': -128.1361083984375, 'logps/ref_chosen': -80.00570678710938, 'logps/ref_rejected': -73.41873168945312, 'logits/chosen': -1.5894590616226196, 'logits/rejected': -1.1531003713607788, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 674/681 [50:10<00:20,  2.94s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 675/681 [50:12<00:17,  2.86s/it]                                                                                                                                                        {'loss': 0.7257, 'grad_norm': 177.50648498535156, 'learning_rate': 1.6138243485910863e-10, 'margin_dpo/margin_mean': 17.43462371826172, 'margin_dpo/margin_std': 15.88136100769043, 'logps/chosen': -87.20614624023438, 'logps/rejected': -111.49307250976562, 'logps/ref_chosen': -63.118011474609375, 'logps/ref_rejected': -69.97030639648438, 'logits/chosen': -0.9243202805519104, 'logits/rejected': -0.7027927041053772, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 675/681 [50:12<00:17,  2.86s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 676/681 [50:15<00:14,  2.92s/it]                                                                                                                                                        {'loss': 0.4528, 'grad_norm': 26.805587768554688, 'learning_rate': 1.1857007165852472e-10, 'margin_dpo/margin_mean': 21.404701232910156, 'margin_dpo/margin_std': 14.885082244873047, 'logps/chosen': -131.3642578125, 'logps/rejected': -151.52993774414062, 'logps/ref_chosen': -100.23760986328125, 'logps/ref_rejected': -98.99859619140625, 'logits/chosen': -1.7543052434921265, 'logits/rejected': -1.1985046863555908, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 676/681 [50:15<00:14,  2.92s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 677/681 [50:18<00:11,  2.84s/it]                                                                                                                                                        {'loss': 0.3924, 'grad_norm': 17.16691780090332, 'learning_rate': 8.23423165278725e-11, 'margin_dpo/margin_mean': 21.885032653808594, 'margin_dpo/margin_std': 18.007171630859375, 'logps/chosen': -106.279541015625, 'logps/rejected': -137.46066284179688, 'logps/ref_chosen': -80.32097625732422, 'logps/ref_rejected': -89.61705017089844, 'logits/chosen': -2.323134660720825, 'logits/rejected': -2.3097894191741943, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 677/681 [50:18<00:11,  2.84s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 678/681 [50:21<00:08,  2.89s/it]                                                                                                                                                        {'loss': 0.4801, 'grad_norm': 20.216367721557617, 'learning_rate': 5.270012410216185e-11, 'margin_dpo/margin_mean': 24.323078155517578, 'margin_dpo/margin_std': 20.244949340820312, 'logps/chosen': -117.91678619384766, 'logps/rejected': -115.28776550292969, 'logps/ref_chosen': -89.85308837890625, 'logps/ref_rejected': -62.9010009765625, 'logits/chosen': -1.1461702585220337, 'logits/rejected': -0.45331066846847534, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 678/681 [50:21<00:08,  2.89s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 679/681 [50:24<00:05,  2.86s/it]                                                                                                                                                        {'loss': 0.4935, 'grad_norm': 22.173934936523438, 'learning_rate': 2.9644275480772416e-11, 'margin_dpo/margin_mean': 24.919471740722656, 'margin_dpo/margin_std': 18.897235870361328, 'logps/chosen': -92.57217407226562, 'logps/rejected': -130.9364013671875, 'logps/ref_chosen': -63.82649230957031, 'logps/ref_rejected': -77.2712631225586, 'logits/chosen': -2.05856990814209, 'logits/rejected': -1.7644459009170532, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 679/681 [50:24<00:05,  2.86s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 680/681 [50:27<00:02,  2.93s/it]                                                                                                                                                        {'loss': 0.5882, 'grad_norm': 29.65631103515625, 'learning_rate': 1.31753782067201e-11, 'margin_dpo/margin_mean': 21.06808090209961, 'margin_dpo/margin_std': 22.42251205444336, 'logps/chosen': -110.40392303466797, 'logps/rejected': -164.33082580566406, 'logps/ref_chosen': -81.73397064208984, 'logps/ref_rejected': -114.59278869628906, 'logits/chosen': -1.9342844486236572, 'logits/rejected': -1.8356274366378784, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 680/681 [50:27<00:02,  2.93s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [50:30<00:00,  2.92s/it]                                                                                                                                                        {'loss': 0.5985, 'grad_norm': 29.214645385742188, 'learning_rate': 3.2938662507808745e-12, 'margin_dpo/margin_mean': 18.287107467651367, 'margin_dpo/margin_std': 15.459449768066406, 'logps/chosen': -133.166748046875, 'logps/rejected': -161.36431884765625, 'logps/ref_chosen': -103.17874145507812, 'logps/ref_rejected': -113.08921813964844, 'logits/chosen': -1.2867460250854492, 'logits/rejected': -1.1931159496307373, 'epoch': 1.0}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [50:30<00:00,  2.92s/it][INFO|trainer.py:3984] 2026-04-24 00:45:51,574 >> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-681
[INFO|configuration_utils.py:419] 2026-04-24 00:45:51,580 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-681/config.json
[INFO|configuration_utils.py:911] 2026-04-24 00:45:51,583 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-681/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-24 00:46:31,178 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-681/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-24 00:46:31,185 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-681/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-24 00:46:31,189 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-681/special_tokens_map.json
[INFO|trainer.py:4083] 2026-04-24 00:49:56,351 >> Deleting older checkpoint [/scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/checkpoint-400] due to args.save_total_limit
[INFO|trainer.py:2681] 2026-04-24 00:49:58,792 >> 

Training completed. Do not forget to share your model on huggingface.co/models =)


                                                                                                                                                        {'train_runtime': 3298.7616, 'train_samples_per_second': 13.216, 'train_steps_per_second': 0.206, 'train_loss': 0.7553340482816823, 'epoch': 1.0}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [54:51<00:00,  2.92s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [54:51<00:00,  4.83s/it]
***** train metrics *****
  epoch                    =        1.0
  total_flos               =        0GF
  train_loss               =     0.7553
  train_runtime            = 0:54:58.76
  train_samples            =      43598
  train_samples_per_second =     13.216
  train_steps_per_second   =      0.206
2026-04-24 00:49:58 - INFO - __main__ - *** Training complete ***
2026-04-24 00:49:58 - INFO - __main__ - *** Save model ***
[INFO|configuration_utils.py:419] 2026-04-24 00:50:17,099 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/config.json
[INFO|configuration_utils.py:911] 2026-04-24 00:50:17,122 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-24 00:51:14,353 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 7 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-24 00:51:14,358 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-24 00:51:14,360 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/special_tokens_map.json
2026-04-24 00:51:14 - INFO - __main__ - Saved HF-compatible model artifacts to /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948
[INFO|modelcard.py:450] 2026-04-24 00:51:15,160 >> Dropping the following result as it does not have all the necessary fields:
{'dataset': {'name': 'Anthropic/hh-rlhf', 'type': 'Anthropic/hh-rlhf'}}
[INFO|configuration_utils.py:419] 2026-04-24 00:51:15,201 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948/config.json
2026-04-24 00:51:15 - INFO - __main__ - *** Evaluate ***
[INFO|trainer.py:4307] 2026-04-24 00:51:15,202 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 00:51:15,202 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 00:51:15,202 >>   Batch size = 8
  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s]  3%|███▏                                                                                                                | 2/73 [00:00<00:18,  3.87it/s]  4%|████▊                                                                                                               | 3/73 [00:01<00:28,  2.43it/s]  5%|██████▎                                                                                                             | 4/73 [00:01<00:34,  2.00it/s]  7%|███████▉                                                                                                            | 5/73 [00:02<00:34,  1.95it/s]  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.82it/s] 10%|███████████                                                                                                         | 7/73 [00:03<00:36,  1.83it/s] 11%|████████████▋                                                                                                       | 8/73 [00:03<00:33,  1.91it/s] 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:38,  1.68it/s] 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.69it/s] 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:37,  1.63it/s] 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:36,  1.67it/s] 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:36,  1.67it/s] 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.65it/s] 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:35,  1.63it/s] 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.59it/s] 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.58it/s] 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:31,  1.72it/s] 26%|█████████████████████████████▉                                                                                     | 19/73 [00:10<00:35,  1.54it/s] 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:34,  1.52it/s] 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:34,  1.52it/s] 30%|██████████████████████████████████▋                                                                                | 22/73 [00:12<00:33,  1.54it/s] 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:31,  1.60it/s] 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.54it/s] 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.57it/s] 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:27,  1.70it/s] 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.76it/s] 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.69it/s] 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.70it/s] 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:25,  1.72it/s] 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.75it/s] 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:24,  1.69it/s] 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.70it/s] 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:19<00:21,  1.78it/s] 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:22,  1.69it/s] 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:21,  1.69it/s] 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.60it/s] 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:21,  1.65it/s] 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:21,  1.60it/s] 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s] 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.69it/s] 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:17,  1.73it/s] 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:16,  1.78it/s] 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:25<00:17,  1.62it/s] 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.57it/s] 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.67it/s] 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.65it/s] 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.61it/s] 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.63it/s] 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:13,  1.70it/s] 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.60it/s] 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:30<00:13,  1.54it/s] 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:13,  1.53it/s] 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.64it/s] 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.68it/s] 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.65it/s] 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:10,  1.60it/s] 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.67it/s] 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:07,  1.75it/s] 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:08,  1.61it/s] 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.69it/s] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:36<00:06,  1.64it/s] 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.76it/s] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:37<00:04,  1.84it/s] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.70it/s] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:04,  1.74it/s] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.69it/s] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.73it/s] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:41<00:02,  1.67it/s] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.55it/s] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.58it/s] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:42<00:00,  1.59it/s]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.73it/s]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.68it/s]
***** eval metrics *****
  epoch                       =        1.0
  eval_logits/chosen          =    -1.4372
  eval_logits/rejected        =    -1.1417
  eval_logps/chosen           =  -132.7206
  eval_logps/ref_chosen       =  -101.8862
  eval_logps/ref_rejected     =   -92.6861
  eval_logps/rejected         =  -139.4085
  eval_loss                   =     0.4201
  eval_margin_dpo/margin_mean =    15.8881
  eval_margin_dpo/margin_std  =    17.0243
  eval_runtime                = 0:00:44.05
  eval_samples                =       2339
  eval_samples_per_second     =     53.097
  eval_steps_per_second       =       1.68
2026-04-24 00:51:59 - INFO - __main__ - *** Training complete! ***
wandb: - 0.015 MB of 0.015 MB uploadedwandb: \ 0.015 MB of 0.015 MB uploadedwandb: | 0.015 MB of 0.015 MB uploadedwandb: / 0.048 MB of 0.280 MB uploadedwandb: - 0.281 MB of 0.281 MB uploadedwandb: 
wandb: Run history:
wandb:           eval/logits/chosen █▃▂▂▂▁▁
wandb:         eval/logits/rejected █▃▂▂▂▁▁
wandb:            eval/logps/chosen █▆▄▂▁▁▁
wandb:        eval/logps/ref_chosen ▁▁▁▁▁▁▁
wandb:      eval/logps/ref_rejected ▁▁▁▁▁▁▁
wandb:          eval/logps/rejected █▅▃▂▁▁▁
wandb:                    eval/loss █▃▂▁▁▁▁
wandb:  eval/margin_dpo/margin_mean ▁▅▇████
wandb:   eval/margin_dpo/margin_std ▁▅▇████
wandb:                 eval/runtime █▁▂▃▅▅▅
wandb:      eval/samples_per_second ▁█▇▆▄▄▄
wandb:        eval/steps_per_second ▁█▇▅▄▄▄
wandb:                  train/epoch ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
wandb:            train/global_step ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
wandb:              train/grad_norm ▅█▄▅▄▂▂▄▄▁▂▅▂▃▄▃▂▃▂▁▄▄▂▃▁▂▂▃▃▂▁▂▂▃▃▃▄▃▂▄
wandb:          train/learning_rate ▂▃▅▇██████▇▇▇▇▇▆▆▆▆▅▅▅▄▄▄▄▃▃▃▂▂▂▂▂▁▁▁▁▁▁
wandb:          train/logits/chosen ▇██▆▆▅▃▃▄▂▅▅▃▄▃▂▁▁▃▄▂▃▂▁▂▃▃▃▄▂▃▁▃▄▃▃▃▄▂▂
wandb:        train/logits/rejected ███▇▇▅▄▄▅▄▆▆▄▅▄▃▁▃▅▅▃▄▃▃▃▅▃▅▅▄▄▃▄▄▄▄▅▆▃▃
wandb:           train/logps/chosen ▆█▇▆▆▆▇█▆▇▇▆▇▅▆▇▇▄▅▄▅▇▇▃▅▆▆▁▄▄▃▆▄▆▆▆▄▆▅▅
wandb:       train/logps/ref_chosen ▅▇▇▅▆▅▆▇▅▆▇▅▇▄▆▇▇▄▆▅▅██▄▆▆▆▁▄▅▄▇▅▇▇▇▄▇▆▆
wandb:     train/logps/ref_rejected ▆█▇▆▆▄▇▆▆▅▃▄▇▆▃▆▂▃▅▅▆▅▇▃▄▆▂▃▄▅▂█▄▇▆█▅▇▁▃
wandb:         train/logps/rejected ▇█▇▇▇▅▇▆▆▆▄▅▆▆▄▅▃▃▄▄▅▄▅▃▃▅▃▃▃▄▂▅▃▄▄▆▄▅▁▃
wandb:                   train/loss ███▇▆▆▅▅▅▃▃▄▃▄▃▃▂▃▂▂▂▂▂▁▁▂▂▁▂▁▁▂▂▃▃▂▂▂▁▂
wandb: train/margin_dpo/margin_mean ▁▁▁▁▁▂▂▃▄▄▅▃▅▄▄▅▆▆▆▆▅▅▆▇▇▇▆▆▆▇▅██▇▄▅█▇█▆
wandb:  train/margin_dpo/margin_std ▁▁▁▁▂▃▃▃▄▃▄▄▃▅▆▄▅█▇▄▅▅▆▆▆▆▅▅▅▅▅▅▅▅▆▄▆▄▅▇
wandb: 
wandb: Run summary:
wandb:           eval/logits/chosen -1.43717
wandb:         eval/logits/rejected -1.14165
wandb:            eval/logps/chosen -132.72055
wandb:        eval/logps/ref_chosen -101.88617
wandb:      eval/logps/ref_rejected -92.68607
wandb:          eval/logps/rejected -139.40851
wandb:                    eval/loss 0.4201
wandb:  eval/margin_dpo/margin_mean 15.88807
wandb:   eval/margin_dpo/margin_std 17.02426
wandb:                 eval/runtime 44.0516
wandb:      eval/samples_per_second 53.097
wandb:        eval/steps_per_second 1.68
wandb:                   total_flos 0.0
wandb:                  train/epoch 1.0
wandb:            train/global_step 681
wandb:              train/grad_norm 29.21465
wandb:          train/learning_rate 0.0
wandb:          train/logits/chosen -1.28675
wandb:        train/logits/rejected -1.19312
wandb:           train/logps/chosen -133.16675
wandb:       train/logps/ref_chosen -103.17874
wandb:     train/logps/ref_rejected -113.08922
wandb:         train/logps/rejected -161.36432
wandb:                   train/loss 0.5985
wandb: train/margin_dpo/margin_mean 18.28711
wandb:  train/margin_dpo/margin_std 15.45945
wandb:                   train_loss 0.75533
wandb:                train_runtime 3298.7616
wandb:     train_samples_per_second 13.216
wandb:       train_steps_per_second 0.206
wandb: 
wandb: 🚀 View run qwen3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260423-233948 at: https://wandb.ai/feng-cheng-northeastern-university/qwen3_hh_4xh200_beta_0.1/runs/3smfot9g
wandb: ⭐️ View project at: https://wandb.ai/feng-cheng-northeastern-university/qwen3_hh_4xh200_beta_0.1
wandb: Synced 6 W&B file(s), 0 media file(s), 2 artifact file(s) and 0 other file(s)
wandb: Find logs at: /scratch/qu.yang1/wandb/wandb/run-20260423_235502-3smfot9g/logs
wandb: WARNING The new W&B backend becomes opt-out in version 0.18.0; try it out with `wandb.require("core")`! See https://wandb.me/wandb-core for more information.