2026-04-24 01:37:58 - INFO - __main__ - Model parameters ModelArguments(base_model_revision=None, model_name_or_path='/scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452', model_revision='main', model_code_revision=None, torch_dtype='bfloat16', tokenizer_name_or_path=None, trust_remote_code=False, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False, bnb_4bit_quant_storage='uint8')
2026-04-24 01:37:58 - INFO - __main__ - Data parameters DataArguments(chat_template=None, dataset_mixer={'Anthropic/hh-rlhf': 1.0}, text_column='text', dataset_splits=['train', 'test'], dataset_configs=['helpful-base'], dataset_dir=None, preprocessing_num_workers=12, use_persistent_hf_cache=True, hf_cache_dir='/scratch/qu.yang1/hf/datasets', truncation_side=None, auto_insert_empty_system_msg=True, disable_thinking=True, preprocessing_log_samples=0, preprocessing_log_dir=None)
2026-04-24 01:37:58 - INFO - __main__ - Training/evaluation parameters BetaDPOConfig(
_n_gpu=1,
accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
alpha=0.6,
auto_find_batch_size=False,
average_tokens_across_devices=False,
batch_eval_metrics=False,
beta=0.1,
beta_min=0.001,
bf16=True,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=True,
dataloader_num_workers=0,
dataloader_persistent_workers=False,
dataloader_pin_memory=True,
dataloader_prefetch_factor=None,
dataset_num_proc=12,
ddp_backend=None,
ddp_broadcast_buffers=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
deterministic_eval=True,
disable_dropout=True,
disable_tqdm=False,
do_eval=True,
do_predict=False,
do_train=False,
ema_momentum=0.9,
eval_accumulation_steps=None,
eval_delay=0,
eval_do_concat_batches=True,
eval_on_start=False,
eval_steps=100,
eval_strategy=IntervalStrategy.STEPS,
eval_use_gather_object=False,
f_alpha_divergence_coef=1.0,
f_divergence_type=FDivergenceType.REVERSE_KL,
force_use_ref_model=False,
fp16=False,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=[],
fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
fsdp_min_num_params=0,
fsdp_transformer_layer_cls_to_wrap=None,
full_determinism=False,
generate_during_eval=False,
gradient_accumulation_steps=2,
gradient_checkpointing=True,
gradient_checkpointing_kwargs={'use_reentrant': False},
greater_is_better=None,
group_by_length=False,
half_precision_backend=auto,
hub_always_push=False,
hub_margin_dataset_id=None,
hub_model_id=qwen3-8b-base-beta-dpo-hh-helpful-4xh200,
hub_model_revision=main,
hub_private_repo=None,
hub_strategy=HubStrategy.EVERY_SAVE,
hub_token=<HUB_TOKEN>,
ignore_data_skip=False,
include_for_metrics=[],
include_inputs_for_metrics=False,
include_num_input_tokens_seen=False,
include_tokens_per_second=False,
is_encoder_decoder=None,
jit_mode_eval=False,
label_names=None,
label_pad_token_id=-100,
label_smoothing=0.0,
label_smoothing_factor=0.0,
learning_rate=5e-07,
length_column_name=length,
load_best_model_at_end=False,
local_rank=0,
log_level=info,
log_level_replica=warning,
log_on_each_node=True,
logging_dir=outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200/runs/Apr24_01-37-57_d4054,
logging_first_step=True,
logging_nan_inf_filter=True,
logging_steps=1,
logging_strategy=IntervalStrategy.STEPS,
loss_type=sigmoid,
lr_scheduler_kwargs={},
lr_scheduler_type=SchedulerType.COSINE,
margin_dataset_private=None,
margin_dataset_split=train,
max_grad_norm=1.0,
max_length=512,
max_prompt_length=256,
max_steps=-1,
max_target_length=None,
metric_for_best_model=None,
model_adapter_name=None,
model_init_kwargs=None,
mp_parameters=,
neftune_noise_alpha=None,
no_cuda=False,
non_finite_logits_handling=sanitize,
num_train_epochs=1,
optim=OptimizerNames.ADAMW_TORCH,
optim_args=None,
optim_target_modules=None,
output_dir=/scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732,
overwrite_output_dir=False,
padding_value=None,
past_index=-1,
per_device_eval_batch_size=8,
per_device_train_batch_size=8,
post_tokenization_log_dir=None,
post_tokenization_log_samples=0,
precompute_ref_batch_size=None,
precompute_ref_eval_batch_size=None,
precompute_ref_log_probs=False,
prediction_loss_only=False,
push_margin_dataset=True,
push_to_hub=False,
push_to_hub_model_id=None,
push_to_hub_organization=None,
push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
ray_scope=last,
ref_adapter_name=None,
ref_model_init_kwargs=None,
ref_model_mixup_alpha=0.9,
ref_model_sync_steps=64,
reference_free=False,
remove_unused_columns=False,
report_to=['wandb'],
require_equal_local_batch_size=True,
restore_callback_states_from_checkpoint=False,
resume_from_checkpoint=None,
reuse_tokenized_dataset=True,
rho=0.8,
rpo_alpha=None,
run_name=qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732,
save_on_each_node=False,
save_only_model=False,
save_safetensors=True,
save_steps=200,
save_strategy=SaveStrategy.STEPS,
save_total_limit=2,
seed=42,
sft_weight=0.0,
skip_memory_metrics=True,
sync_global_mask=True,
sync_ref_model=False,
tf32=None,
tokenization_batch_size=128,
tokenization_mode=online,
tokenized_dataset_cache_dir=/scratch/qu.yang1/tokenized_preferences,
torch_compile=False,
torch_compile_backend=None,
torch_compile_mode=None,
torch_empty_cache_steps=None,
torchdynamo=None,
tp_size=0,
tpu_metrics_debug=False,
tpu_num_cores=None,
trainer_type=beta_dpo,
truncation_mode=keep_end,
use_cpu=False,
use_ipex=False,
use_legacy_prediction_loop=False,
use_liger_kernel=False,
use_mps_device=False,
wandb_project=qwen3_hh_4xh200_beta_0.1,
warmup_ratio=0.1,
warmup_steps=0,
weight_decay=0.0,
)
2026-04-24 01:37:58 - INFO - __main__ - Using W&B project from training args: qwen3_hh_4xh200_beta_0.1
2026-04-24 01:37:58 - INFO - __main__ - Beta-DPO parameters: beta=0.1, rho=0.8, alpha=0.6, ema_momentum=0.9
2026-04-24 01:37:58 - INFO - __main__ - Using persistent HF datasets cache at /scratch/qu.yang1/hf/datasets
2026-04-24 01:38:01 - WARNING - __main__ - Dropped 237 non-canonical HH preference examples from split `train` before normalization (126 x HH preprocessing expects exactly one final assistant response in chosen/rejected suffixes., 111 x HH chosen/rejected transcripts must each contain a divergent assistant response.).
Normalizing raw HH preferences (train):   0%|                                                                          | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   0%|                                                                          | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   0%|                                                                          | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   0%|                                                                          | 0/43598 [00:00<?, ? examples/s]Normalizing raw HH preferences (train):   3%|█▌                                                          | 1139/43598 [00:00<00:03, 11332.46 examples/s]Normalizing raw HH preferences (train):   3%|█▌                                                          | 1133/43598 [00:00<00:03, 11258.13 examples/s]Normalizing raw HH preferences (train):   3%|█▌                                                          | 1136/43598 [00:00<00:03, 11302.08 examples/s]Normalizing raw HH preferences (train):   3%|█▋                                                          | 1207/43598 [00:00<00:03, 12013.81 examples/s]Normalizing raw HH preferences (train):   6%|███▎                                                        | 2411/43598 [00:00<00:03, 12139.37 examples/s]Normalizing raw HH preferences (train):   5%|███▎                                                        | 2392/43598 [00:00<00:03, 12031.36 examples/s]Normalizing raw HH preferences (train):   5%|███▎                                                        | 2370/43598 [00:00<00:03, 11905.69 examples/s]Normalizing raw HH preferences (train):   6%|███▍                                                        | 2523/43598 [00:00<00:03, 12676.97 examples/s]Normalizing raw HH preferences (train):   9%|█████                                                       | 3708/43598 [00:00<00:03, 12515.90 examples/s]Normalizing raw HH preferences (train):   8%|█████                                                       | 3694/43598 [00:00<00:03, 12225.18 examples/s]Normalizing raw HH preferences (train):   8%|█████                                                       | 3678/43598 [00:00<00:03, 12026.16 examples/s]Normalizing raw HH preferences (train):   9%|█████▎                                                      | 3817/43598 [00:00<00:03, 12792.58 examples/s]Normalizing raw HH preferences (train):  11%|██████▊                                                     | 4982/43598 [00:00<00:03, 12600.02 examples/s]Normalizing raw HH preferences (train):  11%|██████▊                                                     | 4929/43598 [00:00<00:03, 12267.91 examples/s]Normalizing raw HH preferences (train):  11%|██████▋                                                     | 4897/43598 [00:00<00:03, 12085.92 examples/s]Normalizing raw HH preferences (train):  13%|███████▊                                                    | 5713/43598 [00:00<00:02, 12696.94 examples/s]Normalizing raw HH preferences (train):  15%|█████████▎                                                  | 6729/43598 [00:00<00:03, 12141.49 examples/s]Normalizing raw HH preferences (train):  15%|█████████▏                                                  | 6671/43598 [00:00<00:03, 11941.10 examples/s]Normalizing raw HH preferences (train):  16%|█████████▍                                                   | 6769/43598 [00:00<00:04, 7807.93 examples/s]Normalizing raw HH preferences (train):  17%|██████████▎                                                  | 7346/43598 [00:00<00:03, 9273.45 examples/s]Normalizing raw HH preferences (train):  18%|███████████▏                                                 | 8000/43598 [00:00<00:04, 8692.69 examples/s]Normalizing raw HH preferences (train):  18%|███████████▏                                                 | 8000/43598 [00:00<00:04, 7770.80 examples/s]Normalizing raw HH preferences (train):  18%|███████████▏                                                 | 7990/43598 [00:00<00:04, 7975.97 examples/s]Normalizing raw HH preferences (train):  20%|███████████▉                                                | 8695/43598 [00:00<00:03, 10142.70 examples/s]Normalizing raw HH preferences (train):  21%|████████████▉                                                | 9270/43598 [00:00<00:03, 9630.94 examples/s]Normalizing raw HH preferences (train):  21%|████████████▉                                                | 9235/43598 [00:00<00:03, 8750.74 examples/s]Normalizing raw HH preferences (train):  21%|████████████▋                                                | 9091/43598 [00:00<00:03, 8635.94 examples/s]Normalizing raw HH preferences (train):  23%|█████████████▋                                              | 9986/43598 [00:00<00:03, 10828.11 examples/s]Normalizing raw HH preferences (train):  24%|██████████████▎                                            | 10544/43598 [00:01<00:03, 10411.36 examples/s]Normalizing raw HH preferences (train):  24%|██████████████▍                                             | 10474/43598 [00:01<00:03, 9600.76 examples/s]Normalizing raw HH preferences (train):  24%|██████████████▏                                             | 10303/43598 [00:01<00:03, 9457.78 examples/s]Normalizing raw HH preferences (train):  26%|███████████████▏                                           | 11198/43598 [00:01<00:02, 11164.60 examples/s]Normalizing raw HH preferences (train):  27%|████████████████                                           | 11850/43598 [00:01<00:02, 11106.73 examples/s]Normalizing raw HH preferences (train):  27%|███████████████▉                                           | 11747/43598 [00:01<00:03, 10381.24 examples/s]Normalizing raw HH preferences (train):  26%|███████████████▌                                           | 11545/43598 [00:01<00:03, 10204.38 examples/s]Normalizing raw HH preferences (train):  29%|████████████████▉                                          | 12480/43598 [00:01<00:02, 11613.09 examples/s]Normalizing raw HH preferences (train):  30%|█████████████████▌                                         | 12981/43598 [00:01<00:02, 10896.01 examples/s]Normalizing raw HH preferences (train):  29%|█████████████████▎                                         | 12765/43598 [00:01<00:02, 10733.01 examples/s]Normalizing raw HH preferences (train):  31%|██████████████████▌                                        | 13703/43598 [00:01<00:02, 11784.82 examples/s]Normalizing raw HH preferences (train):  32%|██████████████████▌                                        | 13736/43598 [00:01<00:02, 11633.61 examples/s]Normalizing raw HH preferences (train):  32%|██████████████████▉                                        | 13984/43598 [00:01<00:02, 11132.00 examples/s]Normalizing raw HH preferences (train):  34%|████████████████████▎                                      | 15000/43598 [00:01<00:02, 11876.12 examples/s]Normalizing raw HH preferences (train):  34%|████████████████████▎                                      | 15000/43598 [00:01<00:02, 11714.33 examples/s]Normalizing raw HH preferences (train):  34%|████████████████████                                       | 14807/43598 [00:01<00:02, 11355.48 examples/s]Normalizing raw HH preferences (train):  37%|██████████████████████                                     | 16301/43598 [00:01<00:02, 12199.64 examples/s]Normalizing raw HH preferences (train):  37%|█████████████████████▉                                     | 16240/43598 [00:01<00:02, 11892.89 examples/s]Normalizing raw HH preferences (train):  37%|█████████████████████▋                                     | 16000/43598 [00:01<00:02, 11405.77 examples/s]Normalizing raw HH preferences (train):  36%|█████████████████████▎                                     | 15773/43598 [00:01<00:02, 11423.32 examples/s]Normalizing raw HH preferences (train):  41%|███████████████████████▉                                   | 17696/43598 [00:01<00:02, 12434.04 examples/s]Normalizing raw HH preferences (train):  40%|███████████████████████▋                                   | 17513/43598 [00:01<00:02, 12121.57 examples/s]Normalizing raw HH preferences (train):  40%|███████████████████████▎                                   | 17247/43598 [00:01<00:02, 11686.56 examples/s]Normalizing raw HH preferences (train):  39%|███████████████████████                                    | 17000/43598 [00:01<00:02, 11402.39 examples/s]Normalizing raw HH preferences (train):  43%|█████████████████████████▋                                 | 18961/43598 [00:01<00:01, 12495.43 examples/s]Normalizing raw HH preferences (train):  43%|█████████████████████████▍                                 | 18787/43598 [00:01<00:02, 12292.00 examples/s]Normalizing raw HH preferences (train):  42%|████████████████████████▉                                  | 18470/43598 [00:01<00:02, 11832.09 examples/s]Normalizing raw HH preferences (train):  42%|████████████████████████▋                                  | 18199/43598 [00:01<00:02, 11556.66 examples/s]Normalizing raw HH preferences (train):  45%|██████████████████████████▋                                | 19721/43598 [00:01<00:01, 12021.05 examples/s]Normalizing raw HH preferences (train):  48%|████████████████████████████▏                              | 20852/43598 [00:01<00:01, 12535.12 examples/s]Normalizing raw HH preferences (train):  47%|████████████████████████████                               | 20709/43598 [00:01<00:01, 12410.00 examples/s]Normalizing raw HH preferences (train):  46%|███████████████████████████                                | 20000/43598 [00:01<00:02, 11530.11 examples/s]Normalizing raw HH preferences (train):  50%|█████████████████████████████▊                             | 21986/43598 [00:01<00:01, 12503.07 examples/s]Normalizing raw HH preferences (train):  49%|█████████████████████████████                              | 21477/43598 [00:01<00:01, 11899.34 examples/s]Normalizing raw HH preferences (train):  52%|██████████████████████████████▊                            | 22761/43598 [00:01<00:01, 12599.52 examples/s]Normalizing raw HH preferences (train):  49%|████████████████████████████▋                              | 21221/43598 [00:01<00:01, 11700.87 examples/s]Normalizing raw HH preferences (train):  52%|██████████████████████████████▊                            | 22746/43598 [00:02<00:01, 12107.29 examples/s]Normalizing raw HH preferences (train):  51%|██████████████████████████████▍                            | 22451/43598 [00:02<00:01, 11857.24 examples/s]Normalizing raw HH preferences (train):  55%|████████████████████████████████▎                          | 23878/43598 [00:02<00:01, 12537.76 examples/s]Normalizing raw HH preferences (train):  57%|█████████████████████████████████▍                         | 24698/43598 [00:02<00:01, 12623.14 examples/s]Normalizing raw HH preferences (train):  55%|████████████████████████████████▍                          | 23984/43598 [00:02<00:01, 12179.26 examples/s]Normalizing raw HH preferences (train):  54%|████████████████████████████████                           | 23679/43598 [00:02<00:01, 11961.79 examples/s]Normalizing raw HH preferences (train):  60%|███████████████████████████████████▏                       | 25967/43598 [00:02<00:01, 12635.40 examples/s]Normalizing raw HH preferences (train):  59%|██████████████████████████████████▊                        | 25724/43598 [00:02<00:01, 12429.14 examples/s]Normalizing raw HH preferences (train):  57%|█████████████████████████████████▋                         | 24889/43598 [00:02<00:01, 11997.46 examples/s]Normalizing raw HH preferences (train):  59%|██████████████████████████████████▉                        | 25786/43598 [00:02<00:01, 12115.72 examples/s]Normalizing raw HH preferences (train):  62%|████████████████████████████████████▌                      | 26992/43598 [00:02<00:01, 12485.88 examples/s]Normalizing raw HH preferences (train):  64%|█████████████████████████████████████▋                     | 27831/43598 [00:02<00:01, 12561.72 examples/s]Normalizing raw HH preferences (train):  61%|████████████████████████████████████                       | 26664/43598 [00:02<00:01, 11888.27 examples/s]Normalizing raw HH preferences (train):  63%|█████████████████████████████████████▍                     | 27683/43598 [00:02<00:01, 12061.26 examples/s]Normalizing raw HH preferences (train):  66%|███████████████████████████████████████                    | 28867/43598 [00:02<00:01, 12488.71 examples/s]Normalizing raw HH preferences (train):  64%|█████████████████████████████████████▋                     | 27875/43598 [00:02<00:01, 11945.69 examples/s]Normalizing raw HH preferences (train):  68%|████████████████████████████████████████▏                  | 29741/43598 [00:02<00:01, 12614.23 examples/s]Normalizing raw HH preferences (train):  66%|███████████████████████████████████████▏                   | 28937/43598 [00:02<00:01, 12175.21 examples/s]Normalizing raw HH preferences (train):  71%|█████████████████████████████████████████▋                 | 30768/43598 [00:02<00:01, 12546.26 examples/s]Normalizing raw HH preferences (train):  68%|████████████████████████████████████████▏                  | 29689/43598 [00:02<00:01, 11913.79 examples/s]Normalizing raw HH preferences (train):  73%|██████████████████████████████████████████▉                | 31703/43598 [00:02<00:00, 12620.46 examples/s]Normalizing raw HH preferences (train):  71%|█████████████████████████████████████████▌                 | 30753/43598 [00:02<00:01, 12148.58 examples/s]Normalizing raw HH preferences (train):  71%|█████████████████████████████████████████▊                 | 30915/43598 [00:02<00:01, 11999.90 examples/s]Normalizing raw HH preferences (train):  76%|████████████████████████████████████████████▋              | 32998/43598 [00:02<00:00, 12692.80 examples/s]Normalizing raw HH preferences (train):  75%|████████████████████████████████████████████▎              | 32706/43598 [00:02<00:00, 12576.28 examples/s]Normalizing raw HH preferences (train):  73%|███████████████████████████████████████████▎               | 31997/43598 [00:02<00:00, 12217.73 examples/s]Normalizing raw HH preferences (train):  78%|█████████████████████████████████████████████▉             | 33970/43598 [00:02<00:00, 12585.28 examples/s]Normalizing raw HH preferences (train):  75%|████████████████████████████████████████████▎              | 32703/43598 [00:02<00:00, 11967.29 examples/s]Normalizing raw HH preferences (train):  80%|███████████████████████████████████████████████▏           | 34875/43598 [00:02<00:00, 12629.81 examples/s]Normalizing raw HH preferences (train):  78%|█████████████████████████████████████████████▊             | 33813/43598 [00:02<00:00, 12177.99 examples/s]Normalizing raw HH preferences (train):  78%|█████████████████████████████████████████████▉             | 33912/43598 [00:03<00:00, 11993.99 examples/s]Normalizing raw HH preferences (train):  82%|████████████████████████████████████████████████▍          | 35825/43598 [00:03<00:00, 12507.92 examples/s]Normalizing raw HH preferences (train):  84%|█████████████████████████████████████████████████▋         | 36734/43598 [00:03<00:00, 12549.96 examples/s]Normalizing raw HH preferences (train):  82%|████████████████████████████████████████████████▎          | 35669/43598 [00:03<00:00, 12114.10 examples/s]Normalizing raw HH preferences (train):  82%|████████████████████████████████████████████████▎          | 35661/43598 [00:03<00:00, 11839.04 examples/s]Normalizing raw HH preferences (train):  87%|███████████████████████████████████████████████████▍       | 38000/43598 [00:03<00:00, 12363.04 examples/s]Normalizing raw HH preferences (train):  86%|███████████████████████████████████████████████████        | 37705/43598 [00:03<00:00, 12493.77 examples/s]Normalizing raw HH preferences (train):  85%|█████████████████████████████████████████████████▉         | 36890/43598 [00:03<00:00, 12133.59 examples/s]Normalizing raw HH preferences (train):  85%|█████████████████████████████████████████████████▉         | 36864/43598 [00:03<00:00, 11884.04 examples/s]Normalizing raw HH preferences (train):  90%|█████████████████████████████████████████████████████▏     | 39293/43598 [00:03<00:00, 12499.72 examples/s]Normalizing raw HH preferences (train):  89%|████████████████████████████████████████████████████▊      | 38980/43598 [00:03<00:00, 12549.45 examples/s]Normalizing raw HH preferences (train):  89%|████████████████████████████████████████████████████▎      | 38701/43598 [00:03<00:00, 12109.44 examples/s]Normalizing raw HH preferences (train):  93%|██████████████████████████████████████████████████████▉    | 40586/43598 [00:03<00:00, 12609.59 examples/s]Normalizing raw HH preferences (train):  89%|████████████████████████████████████████████████████▎      | 38681/43598 [00:03<00:00, 11887.32 examples/s]Normalizing raw HH preferences (train):  94%|███████████████████████████████████████████████████████▎   | 40860/43598 [00:03<00:00, 12541.81 examples/s]Normalizing raw HH preferences (train):  92%|██████████████████████████████████████████████████████     | 39948/43598 [00:03<00:00, 12193.87 examples/s]Normalizing raw HH preferences (train):  96%|████████████████████████████████████████████████████████▋  | 41870/43598 [00:03<00:00, 12671.21 examples/s]Normalizing raw HH preferences (train):  92%|█████████████████████████████████████████████████████▉     | 39895/43598 [00:03<00:00, 11948.91 examples/s]Normalizing raw HH preferences (train):  98%|█████████████████████████████████████████████████████████▊ | 42704/43598 [00:03<00:00, 12457.48 examples/s]Normalizing raw HH preferences (train):  96%|████████████████████████████████████████████████████████▌  | 41766/43598 [00:03<00:00, 12165.48 examples/s]Normalizing raw HH preferences (train):  96%|████████████████████████████████████████████████████████▍  | 41683/43598 [00:03<00:00, 11932.86 examples/s]Normalizing raw HH preferences (train):  99%|██████████████████████████████████████████████████████████▏| 42998/43598 [00:03<00:00, 12201.54 examples/s]Normalizing raw HH preferences (train):  98%|██████████████████████████████████████████████████████████ | 42886/43598 [00:03<00:00, 11955.85 examples/s]Normalizing raw HH preferences (train): 100%|████████████████████████████████████████████████████████████| 43598/43598 [00:03<00:00, 8308.41 examples/s]Normalizing raw HH preferences (train): 100%|███████████████████████████████████████████████████████████| 43598/43598 [00:03<00:00, 11133.40 examples/s]
Normalizing raw HH preferences (train): 100%|███████████████████████████████████████████████████████████| 43598/43598 [00:04<00:00, 10886.15 examples/s]
Normalizing raw HH preferences (train): 100%|███████████████████████████████████████████████████████████| 43598/43598 [00:04<00:00, 10640.76 examples/s]
Normalizing raw HH preferences (train): 100%|███████████████████████████████████████████████████████████| 43598/43598 [00:04<00:00, 10492.53 examples/s]
Normalizing raw HH preferences (test):   0%|                                                                            | 0/2339 [00:00<?, ? examples/s]2026-04-24 01:38:05 - WARNING - __main__ - Dropped 15 non-canonical HH preference examples from split `test` before normalization (9 x HH preprocessing expects exactly one final assistant response in chosen/rejected suffixes., 6 x HH chosen/rejected transcripts must each contain a divergent assistant response.).
Normalizing raw HH preferences (test):   0%|                                                                            | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test):  51%|███████████████████████████████▊                              | 1198/2339 [00:00<00:00, 11931.62 examples/s]Normalizing raw HH preferences (test):  51%|███████████████████████████████▌                              | 1192/2339 [00:00<00:00, 11873.30 examples/s]Normalizing raw HH preferences (test):   0%|                                                                            | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test):   0%|                                                                            | 0/2339 [00:00<?, ? examples/s]Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 11142.74 examples/s]
Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 10088.90 examples/s]
2026-04-24 01:38:05 - INFO - __main__ - Training on the following splits: ['train : 43598', 'test : 2339']
Normalizing raw HH preferences (test):  49%|██████████████████████████████▌                               | 1153/2339 [00:00<00:00, 11480.58 examples/s]Normalizing raw HH preferences (test):  48%|█████████████████████████████▊                                | 1127/2339 [00:00<00:00, 11219.03 examples/s][INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file vocab.json
[INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file merges.txt
[INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file tokenizer.json
[INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file added_tokens.json
[INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file special_tokens_map.json
[INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file tokenizer_config.json
[INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file chat_template.jinja
Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 11338.63 examples/s]Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 10788.43 examples/s]
Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 11018.96 examples/s]Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 10488.08 examples/s]
[INFO|tokenization_utils_base.py:2323] 2026-04-24 01:38:06,337 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
2026-04-24 01:38:06 - INFO - __main__ - Processed train sample 41905:

Prompt:
<|im_start|>system
<|im_end|>
<|im_start|>user
What is the best way to clean my refrigerator?<|im_end|>
<|im_start|>assistant
Well, I have a few ideas, but the best way to know what works best is to run some tests and then analyze the data to figure out which technique works best.<|im_end|>
<|im_start|>user
What are your ideas?<|im_end|>


Chosen:
<|im_start|>assistant
Some of my ideas include wiping down the interior with a rag, using bleach and water to wipe down the door, emptying the contents of the fridge to scrub the shelves with a clean cloth, cleaning the interior of the fridge with vinegar and water, and using a vacuum cleaner to clean the interior.<|im_end|>


Rejected:
<|im_start|>assistant
I was thinking that you could try different types of soap, which could be a variation of “soap,” like antibacterial soap.  I was also thinking that you could try using different tools, like a toothbrush, to clean the inside.  Or I was thinking that you could try different ways to get the gunk out, like using a squeegee, or using a paper towel.  I was also thinking you could try other types of cleaning, like vacuuming, but I think that could have the opposite of the desired effect.<|im_end|>

/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you.
  warnings.warn(
[INFO|configuration_utils.py:691] 2026-04-24 01:38:06,691 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/config.json
[INFO|configuration_utils.py:765] 2026-04-24 01:38:06,691 >> Model config Qwen3Config {
  "architectures": [
    "Qwen3ForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 12288,
  "max_position_embeddings": 32768,
  "max_window_layers": 36,
  "model_type": "qwen3",
  "num_attention_heads": 32,
  "num_hidden_layers": 36,
  "num_key_value_heads": 8,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 1000000,
  "sliding_window": null,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.51.0",
  "use_cache": false,
  "use_sliding_window": false,
  "vocab_size": 151936
}

[WARNING|logging.py:328] 2026-04-24 01:38:06,702 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[WARNING|logging.py:328] 2026-04-24 01:38:06,702 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[INFO|modeling_utils.py:1121] 2026-04-24 01:38:06,703 >> loading weights file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/model.safetensors.index.json
[INFO|modeling_utils.py:2167] 2026-04-24 01:38:06,703 >> Instantiating Qwen3ForCausalLM model under default dtype torch.bfloat16.
[WARNING|logging.py:328] 2026-04-24 01:38:06,705 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[WARNING|logging.py:328] 2026-04-24 01:38:06,705 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
[INFO|configuration_utils.py:1142] 2026-04-24 01:38:06,707 >> Generate config GenerationConfig {
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "use_cache": false
}

Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 245.44it/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 242.25it/s]

Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 333.26it/s]
Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 380.24it/s]
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 369.35it/s]
[WARNING|trainer.py:821] 2026-04-24 01:38:06,914 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
[WARNING|trainer.py:821] 2026-04-24 01:38:06,914 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 378.93it/s]
[WARNING|trainer.py:821] 2026-04-24 01:38:06,920 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
Loading checkpoint shards:  14%|████████████▊                                                                             | 1/7 [00:08<00:51,  8.50s/it]Loading checkpoint shards:  29%|█████████████████████████▋                                                                | 2/7 [00:16<00:41,  8.29s/it]Loading checkpoint shards:  43%|██████████████████████████████████████▌                                                   | 3/7 [00:24<00:32,  8.18s/it]Loading checkpoint shards:  57%|███████████████████████████████████████████████████▍                                      | 4/7 [00:32<00:24,  8.21s/it]Loading checkpoint shards:  71%|████████████████████████████████████████████████████████████████▎                         | 5/7 [00:41<00:16,  8.19s/it]Loading checkpoint shards:  86%|█████████████████████████████████████████████████████████████████████████████▏            | 6/7 [00:49<00:08,  8.10s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:54<00:00,  7.33s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:54<00:00,  7.83s/it]
[INFO|modeling_utils.py:4926] 2026-04-24 01:39:01,584 >> All model checkpoint weights were used when initializing Qwen3ForCausalLM.

[INFO|modeling_utils.py:4934] 2026-04-24 01:39:01,584 >> All the weights of Qwen3ForCausalLM were initialized from the model checkpoint at /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452.
If your task is similar to the task the model of the checkpoint was trained on, you can already use Qwen3ForCausalLM for predictions without further training.
[INFO|configuration_utils.py:1095] 2026-04-24 01:39:01,587 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/generation_config.json
[INFO|configuration_utils.py:1142] 2026-04-24 01:39:01,587 >> Generate config GenerationConfig {
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "max_new_tokens": 2048
}

[INFO|configuration_utils.py:691] 2026-04-24 01:39:01,588 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/config.json
[INFO|configuration_utils.py:765] 2026-04-24 01:39:01,589 >> Model config Qwen3Config {
  "architectures": [
    "Qwen3ForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 12288,
  "max_position_embeddings": 32768,
  "max_window_layers": 36,
  "model_type": "qwen3",
  "num_attention_heads": 32,
  "num_hidden_layers": 36,
  "num_key_value_heads": 8,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 1000000,
  "sliding_window": null,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.51.0",
  "use_cache": false,
  "use_sliding_window": false,
  "vocab_size": 151936
}

[INFO|modeling_utils.py:1121] 2026-04-24 01:39:01,590 >> loading weights file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/model.safetensors.index.json
[INFO|modeling_utils.py:2167] 2026-04-24 01:39:01,590 >> Instantiating Qwen3ForCausalLM model under default dtype torch.bfloat16.
[INFO|configuration_utils.py:1142] 2026-04-24 01:39:01,595 >> Generate config GenerationConfig {
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "use_cache": false
}

Loading checkpoint shards:   0%|                                                                                                  | 0/7 [00:00<?, ?it/s]Loading checkpoint shards:  14%|████████████▊                                                                             | 1/7 [00:01<00:08,  1.45s/it]Loading checkpoint shards:  29%|█████████████████████████▋                                                                | 2/7 [00:02<00:07,  1.45s/it]Loading checkpoint shards:  43%|██████████████████████████████████████▌                                                   | 3/7 [00:04<00:05,  1.40s/it]Loading checkpoint shards:  57%|███████████████████████████████████████████████████▍                                      | 4/7 [00:05<00:04,  1.36s/it]Loading checkpoint shards:  71%|████████████████████████████████████████████████████████████████▎                         | 5/7 [00:06<00:02,  1.31s/it]Loading checkpoint shards:  86%|█████████████████████████████████████████████████████████████████████████████▏            | 6/7 [00:07<00:01,  1.27s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:08<00:00,  1.12s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:08<00:00,  1.25s/it]
[INFO|modeling_utils.py:4926] 2026-04-24 01:39:10,397 >> All model checkpoint weights were used when initializing Qwen3ForCausalLM.

[INFO|modeling_utils.py:4934] 2026-04-24 01:39:10,397 >> All the weights of Qwen3ForCausalLM were initialized from the model checkpoint at /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452.
If your task is similar to the task the model of the checkpoint was trained on, you can already use Qwen3ForCausalLM for predictions without further training.
[INFO|configuration_utils.py:1095] 2026-04-24 01:39:10,400 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/generation_config.json
[INFO|configuration_utils.py:1142] 2026-04-24 01:39:10,400 >> Generate config GenerationConfig {
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "max_new_tokens": 2048
}

[WARNING|trainer.py:821] 2026-04-24 01:39:10,401 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead.
[WARNING|trainer.py:816] 2026-04-24 01:39:10,402 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Tokenizing train (num_proc=12):   0%|                                                                                  | 0/43598 [00:00<?, ? examples/s]Tokenizing train (num_proc=12):   0%|▏                                                                     | 128/43598 [00:39<3:45:52,  3.21 examples/s]Tokenizing train (num_proc=12):   1%|▍                                                                     | 256/43598 [00:40<1:33:09,  7.75 examples/s]Tokenizing train (num_proc=12):   1%|▋                                                                       | 384/43598 [00:40<50:48, 14.17 examples/s]Tokenizing train (num_proc=12):   1%|▊                                                                       | 512/43598 [00:40<30:58, 23.19 examples/s]Tokenizing train (num_proc=12):   1%|█                                                                       | 640/43598 [00:40<20:02, 35.73 examples/s]Tokenizing train (num_proc=12):   2%|█▎                                                                      | 768/43598 [00:40<13:26, 53.12 examples/s]Tokenizing train (num_proc=12):   2%|█▍                                                                      | 896/43598 [00:40<09:15, 76.86 examples/s]Tokenizing train (num_proc=12):   2%|█▋                                                                    | 1024/43598 [00:40<06:31, 108.66 examples/s]Tokenizing train (num_proc=12):   3%|█▊                                                                    | 1152/43598 [00:40<04:42, 150.39 examples/s]Tokenizing train (num_proc=12):   3%|██                                                                    | 1280/43598 [00:41<03:28, 203.30 examples/s]Tokenizing train (num_proc=12):   3%|██▎                                                                   | 1408/43598 [00:41<02:36, 269.21 examples/s]Tokenizing train (num_proc=12):   4%|██▍                                                                   | 1536/43598 [00:41<02:01, 345.44 examples/s]Tokenizing train (num_proc=12):   4%|██▋                                                                   | 1664/43598 [00:41<01:37, 428.28 examples/s]Tokenizing train (num_proc=12):   4%|██▉                                                                   | 1792/43598 [00:41<01:21, 511.15 examples/s]Tokenizing train (num_proc=12):   4%|███                                                                   | 1920/43598 [00:41<01:11, 586.49 examples/s]Tokenizing train (num_proc=12):   5%|███▎                                                                  | 2048/43598 [00:41<01:03, 659.49 examples/s]Tokenizing train (num_proc=12):   5%|███▍                                                                  | 2176/43598 [00:42<00:57, 717.47 examples/s]Tokenizing train (num_proc=12):   5%|███▋                                                                  | 2304/43598 [00:42<00:54, 763.05 examples/s]Tokenizing train (num_proc=12):   6%|███▉                                                                  | 2432/43598 [00:42<00:51, 802.77 examples/s]Tokenizing train (num_proc=12):   6%|████                                                                  | 2560/43598 [00:42<00:50, 815.14 examples/s]Tokenizing train (num_proc=12):   6%|████▎                                                                 | 2688/43598 [00:42<00:47, 852.64 examples/s]Tokenizing train (num_proc=12):   6%|████▌                                                                 | 2816/43598 [00:42<00:47, 856.40 examples/s]Tokenizing train (num_proc=12):   7%|████▋                                                                 | 2944/43598 [00:42<00:45, 893.36 examples/s]Tokenizing train (num_proc=12):   7%|████▉                                                                 | 3072/43598 [00:43<00:46, 877.13 examples/s]Tokenizing train (num_proc=12):   7%|█████▏                                                                | 3200/43598 [00:43<00:45, 880.55 examples/s]Tokenizing train (num_proc=12):   8%|█████▎                                                                | 3328/43598 [00:43<00:46, 870.13 examples/s]Tokenizing train (num_proc=12):   8%|█████▌                                                                | 3456/43598 [00:43<00:45, 890.86 examples/s]Tokenizing train (num_proc=12):   8%|█████▊                                                                | 3584/43598 [00:43<00:44, 905.00 examples/s]Tokenizing train (num_proc=12):   8%|█████▊                                                                | 3634/43598 [01:01<00:44, 905.00 examples/s]Tokenizing train (num_proc=12):   9%|██████▏                                                                | 3762/43598 [01:06<32:39, 20.33 examples/s]Tokenizing train (num_proc=12):   9%|██████▎                                                                | 3890/43598 [01:06<23:43, 27.89 examples/s]Tokenizing train (num_proc=12):   9%|██████▌                                                                | 4018/43598 [01:07<17:06, 38.54 examples/s]Tokenizing train (num_proc=12):  10%|██████▊                                                                | 4146/43598 [01:07<12:19, 53.34 examples/s]Tokenizing train (num_proc=12):  10%|██████▉                                                                | 4274/43598 [01:07<08:53, 73.77 examples/s]Tokenizing train (num_proc=12):  10%|███████                                                               | 4402/43598 [01:07<06:26, 101.37 examples/s]Tokenizing train (num_proc=12):  10%|███████▎                                                              | 4530/43598 [01:07<04:42, 138.10 examples/s]Tokenizing train (num_proc=12):  11%|███████▍                                                              | 4658/43598 [01:07<03:29, 185.92 examples/s]Tokenizing train (num_proc=12):  11%|███████▋                                                              | 4786/43598 [01:07<02:38, 244.53 examples/s]Tokenizing train (num_proc=12):  11%|███████▉                                                              | 4914/43598 [01:07<02:04, 311.10 examples/s]Tokenizing train (num_proc=12):  12%|████████                                                              | 5042/43598 [01:08<01:39, 387.71 examples/s]Tokenizing train (num_proc=12):  12%|████████▎                                                             | 5170/43598 [01:08<01:21, 470.42 examples/s]Tokenizing train (num_proc=12):  12%|████████▌                                                             | 5298/43598 [01:08<01:09, 552.79 examples/s]Tokenizing train (num_proc=12):  12%|████████▋                                                             | 5426/43598 [01:08<00:59, 645.90 examples/s]Tokenizing train (num_proc=12):  13%|████████▉                                                             | 5554/43598 [01:08<00:54, 704.08 examples/s]Tokenizing train (num_proc=12):  13%|█████████                                                             | 5682/43598 [01:08<00:50, 751.71 examples/s]Tokenizing train (num_proc=12):  13%|█████████▎                                                            | 5810/43598 [01:08<00:46, 813.69 examples/s]Tokenizing train (num_proc=12):  14%|█████████▌                                                            | 5938/43598 [01:09<00:44, 847.76 examples/s]Tokenizing train (num_proc=12):  14%|█████████▋                                                            | 6066/43598 [01:09<00:42, 876.21 examples/s]Tokenizing train (num_proc=12):  14%|█████████▉                                                            | 6194/43598 [01:09<00:41, 891.97 examples/s]Tokenizing train (num_proc=12):  15%|██████████▏                                                           | 6322/43598 [01:09<00:42, 877.23 examples/s]Tokenizing train (num_proc=12):  15%|██████████▎                                                           | 6450/43598 [01:09<00:41, 892.50 examples/s]Tokenizing train (num_proc=12):  15%|██████████▌                                                           | 6578/43598 [01:09<00:40, 904.20 examples/s]Tokenizing train (num_proc=12):  15%|██████████▊                                                           | 6706/43598 [01:09<00:40, 902.20 examples/s]Tokenizing train (num_proc=12):  16%|██████████▉                                                           | 6834/43598 [01:09<00:40, 909.00 examples/s]Tokenizing train (num_proc=12):  16%|███████████▏                                                          | 6962/43598 [01:10<00:40, 902.84 examples/s]Tokenizing train (num_proc=12):  16%|███████████▍                                                          | 7090/43598 [01:10<00:40, 904.56 examples/s]Tokenizing train (num_proc=12):  17%|███████████▌                                                          | 7218/43598 [01:10<00:39, 912.02 examples/s]Tokenizing train (num_proc=12):  17%|███████████▋                                                          | 7268/43598 [01:21<00:39, 912.02 examples/s]Tokenizing train (num_proc=12):  17%|████████████                                                           | 7396/43598 [01:32<28:40, 21.05 examples/s]Tokenizing train (num_proc=12):  17%|████████████▎                                                          | 7524/43598 [01:32<20:49, 28.88 examples/s]Tokenizing train (num_proc=12):  18%|████████████▍                                                          | 7652/43598 [01:32<15:02, 39.84 examples/s]Tokenizing train (num_proc=12):  18%|████████████▋                                                          | 7780/43598 [01:33<10:50, 55.07 examples/s]Tokenizing train (num_proc=12):  18%|████████████▉                                                          | 7908/43598 [01:33<07:48, 76.16 examples/s]Tokenizing train (num_proc=12):  18%|████████████▉                                                         | 8036/43598 [01:33<05:42, 103.74 examples/s]Tokenizing train (num_proc=12):  19%|█████████████                                                         | 8164/43598 [01:33<04:12, 140.46 examples/s]Tokenizing train (num_proc=12):  19%|█████████████▎                                                        | 8292/43598 [01:33<03:07, 188.50 examples/s]Tokenizing train (num_proc=12):  19%|█████████████▌                                                        | 8420/43598 [01:33<02:22, 246.02 examples/s]Tokenizing train (num_proc=12):  20%|█████████████▋                                                        | 8548/43598 [01:33<01:52, 312.07 examples/s]Tokenizing train (num_proc=12):  20%|█████████████▉                                                        | 8676/43598 [01:34<01:29, 391.64 examples/s]Tokenizing train (num_proc=12):  20%|██████████████▏                                                       | 8804/43598 [01:34<01:14, 468.43 examples/s]Tokenizing train (num_proc=12):  20%|██████████████▎                                                       | 8932/43598 [01:34<01:02, 553.55 examples/s]Tokenizing train (num_proc=12):  21%|██████████████▌                                                       | 9060/43598 [01:34<00:55, 621.69 examples/s]Tokenizing train (num_proc=12):  21%|██████████████▊                                                       | 9188/43598 [01:34<00:50, 677.61 examples/s]Tokenizing train (num_proc=12):  21%|██████████████▉                                                       | 9316/43598 [01:34<00:46, 729.93 examples/s]Tokenizing train (num_proc=12):  22%|███████████████▏                                                      | 9444/43598 [01:34<00:44, 771.44 examples/s]Tokenizing train (num_proc=12):  22%|███████████████▎                                                      | 9572/43598 [01:35<00:42, 802.83 examples/s]Tokenizing train (num_proc=12):  22%|███████████████▌                                                      | 9700/43598 [01:35<00:41, 825.89 examples/s]Tokenizing train (num_proc=12):  23%|███████████████▊                                                      | 9828/43598 [01:35<00:40, 842.55 examples/s]Tokenizing train (num_proc=12):  23%|███████████████▉                                                      | 9956/43598 [01:35<00:39, 859.82 examples/s]Tokenizing train (num_proc=12):  23%|███████████████▉                                                     | 10084/43598 [01:35<00:38, 861.83 examples/s]Tokenizing train (num_proc=12):  23%|████████████████▏                                                    | 10212/43598 [01:35<00:38, 870.27 examples/s]Tokenizing train (num_proc=12):  24%|████████████████▎                                                    | 10340/43598 [01:35<00:37, 891.26 examples/s]Tokenizing train (num_proc=12):  24%|████████████████▌                                                    | 10468/43598 [01:36<00:36, 916.49 examples/s]Tokenizing train (num_proc=12):  24%|████████████████▊                                                    | 10596/43598 [01:36<00:35, 922.62 examples/s]Tokenizing train (num_proc=12):  25%|████████████████▉                                                    | 10724/43598 [01:36<00:34, 941.12 examples/s]Tokenizing train (num_proc=12):  25%|█████████████████▏                                                   | 10852/43598 [01:36<00:35, 928.11 examples/s]Tokenizing train (num_proc=12):  25%|█████████████████▎                                                   | 10901/43598 [01:51<00:35, 928.11 examples/s]Tokenizing train (num_proc=12):  25%|█████████████████▋                                                    | 11029/43598 [01:57<23:53, 22.71 examples/s]Tokenizing train (num_proc=12):  26%|█████████████████▉                                                    | 11157/43598 [01:57<17:20, 31.18 examples/s]Tokenizing train (num_proc=12):  26%|██████████████████                                                    | 11285/43598 [01:57<12:31, 43.01 examples/s]Tokenizing train (num_proc=12):  26%|██████████████████▎                                                   | 11413/43598 [01:57<09:02, 59.34 examples/s]Tokenizing train (num_proc=12):  26%|██████████████████▌                                                   | 11541/43598 [01:57<06:32, 81.68 examples/s]Tokenizing train (num_proc=12):  27%|██████████████████▍                                                  | 11669/43598 [01:57<04:45, 111.73 examples/s]Tokenizing train (num_proc=12):  27%|██████████████████▋                                                  | 11797/43598 [01:57<03:30, 151.37 examples/s]Tokenizing train (num_proc=12):  27%|██████████████████▊                                                  | 11925/43598 [01:58<02:36, 201.92 examples/s]Tokenizing train (num_proc=12):  28%|███████████████████                                                  | 12053/43598 [01:58<02:00, 262.05 examples/s]Tokenizing train (num_proc=12):  28%|███████████████████▎                                                 | 12181/43598 [01:58<01:32, 339.68 examples/s]Tokenizing train (num_proc=12):  28%|███████████████████▍                                                 | 12309/43598 [01:58<01:13, 424.31 examples/s]Tokenizing train (num_proc=12):  29%|███████████████████▋                                                 | 12437/43598 [01:58<01:01, 508.05 examples/s]Tokenizing train (num_proc=12):  29%|███████████████████▉                                                 | 12565/43598 [01:58<00:51, 597.17 examples/s]Tokenizing train (num_proc=12):  29%|████████████████████                                                 | 12693/43598 [01:58<00:47, 650.48 examples/s]Tokenizing train (num_proc=12):  29%|████████████████████▎                                                | 12821/43598 [01:59<00:45, 679.67 examples/s]Tokenizing train (num_proc=12):  30%|████████████████████▍                                                | 12949/43598 [01:59<00:44, 688.01 examples/s]Tokenizing train (num_proc=12):  30%|████████████████████▋                                                | 13077/43598 [01:59<00:43, 708.52 examples/s]Tokenizing train (num_proc=12):  30%|████████████████████▉                                                | 13205/43598 [01:59<00:43, 704.17 examples/s]Tokenizing train (num_proc=12):  31%|█████████████████████                                                | 13333/43598 [01:59<00:42, 708.55 examples/s]Tokenizing train (num_proc=12):  31%|█████████████████████▎                                               | 13461/43598 [01:59<00:42, 710.48 examples/s]Tokenizing train (num_proc=12):  31%|█████████████████████▌                                               | 13589/43598 [02:00<00:41, 714.69 examples/s]Tokenizing train (num_proc=12):  31%|█████████████████████▋                                               | 13717/43598 [02:00<00:41, 718.74 examples/s]Tokenizing train (num_proc=12):  32%|█████████████████████▉                                               | 13845/43598 [02:00<00:41, 722.02 examples/s]Tokenizing train (num_proc=12):  32%|██████████████████████                                               | 13973/43598 [02:00<00:41, 722.46 examples/s]Tokenizing train (num_proc=12):  32%|██████████████████████▎                                              | 14101/43598 [02:00<00:41, 716.84 examples/s]Tokenizing train (num_proc=12):  33%|██████████████████████▌                                              | 14229/43598 [02:00<00:40, 727.18 examples/s]Tokenizing train (num_proc=12):  33%|██████████████████████▋                                              | 14357/43598 [02:01<00:39, 736.36 examples/s]Tokenizing train (num_proc=12):  33%|██████████████████████▉                                              | 14485/43598 [02:01<00:38, 762.06 examples/s]Tokenizing train (num_proc=12):  33%|███████████████████████                                              | 14534/43598 [02:11<00:38, 762.06 examples/s]Tokenizing train (num_proc=12):  34%|███████████████████████▌                                              | 14662/43598 [02:21<21:13, 22.72 examples/s]Tokenizing train (num_proc=12):  34%|███████████████████████▋                                              | 14790/43598 [02:21<15:23, 31.19 examples/s]Tokenizing train (num_proc=12):  34%|███████████████████████▉                                              | 14918/43598 [02:22<11:06, 43.03 examples/s]Tokenizing train (num_proc=12):  35%|████████████████████████▏                                             | 15046/43598 [02:22<08:00, 59.44 examples/s]Tokenizing train (num_proc=12):  35%|████████████████████████▎                                             | 15174/43598 [02:22<05:47, 81.90 examples/s]Tokenizing train (num_proc=12):  35%|████████████████████████▏                                            | 15302/43598 [02:22<04:12, 112.24 examples/s]Tokenizing train (num_proc=12):  35%|████████████████████████▍                                            | 15430/43598 [02:22<03:05, 152.18 examples/s]Tokenizing train (num_proc=12):  36%|████████████████████████▌                                            | 15558/43598 [02:22<02:18, 202.85 examples/s]Tokenizing train (num_proc=12):  36%|████████████████████████▊                                            | 15686/43598 [02:22<01:44, 265.90 examples/s]Tokenizing train (num_proc=12):  36%|█████████████████████████                                            | 15814/43598 [02:23<01:21, 339.31 examples/s]Tokenizing train (num_proc=12):  37%|█████████████████████████▏                                           | 15942/43598 [02:23<01:06, 418.15 examples/s]Tokenizing train (num_proc=12):  37%|█████████████████████████▍                                           | 16070/43598 [02:23<00:54, 501.17 examples/s]Tokenizing train (num_proc=12):  37%|█████████████████████████▋                                           | 16198/43598 [02:23<00:47, 572.22 examples/s]Tokenizing train (num_proc=12):  37%|█████████████████████████▊                                           | 16326/43598 [02:23<00:42, 648.68 examples/s]Tokenizing train (num_proc=12):  38%|██████████████████████████                                           | 16454/43598 [02:23<00:37, 718.24 examples/s]Tokenizing train (num_proc=12):  38%|██████████████████████████▏                                          | 16582/43598 [02:23<00:35, 766.89 examples/s]Tokenizing train (num_proc=12):  38%|██████████████████████████▍                                          | 16710/43598 [02:24<00:34, 790.21 examples/s]Tokenizing train (num_proc=12):  39%|██████████████████████████▋                                          | 16838/43598 [02:24<00:32, 820.90 examples/s]Tokenizing train (num_proc=12):  39%|██████████████████████████▊                                          | 16966/43598 [02:24<00:31, 854.77 examples/s]Tokenizing train (num_proc=12):  39%|███████████████████████████                                          | 17094/43598 [02:24<00:31, 848.27 examples/s]Tokenizing train (num_proc=12):  40%|███████████████████████████▎                                         | 17222/43598 [02:24<00:30, 865.89 examples/s]Tokenizing train (num_proc=12):  40%|███████████████████████████▍                                         | 17350/43598 [02:24<00:29, 875.08 examples/s]Tokenizing train (num_proc=12):  40%|███████████████████████████▋                                         | 17478/43598 [02:24<00:29, 878.16 examples/s]Tokenizing train (num_proc=12):  40%|███████████████████████████▊                                         | 17606/43598 [02:25<00:29, 881.16 examples/s]Tokenizing train (num_proc=12):  41%|████████████████████████████                                         | 17734/43598 [02:25<00:29, 879.79 examples/s]Tokenizing train (num_proc=12):  41%|████████████████████████████▎                                        | 17862/43598 [02:25<00:28, 907.37 examples/s]Tokenizing train (num_proc=12):  41%|████████████████████████████▍                                        | 17990/43598 [02:25<00:28, 913.44 examples/s]Tokenizing train (num_proc=12):  42%|████████████████████████████▋                                        | 18118/43598 [02:25<00:27, 920.19 examples/s]Tokenizing train (num_proc=12):  42%|████████████████████████████▊                                        | 18167/43598 [02:41<00:27, 920.19 examples/s]Tokenizing train (num_proc=12):  42%|█████████████████████████████▎                                        | 18295/43598 [02:45<18:12, 23.16 examples/s]Tokenizing train (num_proc=12):  42%|█████████████████████████████▌                                        | 18423/43598 [02:45<13:13, 31.72 examples/s]Tokenizing train (num_proc=12):  43%|█████████████████████████████▊                                        | 18551/43598 [02:46<09:34, 43.62 examples/s]Tokenizing train (num_proc=12):  43%|█████████████████████████████▉                                        | 18679/43598 [02:46<06:55, 60.04 examples/s]Tokenizing train (num_proc=12):  43%|██████████████████████████████▏                                       | 18807/43598 [02:46<05:01, 82.20 examples/s]Tokenizing train (num_proc=12):  43%|█████████████████████████████▉                                       | 18935/43598 [02:46<03:41, 111.53 examples/s]Tokenizing train (num_proc=12):  44%|██████████████████████████████▏                                      | 19063/43598 [02:46<02:45, 148.24 examples/s]Tokenizing train (num_proc=12):  44%|██████████████████████████████▎                                      | 19191/43598 [02:46<02:02, 199.29 examples/s]Tokenizing train (num_proc=12):  44%|██████████████████████████████▌                                      | 19319/43598 [02:47<01:33, 259.44 examples/s]Tokenizing train (num_proc=12):  45%|██████████████████████████████▊                                      | 19447/43598 [02:47<01:13, 330.00 examples/s]Tokenizing train (num_proc=12):  45%|██████████████████████████████▉                                      | 19575/43598 [02:47<00:58, 407.90 examples/s]Tokenizing train (num_proc=12):  45%|███████████████████████████████▏                                     | 19703/43598 [02:47<00:48, 492.37 examples/s]Tokenizing train (num_proc=12):  45%|███████████████████████████████▍                                     | 19831/43598 [02:47<00:41, 567.54 examples/s]Tokenizing train (num_proc=12):  46%|███████████████████████████████▌                                     | 19959/43598 [02:47<00:37, 636.45 examples/s]Tokenizing train (num_proc=12):  46%|███████████████████████████████▊                                     | 20087/43598 [02:47<00:33, 693.24 examples/s]Tokenizing train (num_proc=12):  46%|███████████████████████████████▉                                     | 20215/43598 [02:48<00:31, 741.67 examples/s]Tokenizing train (num_proc=12):  47%|████████████████████████████████▏                                    | 20343/43598 [02:48<00:29, 788.97 examples/s]Tokenizing train (num_proc=12):  47%|████████████████████████████████▍                                    | 20471/43598 [02:48<00:27, 852.28 examples/s]Tokenizing train (num_proc=12):  47%|████████████████████████████████▌                                    | 20599/43598 [02:48<00:26, 856.07 examples/s]Tokenizing train (num_proc=12):  48%|████████████████████████████████▊                                    | 20727/43598 [02:48<00:26, 857.58 examples/s]Tokenizing train (num_proc=12):  48%|█████████████████████████████████                                    | 20855/43598 [02:48<00:26, 849.19 examples/s]Tokenizing train (num_proc=12):  48%|█████████████████████████████████▏                                   | 20983/43598 [02:48<00:25, 872.43 examples/s]Tokenizing train (num_proc=12):  48%|█████████████████████████████████▍                                   | 21111/43598 [02:48<00:25, 895.52 examples/s]Tokenizing train (num_proc=12):  49%|█████████████████████████████████▌                                   | 21239/43598 [02:49<00:24, 913.22 examples/s]Tokenizing train (num_proc=12):  49%|█████████████████████████████████▊                                   | 21367/43598 [02:49<00:23, 937.72 examples/s]Tokenizing train (num_proc=12):  49%|██████████████████████████████████                                   | 21495/43598 [02:49<00:23, 940.06 examples/s]Tokenizing train (num_proc=12):  50%|██████████████████████████████████▏                                  | 21623/43598 [02:49<00:23, 927.49 examples/s]Tokenizing train (num_proc=12):  50%|██████████████████████████████████▍                                  | 21751/43598 [02:49<00:23, 914.01 examples/s]Tokenizing train (num_proc=12):  50%|██████████████████████████████████▌                                  | 21800/43598 [03:01<00:23, 914.01 examples/s]Tokenizing train (num_proc=12):  50%|███████████████████████████████████▏                                  | 21928/43598 [03:10<15:47, 22.88 examples/s]Tokenizing train (num_proc=12):  51%|███████████████████████████████████▍                                  | 22056/43598 [03:10<11:27, 31.35 examples/s]Tokenizing train (num_proc=12):  51%|███████████████████████████████████▌                                  | 22184/43598 [03:10<08:15, 43.23 examples/s]Tokenizing train (num_proc=12):  51%|███████████████████████████████████▊                                  | 22312/43598 [03:10<05:56, 59.71 examples/s]Tokenizing train (num_proc=12):  51%|████████████████████████████████████                                  | 22440/43598 [03:10<04:17, 82.23 examples/s]Tokenizing train (num_proc=12):  52%|███████████████████████████████████▋                                 | 22568/43598 [03:10<03:07, 112.19 examples/s]Tokenizing train (num_proc=12):  52%|███████████████████████████████████▉                                 | 22696/43598 [03:10<02:17, 151.97 examples/s]Tokenizing train (num_proc=12):  52%|████████████████████████████████████                                 | 22824/43598 [03:11<01:42, 201.99 examples/s]Tokenizing train (num_proc=12):  53%|████████████████████████████████████▎                                | 22952/43598 [03:11<01:18, 262.37 examples/s]Tokenizing train (num_proc=12):  53%|████████████████████████████████████▌                                | 23080/43598 [03:11<01:01, 331.31 examples/s]Tokenizing train (num_proc=12):  53%|████████████████████████████████████▋                                | 23208/43598 [03:11<00:49, 408.70 examples/s]Tokenizing train (num_proc=12):  54%|████████████████████████████████████▉                                | 23336/43598 [03:11<00:41, 489.07 examples/s]Tokenizing train (num_proc=12):  54%|█████████████████████████████████████▏                               | 23464/43598 [03:11<00:35, 563.98 examples/s]Tokenizing train (num_proc=12):  54%|█████████████████████████████████████▎                               | 23592/43598 [03:11<00:31, 630.10 examples/s]Tokenizing train (num_proc=12):  54%|█████████████████████████████████████▌                               | 23720/43598 [03:12<00:29, 683.78 examples/s]Tokenizing train (num_proc=12):  55%|█████████████████████████████████████▋                               | 23848/43598 [03:12<00:26, 734.51 examples/s]Tokenizing train (num_proc=12):  55%|█████████████████████████████████████▉                               | 23976/43598 [03:12<00:25, 775.68 examples/s]Tokenizing train (num_proc=12):  55%|██████████████████████████████████████▏                              | 24104/43598 [03:12<00:23, 812.28 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████████████████████████▎                              | 24232/43598 [03:12<00:23, 833.00 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████████████████████████▌                              | 24360/43598 [03:12<00:22, 850.70 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████████████████████████▊                              | 24488/43598 [03:12<00:21, 873.67 examples/s]Tokenizing train (num_proc=12):  56%|██████████████████████████████████████▉                              | 24616/43598 [03:13<00:21, 889.50 examples/s]Tokenizing train (num_proc=12):  57%|███████████████████████████████████████▏                             | 24744/43598 [03:13<00:20, 904.42 examples/s]Tokenizing train (num_proc=12):  57%|███████████████████████████████████████▎                             | 24872/43598 [03:13<00:20, 905.48 examples/s]Tokenizing train (num_proc=12):  57%|███████████████████████████████████████▌                             | 25000/43598 [03:13<00:20, 919.29 examples/s]Tokenizing train (num_proc=12):  58%|███████████████████████████████████████▊                             | 25128/43598 [03:13<00:21, 840.24 examples/s]Tokenizing train (num_proc=12):  58%|███████████████████████████████████████▉                             | 25256/43598 [03:13<00:23, 788.51 examples/s]Tokenizing train (num_proc=12):  58%|████████████████████████████████████████▏                            | 25384/43598 [03:14<00:24, 746.30 examples/s]Tokenizing train (num_proc=12):  58%|████████████████████████████████████████▎                            | 25433/43598 [03:31<00:24, 746.30 examples/s]Tokenizing train (num_proc=12):  59%|█████████████████████████████████████████                             | 25561/43598 [03:37<15:03, 19.96 examples/s]Tokenizing train (num_proc=12):  59%|█████████████████████████████████████████▏                            | 25689/43598 [03:37<10:53, 27.42 examples/s]Tokenizing train (num_proc=12):  59%|█████████████████████████████████████████▍                            | 25817/43598 [03:37<07:49, 37.87 examples/s]Tokenizing train (num_proc=12):  60%|█████████████████████████████████████████▋                            | 25945/43598 [03:37<05:36, 52.46 examples/s]Tokenizing train (num_proc=12):  60%|█████████████████████████████████████████▊                            | 26073/43598 [03:38<04:01, 72.51 examples/s]Tokenizing train (num_proc=12):  60%|██████████████████████████████████████████                            | 26201/43598 [03:38<02:54, 99.62 examples/s]Tokenizing train (num_proc=12):  60%|█████████████████████████████████████████▋                           | 26329/43598 [03:38<02:07, 135.56 examples/s]Tokenizing train (num_proc=12):  61%|█████████████████████████████████████████▊                           | 26457/43598 [03:38<01:33, 182.56 examples/s]Tokenizing train (num_proc=12):  61%|██████████████████████████████████████████                           | 26585/43598 [03:38<01:10, 240.99 examples/s]Tokenizing train (num_proc=12):  61%|██████████████████████████████████████████▎                          | 26713/43598 [03:38<00:54, 309.53 examples/s]Tokenizing train (num_proc=12):  62%|██████████████████████████████████████████▍                          | 26841/43598 [03:38<00:43, 386.04 examples/s]Tokenizing train (num_proc=12):  62%|██████████████████████████████████████████▋                          | 26969/43598 [03:38<00:35, 468.50 examples/s]Tokenizing train (num_proc=12):  62%|██████████████████████████████████████████▉                          | 27097/43598 [03:39<00:30, 546.33 examples/s]Tokenizing train (num_proc=12):  62%|███████████████████████████████████████████                          | 27225/43598 [03:39<00:26, 625.07 examples/s]Tokenizing train (num_proc=12):  63%|███████████████████████████████████████████▎                         | 27353/43598 [03:39<00:23, 696.04 examples/s]Tokenizing train (num_proc=12):  63%|███████████████████████████████████████████▍                         | 27481/43598 [03:39<00:21, 764.69 examples/s]Tokenizing train (num_proc=12):  63%|███████████████████████████████████████████▋                         | 27609/43598 [03:39<00:19, 803.33 examples/s]Tokenizing train (num_proc=12):  64%|███████████████████████████████████████████▉                         | 27737/43598 [03:39<00:18, 838.76 examples/s]Tokenizing train (num_proc=12):  64%|████████████████████████████████████████████                         | 27865/43598 [03:39<00:18, 846.29 examples/s]Tokenizing train (num_proc=12):  64%|████████████████████████████████████████████▎                        | 27993/43598 [03:40<00:18, 859.57 examples/s]Tokenizing train (num_proc=12):  65%|████████████████████████████████████████████▌                        | 28121/43598 [03:40<00:17, 875.89 examples/s]Tokenizing train (num_proc=12):  65%|████████████████████████████████████████████▋                        | 28249/43598 [03:40<00:17, 886.73 examples/s]Tokenizing train (num_proc=12):  65%|████████████████████████████████████████████▉                        | 28377/43598 [03:40<00:16, 905.64 examples/s]Tokenizing train (num_proc=12):  65%|█████████████████████████████████████████████                        | 28505/43598 [03:40<00:16, 931.92 examples/s]Tokenizing train (num_proc=12):  66%|█████████████████████████████████████████████▎                       | 28633/43598 [03:40<00:15, 964.23 examples/s]Tokenizing train (num_proc=12):  66%|█████████████████████████████████████████████▌                       | 28761/43598 [03:40<00:15, 965.37 examples/s]Tokenizing train (num_proc=12):  66%|█████████████████████████████████████████████▋                       | 28889/43598 [03:41<00:15, 951.36 examples/s]Tokenizing train (num_proc=12):  67%|█████████████████████████████████████████████▉                       | 29017/43598 [03:41<00:15, 928.07 examples/s]Tokenizing train (num_proc=12):  67%|██████████████████████████████████████████████                       | 29066/43598 [03:51<00:15, 928.07 examples/s]Tokenizing train (num_proc=12):  67%|██████████████████████████████████████████████▊                       | 29194/43598 [04:05<12:39, 18.96 examples/s]Tokenizing train (num_proc=12):  67%|███████████████████████████████████████████████                       | 29322/43598 [04:06<09:08, 26.03 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████████████████████████████▍                      | 29578/43598 [04:06<05:05, 45.83 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████████████████████████████▋                      | 29706/43598 [04:06<03:53, 59.45 examples/s]Tokenizing train (num_proc=12):  68%|███████████████████████████████████████████████▉                      | 29834/43598 [04:06<02:55, 78.23 examples/s]Tokenizing train (num_proc=12):  69%|███████████████████████████████████████████████▍                     | 29962/43598 [04:06<02:11, 103.78 examples/s]Tokenizing train (num_proc=12):  69%|███████████████████████████████████████████████▌                     | 30090/43598 [04:06<01:37, 137.86 examples/s]Tokenizing train (num_proc=12):  69%|███████████████████████████████████████████████▊                     | 30218/43598 [04:06<01:13, 181.87 examples/s]Tokenizing train (num_proc=12):  70%|████████████████████████████████████████████████                     | 30346/43598 [04:07<00:55, 239.11 examples/s]Tokenizing train (num_proc=12):  70%|████████████████████████████████████████████████▏                    | 30474/43598 [04:07<00:43, 304.77 examples/s]Tokenizing train (num_proc=12):  70%|████████████████████████████████████████████████▍                    | 30602/43598 [04:07<00:34, 381.90 examples/s]Tokenizing train (num_proc=12):  70%|████████████████████████████████████████████████▋                    | 30730/43598 [04:07<00:27, 469.32 examples/s]Tokenizing train (num_proc=12):  71%|████████████████████████████████████████████████▊                    | 30858/43598 [04:07<00:23, 553.47 examples/s]Tokenizing train (num_proc=12):  71%|█████████████████████████████████████████████████                    | 30986/43598 [04:07<00:20, 629.29 examples/s]Tokenizing train (num_proc=12):  71%|█████████████████████████████████████████████████▏                   | 31114/43598 [04:07<00:18, 689.32 examples/s]Tokenizing train (num_proc=12):  72%|█████████████████████████████████████████████████▍                   | 31242/43598 [04:08<00:16, 739.01 examples/s]Tokenizing train (num_proc=12):  72%|█████████████████████████████████████████████████▋                   | 31370/43598 [04:08<00:15, 787.68 examples/s]Tokenizing train (num_proc=12):  72%|█████████████████████████████████████████████████▊                   | 31498/43598 [04:08<00:14, 827.76 examples/s]Tokenizing train (num_proc=12):  73%|██████████████████████████████████████████████████                   | 31626/43598 [04:08<00:14, 841.45 examples/s]Tokenizing train (num_proc=12):  73%|██████████████████████████████████████████████████▎                  | 31754/43598 [04:08<00:13, 880.27 examples/s]Tokenizing train (num_proc=12):  73%|██████████████████████████████████████████████████▍                  | 31882/43598 [04:08<00:13, 876.33 examples/s]Tokenizing train (num_proc=12):  73%|██████████████████████████████████████████████████▋                  | 32010/43598 [04:08<00:13, 887.47 examples/s]Tokenizing train (num_proc=12):  74%|██████████████████████████████████████████████████▊                  | 32138/43598 [04:09<00:12, 902.19 examples/s]Tokenizing train (num_proc=12):  74%|███████████████████████████████████████████████████                  | 32266/43598 [04:09<00:12, 883.53 examples/s]Tokenizing train (num_proc=12):  74%|███████████████████████████████████████████████████▎                 | 32394/43598 [04:09<00:12, 922.43 examples/s]Tokenizing train (num_proc=12):  75%|███████████████████████████████████████████████████▍                 | 32522/43598 [04:09<00:12, 905.74 examples/s]Tokenizing train (num_proc=12):  75%|███████████████████████████████████████████████████▋                 | 32650/43598 [04:09<00:12, 879.29 examples/s]Tokenizing train (num_proc=12):  75%|███████████████████████████████████████████████████▊                 | 32699/43598 [04:21<00:12, 879.29 examples/s]Tokenizing train (num_proc=12):  75%|████████████████████████████████████████████████████▋                 | 32827/43598 [04:33<09:07, 19.67 examples/s]Tokenizing train (num_proc=12):  76%|████████████████████████████████████████████████████▉                 | 32955/43598 [04:33<06:34, 27.01 examples/s]Tokenizing train (num_proc=12):  76%|█████████████████████████████████████████████████████                 | 33083/43598 [04:33<04:41, 37.31 examples/s]Tokenizing train (num_proc=12):  76%|█████████████████████████████████████████████████████▎                | 33211/43598 [04:33<03:21, 51.65 examples/s]Tokenizing train (num_proc=12):  76%|█████████████████████████████████████████████████████▌                | 33339/43598 [04:33<02:23, 71.44 examples/s]Tokenizing train (num_proc=12):  77%|█████████████████████████████████████████████████████▋                | 33467/43598 [04:34<01:43, 98.25 examples/s]Tokenizing train (num_proc=12):  77%|█████████████████████████████████████████████████████▏               | 33595/43598 [04:34<01:14, 134.07 examples/s]Tokenizing train (num_proc=12):  77%|█████████████████████████████████████████████████████▎               | 33723/43598 [04:34<00:54, 180.18 examples/s]Tokenizing train (num_proc=12):  78%|█████████████████████████████████████████████████████▌               | 33851/43598 [04:34<00:41, 236.86 examples/s]Tokenizing train (num_proc=12):  78%|█████████████████████████████████████████████████████▊               | 33979/43598 [04:34<00:31, 305.14 examples/s]Tokenizing train (num_proc=12):  78%|█████████████████████████████████████████████████████▉               | 34107/43598 [04:34<00:24, 382.62 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████████████████████████████████▏              | 34235/43598 [04:34<00:20, 466.97 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████████████████████████████████▍              | 34363/43598 [04:35<00:16, 545.14 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████████████████████████████████▌              | 34491/43598 [04:35<00:14, 624.74 examples/s]Tokenizing train (num_proc=12):  79%|██████████████████████████████████████████████████████▊              | 34619/43598 [04:35<00:13, 681.70 examples/s]Tokenizing train (num_proc=12):  80%|██████████████████████████████████████████████████████▉              | 34747/43598 [04:35<00:11, 749.97 examples/s]Tokenizing train (num_proc=12):  80%|███████████████████████████████████████████████████████▏             | 34875/43598 [04:35<00:11, 782.19 examples/s]Tokenizing train (num_proc=12):  80%|███████████████████████████████████████████████████████▍             | 35003/43598 [04:35<00:10, 826.80 examples/s]Tokenizing train (num_proc=12):  81%|███████████████████████████████████████████████████████▌             | 35131/43598 [04:35<00:09, 854.77 examples/s]Tokenizing train (num_proc=12):  81%|███████████████████████████████████████████████████████▊             | 35259/43598 [04:36<00:09, 850.03 examples/s]Tokenizing train (num_proc=12):  81%|████████████████████████████████████████████████████████             | 35387/43598 [04:36<00:09, 871.65 examples/s]Tokenizing train (num_proc=12):  81%|████████████████████████████████████████████████████████▏            | 35515/43598 [04:36<00:09, 885.43 examples/s]Tokenizing train (num_proc=12):  82%|████████████████████████████████████████████████████████▍            | 35643/43598 [04:36<00:08, 885.79 examples/s]Tokenizing train (num_proc=12):  82%|████████████████████████████████████████████████████████▌            | 35771/43598 [04:36<00:08, 907.81 examples/s]Tokenizing train (num_proc=12):  82%|████████████████████████████████████████████████████████▊            | 35899/43598 [04:36<00:08, 897.40 examples/s]Tokenizing train (num_proc=12):  83%|█████████████████████████████████████████████████████████            | 36027/43598 [04:36<00:08, 899.31 examples/s]Tokenizing train (num_proc=12):  83%|█████████████████████████████████████████████████████████▏           | 36155/43598 [04:36<00:08, 929.70 examples/s]Tokenizing train (num_proc=12):  83%|█████████████████████████████████████████████████████████▍           | 36283/43598 [04:37<00:07, 941.37 examples/s]Tokenizing train (num_proc=12):  83%|█████████████████████████████████████████████████████████▌           | 36332/43598 [04:51<00:07, 941.37 examples/s]Tokenizing train (num_proc=12):  84%|██████████████████████████████████████████████████████████▌           | 36460/43598 [04:59<05:39, 21.02 examples/s]Tokenizing train (num_proc=12):  84%|██████████████████████████████████████████████████████████▋           | 36588/43598 [04:59<04:02, 28.85 examples/s]Tokenizing train (num_proc=12):  84%|██████████████████████████████████████████████████████████▉           | 36716/43598 [04:59<02:52, 39.83 examples/s]Tokenizing train (num_proc=12):  85%|███████████████████████████████████████████████████████████▏          | 36844/43598 [04:59<02:02, 55.12 examples/s]Tokenizing train (num_proc=12):  85%|███████████████████████████████████████████████████████████▎          | 36972/43598 [04:59<01:27, 76.15 examples/s]Tokenizing train (num_proc=12):  85%|██████████████████████████████████████████████████████████▋          | 37100/43598 [05:00<01:02, 104.34 examples/s]Tokenizing train (num_proc=12):  85%|██████████████████████████████████████████████████████████▉          | 37228/43598 [05:00<00:44, 142.12 examples/s]Tokenizing train (num_proc=12):  86%|███████████████████████████████████████████████████████████          | 37356/43598 [05:00<00:32, 190.09 examples/s]Tokenizing train (num_proc=12):  86%|███████████████████████████████████████████████████████████▎         | 37484/43598 [05:00<00:24, 251.22 examples/s]Tokenizing train (num_proc=12):  86%|███████████████████████████████████████████████████████████▌         | 37612/43598 [05:00<00:18, 321.91 examples/s]Tokenizing train (num_proc=12):  87%|███████████████████████████████████████████████████████████▋         | 37740/43598 [05:00<00:14, 402.95 examples/s]Tokenizing train (num_proc=12):  87%|███████████████████████████████████████████████████████████▉         | 37868/43598 [05:00<00:11, 483.78 examples/s]Tokenizing train (num_proc=12):  87%|████████████████████████████████████████████████████████████▏        | 37996/43598 [05:01<00:10, 556.83 examples/s]Tokenizing train (num_proc=12):  87%|████████████████████████████████████████████████████████████▎        | 38124/43598 [05:01<00:08, 642.98 examples/s]Tokenizing train (num_proc=12):  88%|████████████████████████████████████████████████████████████▌        | 38252/43598 [05:01<00:07, 695.53 examples/s]Tokenizing train (num_proc=12):  88%|████████████████████████████████████████████████████████████▋        | 38380/43598 [05:01<00:06, 748.02 examples/s]Tokenizing train (num_proc=12):  88%|████████████████████████████████████████████████████████████▉        | 38508/43598 [05:01<00:06, 787.59 examples/s]Tokenizing train (num_proc=12):  89%|█████████████████████████████████████████████████████████████▏       | 38636/43598 [05:01<00:05, 847.75 examples/s]Tokenizing train (num_proc=12):  89%|█████████████████████████████████████████████████████████████▎       | 38764/43598 [05:01<00:05, 862.47 examples/s]Tokenizing train (num_proc=12):  89%|█████████████████████████████████████████████████████████████▌       | 38892/43598 [05:01<00:05, 887.14 examples/s]Tokenizing train (num_proc=12):  89%|█████████████████████████████████████████████████████████████▊       | 39020/43598 [05:02<00:05, 880.39 examples/s]Tokenizing train (num_proc=12):  90%|█████████████████████████████████████████████████████████████▉       | 39148/43598 [05:02<00:04, 895.64 examples/s]Tokenizing train (num_proc=12):  90%|██████████████████████████████████████████████████████████████▏      | 39276/43598 [05:02<00:04, 908.82 examples/s]Tokenizing train (num_proc=12):  90%|██████████████████████████████████████████████████████████████▎      | 39404/43598 [05:02<00:04, 920.13 examples/s]Tokenizing train (num_proc=12):  91%|██████████████████████████████████████████████████████████████▌      | 39532/43598 [05:02<00:04, 923.06 examples/s]Tokenizing train (num_proc=12):  91%|██████████████████████████████████████████████████████████████▊      | 39660/43598 [05:02<00:04, 893.13 examples/s]Tokenizing train (num_proc=12):  91%|██████████████████████████████████████████████████████████████▉      | 39788/43598 [05:02<00:04, 931.55 examples/s]Tokenizing train (num_proc=12):  92%|███████████████████████████████████████████████████████████████▏     | 39916/43598 [05:03<00:04, 913.67 examples/s]Tokenizing train (num_proc=12):  92%|███████████████████████████████████████████████████████████████▎     | 39965/43598 [05:21<00:03, 913.67 examples/s]Tokenizing train (num_proc=12):  92%|████████████████████████████████████████████████████████████████▎     | 40093/43598 [05:23<02:34, 22.64 examples/s]Tokenizing train (num_proc=12):  92%|████████████████████████████████████████████████████████████████▌     | 40221/43598 [05:23<01:48, 31.08 examples/s]Tokenizing train (num_proc=12):  93%|████████████████████████████████████████████████████████████████▊     | 40349/43598 [05:24<01:15, 42.92 examples/s]Tokenizing train (num_proc=12):  93%|████████████████████████████████████████████████████████████████▉     | 40477/43598 [05:24<00:52, 59.34 examples/s]Tokenizing train (num_proc=12):  93%|█████████████████████████████████████████████████████████████████▏    | 40605/43598 [05:24<00:36, 81.93 examples/s]Tokenizing train (num_proc=12):  93%|████████████████████████████████████████████████████████████████▍    | 40733/43598 [05:24<00:25, 112.57 examples/s]Tokenizing train (num_proc=12):  94%|████████████████████████████████████████████████████████████████▋    | 40861/43598 [05:24<00:17, 153.58 examples/s]Tokenizing train (num_proc=12):  94%|████████████████████████████████████████████████████████████████▊    | 40989/43598 [05:24<00:12, 205.39 examples/s]Tokenizing train (num_proc=12):  94%|█████████████████████████████████████████████████████████████████    | 41117/43598 [05:24<00:09, 268.94 examples/s]Tokenizing train (num_proc=12):  95%|█████████████████████████████████████████████████████████████████▎   | 41245/43598 [05:24<00:06, 341.24 examples/s]Tokenizing train (num_proc=12):  95%|█████████████████████████████████████████████████████████████████▍   | 41373/43598 [05:25<00:05, 426.84 examples/s]Tokenizing train (num_proc=12):  95%|█████████████████████████████████████████████████████████████████▋   | 41501/43598 [05:25<00:04, 517.70 examples/s]Tokenizing train (num_proc=12):  95%|█████████████████████████████████████████████████████████████████▉   | 41629/43598 [05:25<00:03, 606.96 examples/s]Tokenizing train (num_proc=12):  96%|██████████████████████████████████████████████████████████████████   | 41757/43598 [05:25<00:02, 689.01 examples/s]Tokenizing train (num_proc=12):  96%|██████████████████████████████████████████████████████████████████▎  | 41885/43598 [05:25<00:02, 769.83 examples/s]Tokenizing train (num_proc=12):  96%|██████████████████████████████████████████████████████████████████▍  | 42013/43598 [05:25<00:01, 836.49 examples/s]Tokenizing train (num_proc=12):  97%|██████████████████████████████████████████████████████████████████▋  | 42141/43598 [05:25<00:01, 885.15 examples/s]Tokenizing train (num_proc=12):  97%|██████████████████████████████████████████████████████████████████▉  | 42269/43598 [05:25<00:01, 929.75 examples/s]Tokenizing train (num_proc=12):  97%|███████████████████████████████████████████████████████████████████  | 42397/43598 [05:25<00:01, 984.54 examples/s]Tokenizing train (num_proc=12):  98%|███████████████████████████████████████████████████████████████████▎ | 42525/43598 [05:26<00:01, 983.75 examples/s]Tokenizing train (num_proc=12):  98%|███████████████████████████████████████████████████████████████████▌ | 42653/43598 [05:26<00:00, 996.70 examples/s]Tokenizing train (num_proc=12):  98%|██████████████████████████████████████████████████████████████████▋ | 42781/43598 [05:26<00:00, 1015.59 examples/s]Tokenizing train (num_proc=12):  98%|██████████████████████████████████████████████████████████████████▉ | 42909/43598 [05:26<00:00, 1032.81 examples/s]Tokenizing train (num_proc=12):  99%|███████████████████████████████████████████████████████████████████▏| 43037/43598 [05:26<00:00, 1035.73 examples/s]Tokenizing train (num_proc=12):  99%|███████████████████████████████████████████████████████████████████▎| 43165/43598 [05:26<00:00, 1081.71 examples/s]Tokenizing train (num_proc=12):  99%|███████████████████████████████████████████████████████████████████▌| 43293/43598 [05:26<00:00, 1066.42 examples/s]Tokenizing train (num_proc=12): 100%|███████████████████████████████████████████████████████████████████▋| 43421/43598 [05:26<00:00, 1016.84 examples/s]Tokenizing train (num_proc=12): 100%|████████████████████████████████████████████████████████████████████▉| 43549/43598 [05:27<00:00, 973.55 examples/s]Tokenizing train (num_proc=12): 100%|█████████████████████████████████████████████████████████████████████| 43598/43598 [05:27<00:00, 133.18 examples/s]
[WARNING|trainer.py:816] 2026-04-24 01:45:34,535 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Saving the dataset (0/2 shards):   0%|                                                                                 | 0/43598 [00:00<?, ? examples/s]Saving the dataset (0/2 shards):  16%|██████████▊                                                        | 7000/43598 [00:00<00:00, 52501.55 examples/s]Saving the dataset (0/2 shards):  32%|█████████████████████▏                                            | 14000/43598 [00:00<00:00, 54001.78 examples/s]Saving the dataset (1/2 shards):  50%|█████████████████████████████████                                 | 21799/43598 [00:00<00:00, 54001.78 examples/s]Saving the dataset (1/2 shards):  59%|███████████████████████████████████████                           | 25799/43598 [00:00<00:00, 37939.01 examples/s]Saving the dataset (1/2 shards):  82%|██████████████████████████████████████████████████████▏           | 35799/43598 [00:00<00:00, 49047.51 examples/s]Saving the dataset (2/2 shards): 100%|██████████████████████████████████████████████████████████████████| 43598/43598 [00:01<00:00, 49047.51 examples/s]Saving the dataset (2/2 shards): 100%|██████████████████████████████████████████████████████████████████| 43598/43598 [00:01<00:00, 40713.77 examples/s]
[WARNING|trainer.py:816] 2026-04-24 01:45:36,844 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Tokenizing test (num_proc=12):   0%|                                                                                    | 0/2339 [00:00<?, ? examples/s]Tokenizing test (num_proc=12):   5%|████                                                                      | 128/2339 [00:35<10:11,  3.62 examples/s]Tokenizing test (num_proc=12):  14%|██████████▏                                                               | 323/2339 [00:59<05:46,  5.82 examples/s]Tokenizing test (num_proc=12):  22%|████████████████▍                                                         | 518/2339 [01:25<04:37,  6.57 examples/s]Tokenizing test (num_proc=12):  30%|██████████████████████▌                                                   | 713/2339 [01:51<03:53,  6.95 examples/s]Tokenizing test (num_proc=12):  39%|████████████████████████████▋                                             | 908/2339 [02:17<03:21,  7.11 examples/s]Tokenizing test (num_proc=12):  47%|██████████████████████████████████▍                                      | 1103/2339 [02:44<02:52,  7.18 examples/s]Tokenizing test (num_proc=12):  55%|████████████████████████████████████████▌                                | 1298/2339 [03:10<02:23,  7.26 examples/s]Tokenizing test (num_proc=12):  64%|██████████████████████████████████████████████▌                          | 1493/2339 [03:35<01:54,  7.36 examples/s]Tokenizing test (num_proc=12):  72%|████████████████████████████████████████████████████▋                    | 1688/2339 [04:02<01:28,  7.35 examples/s]Tokenizing test (num_proc=12):  81%|██████████████████████████████████████████████████████████▊              | 1883/2339 [04:28<01:01,  7.39 examples/s]Tokenizing test (num_proc=12):  89%|████████████████████████████████████████████████████████████████▊        | 2078/2339 [04:55<00:35,  7.34 examples/s]Tokenizing test (num_proc=12):  97%|██████████████████████████████████████████████████████████████████████▉  | 2273/2339 [05:22<00:09,  7.33 examples/s]Tokenizing test (num_proc=12): 100%|█████████████████████████████████████████████████████████████████████████| 2339/2339 [05:22<00:00,  7.25 examples/s]
[WARNING|trainer.py:816] 2026-04-24 01:51:36,037 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Saving the dataset (0/1 shards):   0%|                                                                                  | 0/2339 [00:00<?, ? examples/s]Saving the dataset (1/1 shards): 100%|████████████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 33203.29 examples/s]Saving the dataset (1/1 shards): 100%|████████████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 33126.83 examples/s]
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
[WARNING|trainer.py:816] 2026-04-24 01:51:37,549 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-24 01:51:37,549 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-24 01:51:37,549 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-24 01:51:37,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-24 01:51:37,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-24 01:51:37,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-24 01:51:37,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-24 01:51:37,655 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-24 01:51:37,655 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-24 01:51:37,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
[WARNING|trainer.py:816] 2026-04-24 01:51:37,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
[WARNING|trainer.py:816] 2026-04-24 01:51:37,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
/home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead.
  super().__init__(
[INFO|trainer.py:748] 2026-04-24 01:51:37,841 >> Using auto half precision backend
/home/qu.yang1/.conda/envs/dpo_v4/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in Qwen3ForCausalLM because mixed precision turned on in FSDP. Affects: model.embed_tokens.weight, model.norm.weight, lm_head.weight.
  warnings.warn(
/home/qu.yang1/.conda/envs/dpo_v4/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in Qwen3DecoderLayer because mixed precision turned on in FSDP. Affects: self_attn.q_proj.weight, self_attn.k_proj.weight, self_attn.v_proj.weight, self_attn.o_proj.weight, self_attn.q_norm.weight, self_attn.k_norm.weight, mlp.gate_proj.weight, mlp.up_proj.weight, mlp.down_proj.weight, input_layernorm.weight, post_attention_layernorm.weight.
  warnings.warn(
/home/qu.yang1/.conda/envs/dpo_v4/lib/python3.11/site-packages/accelerate/accelerator.py:1563: UserWarning: FSDP upcast of low precision parameters may affect the precision of model checkpoints.
  warnings.warn(
[INFO|trainer.py:2414] 2026-04-24 01:51:41,683 >> ***** Running training *****
[INFO|trainer.py:2415] 2026-04-24 01:51:41,683 >>   Num examples = 43,598
[INFO|trainer.py:2416] 2026-04-24 01:51:41,683 >>   Num Epochs = 1
[INFO|trainer.py:2417] 2026-04-24 01:51:41,683 >>   Instantaneous batch size per device = 8
[INFO|trainer.py:2420] 2026-04-24 01:51:41,683 >>   Total train batch size (w. parallel, distributed & accumulation) = 64
[INFO|trainer.py:2421] 2026-04-24 01:51:41,683 >>   Gradient Accumulation steps = 2
[INFO|trainer.py:2422] 2026-04-24 01:51:41,683 >>   Total optimization steps = 681
[INFO|trainer.py:2423] 2026-04-24 01:51:41,684 >>   Number of trainable parameters = 2,047,683,840
[INFO|integration_utils.py:831] 2026-04-24 01:51:41,685 >> Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
wandb: Currently logged in as: feng-cheng (feng-cheng-northeastern-university). Use `wandb login --relogin` to force relogin
wandb: wandb version 0.26.1 is available!  To upgrade, please run:
wandb:  $ pip install wandb --upgrade
wandb: Tracking run with wandb version 0.17.5
wandb: Run data is saved locally in /scratch/qu.yang1/wandb/wandb/run-20260424_015143-h8yq1jx1
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732
wandb: ⭐️ View project at https://wandb.ai/feng-cheng-northeastern-university/qwen3_hh_4xh200_beta_0.1
wandb: 🚀 View run at https://wandb.ai/feng-cheng-northeastern-university/qwen3_hh_4xh200_beta_0.1/runs/h8yq1jx1
  0%|                                                                                                                           | 0/681 [00:00<?, ?it/s][WARNING|modeling_utils.py:1713] 2026-04-24 01:51:49,742 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
[WARNING|modeling_utils.py:1713] 2026-04-24 01:51:49,746 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
[WARNING|modeling_utils.py:1713] 2026-04-24 01:51:49,759 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
[WARNING|modeling_utils.py:1713] 2026-04-24 01:51:49,773 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
  0%|▏                                                                                                                  | 1/681 [00:03<35:51,  3.16s/it]                                                                                                                                                        {'loss': 1.3877, 'grad_norm': 36.03247833251953, 'learning_rate': 0.0, 'beta_dpo/gap_mean': 0.00946818944066763, 'beta_dpo/gap_std': 0.06761293858289719, 'beta_dpo/beta_used_raw': 0.09912768006324768, 'beta_dpo/beta_used': 0.09912768006324768, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.1428939700126648, 'logits/rejected': 0.2641817033290863, 'epoch': 0.0}
  0%|▏                                                                                                                  | 1/681 [00:03<35:51,  3.16s/it]  0%|▎                                                                                                                  | 2/681 [00:06<34:42,  3.07s/it]                                                                                                                                                        {'loss': 1.3958, 'grad_norm': 28.348440170288086, 'learning_rate': 7.246376811594203e-09, 'beta_dpo/gap_mean': -0.008595498278737068, 'beta_dpo/gap_std': 0.1328437626361847, 'beta_dpo/beta_used_raw': 0.0943765640258789, 'beta_dpo/beta_used': 0.0943765640258789, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.512961745262146, 'logits/rejected': 0.6081655621528625, 'epoch': 0.0}
  0%|▎                                                                                                                  | 2/681 [00:06<34:42,  3.07s/it]  0%|▌                                                                                                                  | 3/681 [00:09<34:16,  3.03s/it]                                                                                                                                                        {'loss': 1.3898, 'grad_norm': 25.432849884033203, 'learning_rate': 1.4492753623188406e-08, 'beta_dpo/gap_mean': -0.020052069798111916, 'beta_dpo/gap_std': 0.20296388864517212, 'beta_dpo/beta_used_raw': 0.09973011910915375, 'beta_dpo/beta_used': 0.09973011910915375, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.19606800377368927, 'logits/rejected': 0.3750133812427521, 'epoch': 0.0}
  0%|▌                                                                                                                  | 3/681 [00:09<34:16,  3.03s/it]  1%|▋                                                                                                                  | 4/681 [00:12<34:14,  3.03s/it]                                                                                                                                                        {'loss': 1.3829, 'grad_norm': 29.762346267700195, 'learning_rate': 2.1739130434782606e-08, 'beta_dpo/gap_mean': -0.015820063650608063, 'beta_dpo/gap_std': 0.24965426325798035, 'beta_dpo/beta_used_raw': 0.10318515449762344, 'beta_dpo/beta_used': 0.10318515449762344, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.8724163770675659, 'logits/rejected': 0.9871234893798828, 'epoch': 0.01}
  1%|▋                                                                                                                  | 4/681 [00:12<34:14,  3.03s/it]  1%|▊                                                                                                                  | 5/681 [00:15<33:51,  3.01s/it]                                                                                                                                                        {'loss': 1.3789, 'grad_norm': 37.113651275634766, 'learning_rate': 2.898550724637681e-08, 'beta_dpo/gap_mean': -0.011851204559206963, 'beta_dpo/gap_std': 0.29855671525001526, 'beta_dpo/beta_used_raw': 0.10503459721803665, 'beta_dpo/beta_used': 0.10503459721803665, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.7447645664215088, 'logits/rejected': 1.042862892150879, 'epoch': 0.01}
  1%|▊                                                                                                                  | 5/681 [00:15<33:51,  3.01s/it]  1%|█                                                                                                                  | 6/681 [00:17<32:08,  2.86s/it]                                                                                                                                                        {'loss': 1.3817, 'grad_norm': 39.14086151123047, 'learning_rate': 3.6231884057971014e-08, 'beta_dpo/gap_mean': 0.0011657942086458206, 'beta_dpo/gap_std': 0.3148193359375, 'beta_dpo/beta_used_raw': 0.10265050828456879, 'beta_dpo/beta_used': 0.10265050828456879, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.802085816860199, 'logits/rejected': 1.1166476011276245, 'epoch': 0.01}
  1%|█                                                                                                                  | 6/681 [00:17<32:08,  2.86s/it]  1%|█▏                                                                                                                 | 7/681 [00:20<31:57,  2.85s/it]                                                                                                                                                        {'loss': 1.3791, 'grad_norm': 38.720542907714844, 'learning_rate': 4.347826086956521e-08, 'beta_dpo/gap_mean': 0.012128479778766632, 'beta_dpo/gap_std': 0.33621037006378174, 'beta_dpo/beta_used_raw': 0.10336506366729736, 'beta_dpo/beta_used': 0.10336506366729736, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.27170026302337646, 'logits/rejected': 0.16746661067008972, 'epoch': 0.01}
  1%|█▏                                                                                                                 | 7/681 [00:20<31:57,  2.85s/it]  1%|█▎                                                                                                                 | 8/681 [00:23<31:59,  2.85s/it]                                                                                                                                                        {'loss': 1.3939, 'grad_norm': 34.6677360534668, 'learning_rate': 5.0724637681159424e-08, 'beta_dpo/gap_mean': 0.004293666686862707, 'beta_dpo/gap_std': 0.348634272813797, 'beta_dpo/beta_used_raw': 0.09534113109111786, 'beta_dpo/beta_used': 0.09534113109111786, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.33636578917503357, 'logits/rejected': 0.6127815842628479, 'epoch': 0.01}
  1%|█▎                                                                                                                 | 8/681 [00:23<31:59,  2.85s/it]  1%|█▌                                                                                                                 | 9/681 [00:26<32:20,  2.89s/it]                                                                                                                                                        {'loss': 1.3814, 'grad_norm': 39.09025573730469, 'learning_rate': 5.797101449275362e-08, 'beta_dpo/gap_mean': 0.006271847989410162, 'beta_dpo/gap_std': 0.365943044424057, 'beta_dpo/beta_used_raw': 0.10228224098682404, 'beta_dpo/beta_used': 0.10228224098682404, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': 0.983077883720398, 'logits/rejected': 1.1696516275405884, 'epoch': 0.01}
  1%|█▌                                                                                                                 | 9/681 [00:26<32:20,  2.89s/it]  1%|█▋                                                                                                                | 10/681 [00:29<32:19,  2.89s/it]                                                                                                                                                        {'loss': 1.3938, 'grad_norm': 27.551111221313477, 'learning_rate': 6.521739130434782e-08, 'beta_dpo/gap_mean': -0.009593424387276173, 'beta_dpo/gap_std': 0.37053757905960083, 'beta_dpo/beta_used_raw': 0.09608335793018341, 'beta_dpo/beta_used': 0.09608335793018341, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.4329628348350525, 'logits/rejected': 0.5324227809906006, 'epoch': 0.01}
  1%|█▋                                                                                                                | 10/681 [00:29<32:19,  2.89s/it]  2%|█▊                                                                                                                | 11/681 [00:32<32:27,  2.91s/it]                                                                                                                                                        {'loss': 1.3881, 'grad_norm': 36.65106201171875, 'learning_rate': 7.246376811594203e-08, 'beta_dpo/gap_mean': -0.008158953860402107, 'beta_dpo/gap_std': 0.38943251967430115, 'beta_dpo/beta_used_raw': 0.10036857426166534, 'beta_dpo/beta_used': 0.10036857426166534, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.7284325361251831, 'logits/rejected': 0.9985450506210327, 'epoch': 0.02}
  2%|█▊                                                                                                                | 11/681 [00:32<32:27,  2.91s/it]  2%|██                                                                                                                | 12/681 [00:35<32:43,  2.93s/it]                                                                                                                                                        {'loss': 1.3808, 'grad_norm': 41.69594955444336, 'learning_rate': 7.971014492753623e-08, 'beta_dpo/gap_mean': 0.002900504507124424, 'beta_dpo/gap_std': 0.4011257290840149, 'beta_dpo/beta_used_raw': 0.10221745073795319, 'beta_dpo/beta_used': 0.10221745073795319, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -0.2577040195465088, 'logits/rejected': -0.08773193508386612, 'epoch': 0.02}
  2%|██                                                                                                                | 12/681 [00:35<32:43,  2.93s/it]  2%|██▏                                                                                                               | 13/681 [00:38<33:15,  2.99s/it]                                                                                                                                                        {'loss': 1.3896, 'grad_norm': 37.253273010253906, 'learning_rate': 8.695652173913042e-08, 'beta_dpo/gap_mean': 0.010516807436943054, 'beta_dpo/gap_std': 0.4214455485343933, 'beta_dpo/beta_used_raw': 0.09779460728168488, 'beta_dpo/beta_used': 0.09779460728168488, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.40396368503570557, 'logits/rejected': 0.7425417900085449, 'epoch': 0.02}
  2%|██▏                                                                                                               | 13/681 [00:38<33:15,  2.99s/it]  2%|██▎                                                                                                               | 14/681 [00:41<32:55,  2.96s/it]                                                                                                                                                        {'loss': 1.3853, 'grad_norm': 35.80532455444336, 'learning_rate': 9.420289855072464e-08, 'beta_dpo/gap_mean': 0.0034803529269993305, 'beta_dpo/gap_std': 0.42071378231048584, 'beta_dpo/beta_used_raw': 0.09969929605722427, 'beta_dpo/beta_used': 0.09969929605722427, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': 0.5135482549667358, 'logits/rejected': 0.63726806640625, 'epoch': 0.02}
  2%|██▎                                                                                                               | 14/681 [00:41<32:55,  2.96s/it]  2%|██▌                                                                                                               | 15/681 [00:44<33:53,  3.05s/it]                                                                                                                                                        {'loss': 1.3869, 'grad_norm': 33.884681701660156, 'learning_rate': 1.0144927536231885e-07, 'beta_dpo/gap_mean': 0.00040535128209739923, 'beta_dpo/gap_std': 0.437721848487854, 'beta_dpo/beta_used_raw': 0.09926551580429077, 'beta_dpo/beta_used': 0.09926551580429077, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': 0.34413981437683105, 'logits/rejected': 0.5353966951370239, 'epoch': 0.02}
  2%|██▌                                                                                                               | 15/681 [00:44<33:53,  3.05s/it]  2%|██▋                                                                                                               | 16/681 [00:47<33:10,  2.99s/it]                                                                                                                                                        {'loss': 1.3835, 'grad_norm': 34.41832733154297, 'learning_rate': 1.0869565217391303e-07, 'beta_dpo/gap_mean': 0.005474040750414133, 'beta_dpo/gap_std': 0.44184213876724243, 'beta_dpo/beta_used_raw': 0.10161672532558441, 'beta_dpo/beta_used': 0.10161672532558441, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.02781546115875244, 'logits/rejected': 0.3703967332839966, 'epoch': 0.02}
  2%|██▋                                                                                                               | 16/681 [00:47<33:10,  2.99s/it]  2%|██▊                                                                                                               | 17/681 [00:50<32:35,  2.95s/it]                                                                                                                                                        {'loss': 1.381, 'grad_norm': 38.5697021484375, 'learning_rate': 1.1594202898550725e-07, 'beta_dpo/gap_mean': 0.020230602473020554, 'beta_dpo/gap_std': 0.4481740891933441, 'beta_dpo/beta_used_raw': 0.10158823430538177, 'beta_dpo/beta_used': 0.10158823430538177, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.17520441114902496, 'logits/rejected': 0.4109325110912323, 'epoch': 0.02}
  2%|██▊                                                                                                               | 17/681 [00:50<32:35,  2.95s/it]  3%|███                                                                                                               | 18/681 [00:52<32:02,  2.90s/it]                                                                                                                                                        {'loss': 1.3868, 'grad_norm': 31.3992862701416, 'learning_rate': 1.2318840579710146e-07, 'beta_dpo/gap_mean': 0.022835951298475266, 'beta_dpo/gap_std': 0.45730656385421753, 'beta_dpo/beta_used_raw': 0.09817768633365631, 'beta_dpo/beta_used': 0.09817768633365631, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.11811737716197968, 'logits/rejected': 0.37715792655944824, 'epoch': 0.03}
  3%|███                                                                                                               | 18/681 [00:53<32:02,  2.90s/it]  3%|███▏                                                                                                              | 19/681 [00:55<32:12,  2.92s/it]                                                                                                                                                        {'loss': 1.3843, 'grad_norm': 32.43757247924805, 'learning_rate': 1.3043478260869563e-07, 'beta_dpo/gap_mean': 0.021170007064938545, 'beta_dpo/gap_std': 0.45264753699302673, 'beta_dpo/beta_used_raw': 0.10017681121826172, 'beta_dpo/beta_used': 0.10017681121826172, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.14852826297283173, 'logits/rejected': 0.4215266704559326, 'epoch': 0.03}
  3%|███▏                                                                                                              | 19/681 [00:55<32:12,  2.92s/it]  3%|███▎                                                                                                              | 20/681 [00:58<32:08,  2.92s/it]                                                                                                                                                        {'loss': 1.3813, 'grad_norm': 32.24197006225586, 'learning_rate': 1.3768115942028986e-07, 'beta_dpo/gap_mean': 0.024478904902935028, 'beta_dpo/gap_std': 0.4402172565460205, 'beta_dpo/beta_used_raw': 0.10059511661529541, 'beta_dpo/beta_used': 0.10059511661529541, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.02626686543226242, 'logits/rejected': 0.23224107921123505, 'epoch': 0.03}
  3%|███▎                                                                                                              | 20/681 [00:58<32:08,  2.92s/it]  3%|███▌                                                                                                              | 21/681 [01:01<31:52,  2.90s/it]                                                                                                                                                        {'loss': 1.3807, 'grad_norm': 32.54502487182617, 'learning_rate': 1.4492753623188405e-07, 'beta_dpo/gap_mean': 0.03433241322636604, 'beta_dpo/gap_std': 0.4314417243003845, 'beta_dpo/beta_used_raw': 0.10132542252540588, 'beta_dpo/beta_used': 0.10132542252540588, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.8274613618850708, 'logits/rejected': 1.209240436553955, 'epoch': 0.03}
  3%|███▌                                                                                                              | 21/681 [01:01<31:52,  2.90s/it]  3%|███▋                                                                                                              | 22/681 [01:04<32:50,  2.99s/it]                                                                                                                                                        {'loss': 1.3895, 'grad_norm': 44.07844161987305, 'learning_rate': 1.5217391304347825e-07, 'beta_dpo/gap_mean': 0.047481901943683624, 'beta_dpo/gap_std': 0.4284280240535736, 'beta_dpo/beta_used_raw': 0.09770512580871582, 'beta_dpo/beta_used': 0.09770512580871582, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': 0.7793359160423279, 'logits/rejected': 0.6676016449928284, 'epoch': 0.03}
  3%|███▋                                                                                                              | 22/681 [01:04<32:50,  2.99s/it]  3%|███▊                                                                                                              | 23/681 [01:07<32:53,  3.00s/it]                                                                                                                                                        {'loss': 1.3847, 'grad_norm': 34.02887725830078, 'learning_rate': 1.5942028985507245e-07, 'beta_dpo/gap_mean': 0.04389035701751709, 'beta_dpo/gap_std': 0.4313211441040039, 'beta_dpo/beta_used_raw': 0.09836747497320175, 'beta_dpo/beta_used': 0.09836747497320175, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.6295610070228577, 'logits/rejected': 0.6386342644691467, 'epoch': 0.03}
  3%|███▊                                                                                                              | 23/681 [01:07<32:53,  3.00s/it]  4%|████                                                                                                              | 24/681 [01:10<33:00,  3.01s/it]                                                                                                                                                        {'loss': 1.3825, 'grad_norm': 45.06439971923828, 'learning_rate': 1.6666666666666665e-07, 'beta_dpo/gap_mean': 0.03594818338751793, 'beta_dpo/gap_std': 0.4390791654586792, 'beta_dpo/beta_used_raw': 0.10079745948314667, 'beta_dpo/beta_used': 0.10079745948314667, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.6740798354148865, 'logits/rejected': 0.7973790168762207, 'epoch': 0.04}
  4%|████                                                                                                              | 24/681 [01:11<33:00,  3.01s/it]  4%|████▏                                                                                                             | 25/681 [01:13<32:59,  3.02s/it]                                                                                                                                                        {'loss': 1.3783, 'grad_norm': 39.44239807128906, 'learning_rate': 1.7391304347826085e-07, 'beta_dpo/gap_mean': 0.033481329679489136, 'beta_dpo/gap_std': 0.444084495306015, 'beta_dpo/beta_used_raw': 0.10290396213531494, 'beta_dpo/beta_used': 0.10290396213531494, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.8647956848144531, 'logits/rejected': 0.9377778768539429, 'epoch': 0.04}
  4%|████▏                                                                                                             | 25/681 [01:14<32:59,  3.02s/it]  4%|████▎                                                                                                             | 26/681 [01:16<31:28,  2.88s/it]                                                                                                                                                        {'loss': 1.3868, 'grad_norm': 42.32288360595703, 'learning_rate': 1.8115942028985507e-07, 'beta_dpo/gap_mean': 0.03490423411130905, 'beta_dpo/gap_std': 0.44243302941322327, 'beta_dpo/beta_used_raw': 0.096158966422081, 'beta_dpo/beta_used': 0.096158966422081, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.4755552411079407, 'logits/rejected': 0.6985275745391846, 'epoch': 0.04}
  4%|████▎                                                                                                             | 26/681 [01:16<31:28,  2.88s/it]  4%|████▌                                                                                                             | 27/681 [01:19<31:14,  2.87s/it]                                                                                                                                                        {'loss': 1.378, 'grad_norm': 41.91151809692383, 'learning_rate': 1.8840579710144927e-07, 'beta_dpo/gap_mean': 0.04747733473777771, 'beta_dpo/gap_std': 0.444235622882843, 'beta_dpo/beta_used_raw': 0.10245074331760406, 'beta_dpo/beta_used': 0.10245074331760406, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.21072596311569214, 'logits/rejected': 0.08524161577224731, 'epoch': 0.04}
  4%|████▌                                                                                                             | 27/681 [01:19<31:14,  2.87s/it]  4%|████▋                                                                                                             | 28/681 [01:22<31:18,  2.88s/it]                                                                                                                                                        {'loss': 1.3738, 'grad_norm': 37.31840896606445, 'learning_rate': 1.9565217391304347e-07, 'beta_dpo/gap_mean': 0.058281153440475464, 'beta_dpo/gap_std': 0.44807279109954834, 'beta_dpo/beta_used_raw': 0.10306209325790405, 'beta_dpo/beta_used': 0.10306209325790405, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.6112695932388306, 'logits/rejected': 0.714950680732727, 'epoch': 0.04}
  4%|████▋                                                                                                             | 28/681 [01:22<31:18,  2.88s/it]  4%|████▊                                                                                                             | 29/681 [01:24<30:06,  2.77s/it]                                                                                                                                                        {'loss': 1.381, 'grad_norm': 47.05006790161133, 'learning_rate': 2.028985507246377e-07, 'beta_dpo/gap_mean': 0.07269902527332306, 'beta_dpo/gap_std': 0.44637590646743774, 'beta_dpo/beta_used_raw': 0.09879401326179504, 'beta_dpo/beta_used': 0.09879401326179504, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.7314038276672363, 'logits/rejected': 0.8412085771560669, 'epoch': 0.04}
  4%|████▊                                                                                                             | 29/681 [01:24<30:06,  2.77s/it]  4%|█████                                                                                                             | 30/681 [01:28<31:46,  2.93s/it]                                                                                                                                                        {'loss': 1.3764, 'grad_norm': 44.45933151245117, 'learning_rate': 2.1014492753623187e-07, 'beta_dpo/gap_mean': 0.07155513763427734, 'beta_dpo/gap_std': 0.44477319717407227, 'beta_dpo/beta_used_raw': 0.1020648330450058, 'beta_dpo/beta_used': 0.1020648330450058, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 1.1050382852554321, 'logits/rejected': 1.16668701171875, 'epoch': 0.04}
  4%|█████                                                                                                             | 30/681 [01:28<31:46,  2.93s/it]  5%|█████▏                                                                                                            | 31/681 [01:31<32:13,  2.98s/it]                                                                                                                                                        {'loss': 1.3836, 'grad_norm': 33.403358459472656, 'learning_rate': 2.1739130434782607e-07, 'beta_dpo/gap_mean': 0.06911972165107727, 'beta_dpo/gap_std': 0.4422132968902588, 'beta_dpo/beta_used_raw': 0.0970248281955719, 'beta_dpo/beta_used': 0.0970248281955719, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.8101310133934021, 'logits/rejected': 1.0011759996414185, 'epoch': 0.05}
  5%|█████▏                                                                                                            | 31/681 [01:31<32:13,  2.98s/it]  5%|█████▎                                                                                                            | 32/681 [01:34<32:12,  2.98s/it]                                                                                                                                                        {'loss': 1.384, 'grad_norm': 33.10820007324219, 'learning_rate': 2.2463768115942027e-07, 'beta_dpo/gap_mean': 0.07079443335533142, 'beta_dpo/gap_std': 0.4461364150047302, 'beta_dpo/beta_used_raw': 0.09790567308664322, 'beta_dpo/beta_used': 0.09790567308664322, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.8439233303070068, 'logits/rejected': 0.950434684753418, 'epoch': 0.05}
  5%|█████▎                                                                                                            | 32/681 [01:34<32:12,  2.98s/it]  5%|█████▌                                                                                                            | 33/681 [01:36<31:21,  2.90s/it]                                                                                                                                                        {'loss': 1.3753, 'grad_norm': 34.716880798339844, 'learning_rate': 2.318840579710145e-07, 'beta_dpo/gap_mean': 0.06464250385761261, 'beta_dpo/gap_std': 0.44462600350379944, 'beta_dpo/beta_used_raw': 0.10266172885894775, 'beta_dpo/beta_used': 0.10266172885894775, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.6662931442260742, 'logits/rejected': 0.8440811634063721, 'epoch': 0.05}
  5%|█████▌                                                                                                            | 33/681 [01:36<31:21,  2.90s/it]  5%|█████▋                                                                                                            | 34/681 [01:39<31:34,  2.93s/it]                                                                                                                                                        {'loss': 1.37, 'grad_norm': 36.31764602661133, 'learning_rate': 2.391304347826087e-07, 'beta_dpo/gap_mean': 0.09583105146884918, 'beta_dpo/gap_std': 0.46839314699172974, 'beta_dpo/beta_used_raw': 0.10402781516313553, 'beta_dpo/beta_used': 0.10402781516313553, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.3044871687889099, 'logits/rejected': 0.7843359112739563, 'epoch': 0.05}
  5%|█████▋                                                                                                            | 34/681 [01:39<31:34,  2.93s/it]  5%|█████▊                                                                                                            | 35/681 [01:42<31:18,  2.91s/it]                                                                                                                                                        {'loss': 1.371, 'grad_norm': 39.71388626098633, 'learning_rate': 2.463768115942029e-07, 'beta_dpo/gap_mean': 0.11586057394742966, 'beta_dpo/gap_std': 0.4675544500350952, 'beta_dpo/beta_used_raw': 0.10199436545372009, 'beta_dpo/beta_used': 0.10199436545372009, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.5839816331863403, 'logits/rejected': 0.8258933424949646, 'epoch': 0.05}
  5%|█████▊                                                                                                            | 35/681 [01:42<31:18,  2.91s/it]  5%|██████                                                                                                            | 36/681 [01:45<31:34,  2.94s/it]                                                                                                                                                        {'loss': 1.378, 'grad_norm': 29.94068145751953, 'learning_rate': 2.536231884057971e-07, 'beta_dpo/gap_mean': 0.12648111581802368, 'beta_dpo/gap_std': 0.4649723768234253, 'beta_dpo/beta_used_raw': 0.09709247946739197, 'beta_dpo/beta_used': 0.09709247946739197, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.40314602851867676, 'logits/rejected': 0.5354802012443542, 'epoch': 0.05}
  5%|██████                                                                                                            | 36/681 [01:45<31:34,  2.94s/it]  5%|██████▏                                                                                                           | 37/681 [01:48<31:36,  2.95s/it]                                                                                                                                                        {'loss': 1.3676, 'grad_norm': 31.40448570251465, 'learning_rate': 2.6086956521739126e-07, 'beta_dpo/gap_mean': 0.1381409764289856, 'beta_dpo/gap_std': 0.4927595257759094, 'beta_dpo/beta_used_raw': 0.10307516157627106, 'beta_dpo/beta_used': 0.10307516157627106, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': 0.35831230878829956, 'logits/rejected': 0.6434404850006104, 'epoch': 0.05}
  5%|██████▏                                                                                                           | 37/681 [01:48<31:36,  2.95s/it]  6%|██████▎                                                                                                           | 38/681 [01:51<31:12,  2.91s/it]                                                                                                                                                        {'loss': 1.3781, 'grad_norm': 27.932357788085938, 'learning_rate': 2.681159420289855e-07, 'beta_dpo/gap_mean': 0.156931072473526, 'beta_dpo/gap_std': 0.5091784000396729, 'beta_dpo/beta_used_raw': 0.09714777767658234, 'beta_dpo/beta_used': 0.09714777767658234, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': 0.563934326171875, 'logits/rejected': 0.6664830446243286, 'epoch': 0.06}
  6%|██████▎                                                                                                           | 38/681 [01:51<31:12,  2.91s/it]  6%|██████▌                                                                                                           | 39/681 [01:54<31:00,  2.90s/it]                                                                                                                                                        {'loss': 1.3578, 'grad_norm': 39.61822509765625, 'learning_rate': 2.753623188405797e-07, 'beta_dpo/gap_mean': 0.1700209379196167, 'beta_dpo/gap_std': 0.5124276876449585, 'beta_dpo/beta_used_raw': 0.10663290321826935, 'beta_dpo/beta_used': 0.10663290321826935, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.48427289724349976, 'logits/rejected': 0.8242242336273193, 'epoch': 0.06}
  6%|██████▌                                                                                                           | 39/681 [01:54<31:00,  2.90s/it]  6%|██████▋                                                                                                           | 40/681 [01:57<30:43,  2.88s/it]                                                                                                                                                        {'loss': 1.3658, 'grad_norm': 32.475460052490234, 'learning_rate': 2.8260869565217386e-07, 'beta_dpo/gap_mean': 0.17161959409713745, 'beta_dpo/gap_std': 0.5042372941970825, 'beta_dpo/beta_used_raw': 0.10216629505157471, 'beta_dpo/beta_used': 0.10216629505157471, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.920052170753479, 'logits/rejected': 0.9896578788757324, 'epoch': 0.06}
  6%|██████▋                                                                                                           | 40/681 [01:57<30:43,  2.88s/it]  6%|██████▊                                                                                                           | 41/681 [02:00<30:55,  2.90s/it]                                                                                                                                                        {'loss': 1.3738, 'grad_norm': 30.475223541259766, 'learning_rate': 2.898550724637681e-07, 'beta_dpo/gap_mean': 0.18380120396614075, 'beta_dpo/gap_std': 0.5123995542526245, 'beta_dpo/beta_used_raw': 0.09696967899799347, 'beta_dpo/beta_used': 0.09696967899799347, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': 1.0419857501983643, 'logits/rejected': 1.2172199487686157, 'epoch': 0.06}
  6%|██████▊                                                                                                           | 41/681 [02:00<30:55,  2.90s/it]  6%|███████                                                                                                           | 42/681 [02:03<30:53,  2.90s/it]                                                                                                                                                        {'loss': 1.3524, 'grad_norm': 43.8969841003418, 'learning_rate': 2.971014492753623e-07, 'beta_dpo/gap_mean': 0.20398783683776855, 'beta_dpo/gap_std': 0.5257683992385864, 'beta_dpo/beta_used_raw': 0.1069054901599884, 'beta_dpo/beta_used': 0.1069054901599884, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.42500317096710205, 'logits/rejected': 0.5260858535766602, 'epoch': 0.06}
  6%|███████                                                                                                           | 42/681 [02:03<30:53,  2.90s/it]  6%|███████▏                                                                                                          | 43/681 [02:06<30:57,  2.91s/it]                                                                                                                                                        {'loss': 1.3579, 'grad_norm': 32.977210998535156, 'learning_rate': 3.043478260869565e-07, 'beta_dpo/gap_mean': 0.24691221117973328, 'beta_dpo/gap_std': 0.5559054017066956, 'beta_dpo/beta_used_raw': 0.10209308564662933, 'beta_dpo/beta_used': 0.10209308564662933, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.5705319046974182, 'logits/rejected': 0.6937817931175232, 'epoch': 0.06}
  6%|███████▏                                                                                                          | 43/681 [02:06<30:57,  2.91s/it]  6%|███████▎                                                                                                          | 44/681 [02:08<30:49,  2.90s/it]                                                                                                                                                        {'loss': 1.3587, 'grad_norm': 34.141815185546875, 'learning_rate': 3.115942028985507e-07, 'beta_dpo/gap_mean': 0.2685306966304779, 'beta_dpo/gap_std': 0.5704429149627686, 'beta_dpo/beta_used_raw': 0.10147799551486969, 'beta_dpo/beta_used': 0.10147799551486969, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.5468135476112366, 'logits/rejected': 0.7769373059272766, 'epoch': 0.06}
  6%|███████▎                                                                                                          | 44/681 [02:08<30:49,  2.90s/it]  7%|███████▌                                                                                                          | 45/681 [02:12<31:29,  2.97s/it]                                                                                                                                                        {'loss': 1.3699, 'grad_norm': 26.028532028198242, 'learning_rate': 3.188405797101449e-07, 'beta_dpo/gap_mean': 0.2547299265861511, 'beta_dpo/gap_std': 0.5621392726898193, 'beta_dpo/beta_used_raw': 0.0953749343752861, 'beta_dpo/beta_used': 0.0953749343752861, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.6253921985626221, 'logits/rejected': 0.7837856411933899, 'epoch': 0.07}
  7%|███████▌                                                                                                          | 45/681 [02:12<31:29,  2.97s/it]  7%|███████▋                                                                                                          | 46/681 [02:15<32:01,  3.03s/it]                                                                                                                                                        {'loss': 1.3537, 'grad_norm': 33.697540283203125, 'learning_rate': 3.260869565217391e-07, 'beta_dpo/gap_mean': 0.27350008487701416, 'beta_dpo/gap_std': 0.5653533339500427, 'beta_dpo/beta_used_raw': 0.10346020013093948, 'beta_dpo/beta_used': 0.10346020013093948, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.9563829898834229, 'logits/rejected': 1.276297926902771, 'epoch': 0.07}
  7%|███████▋                                                                                                          | 46/681 [02:15<32:01,  3.03s/it]  7%|███████▊                                                                                                          | 47/681 [02:18<31:58,  3.03s/it]                                                                                                                                                        {'loss': 1.3657, 'grad_norm': 33.535667419433594, 'learning_rate': 3.333333333333333e-07, 'beta_dpo/gap_mean': 0.28601908683776855, 'beta_dpo/gap_std': 0.5872968435287476, 'beta_dpo/beta_used_raw': 0.09652406722307205, 'beta_dpo/beta_used': 0.09652406722307205, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.003040153533220291, 'logits/rejected': 0.20534364879131317, 'epoch': 0.07}
  7%|███████▊                                                                                                          | 47/681 [02:18<31:58,  3.03s/it]  7%|████████                                                                                                          | 48/681 [02:21<31:51,  3.02s/it]                                                                                                                                                        {'loss': 1.3473, 'grad_norm': 36.597084045410156, 'learning_rate': 3.4057971014492755e-07, 'beta_dpo/gap_mean': 0.3253113031387329, 'beta_dpo/gap_std': 0.6272794604301453, 'beta_dpo/beta_used_raw': 0.103759765625, 'beta_dpo/beta_used': 0.103759765625, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': 0.16515415906906128, 'logits/rejected': 0.25872254371643066, 'epoch': 0.07}
  7%|████████                                                                                                          | 48/681 [02:21<31:51,  3.02s/it]  7%|████████▏                                                                                                         | 49/681 [02:24<31:27,  2.99s/it]                                                                                                                                                        {'loss': 1.3397, 'grad_norm': 35.3515625, 'learning_rate': 3.478260869565217e-07, 'beta_dpo/gap_mean': 0.37170833349227905, 'beta_dpo/gap_std': 0.6765430569648743, 'beta_dpo/beta_used_raw': 0.10399220883846283, 'beta_dpo/beta_used': 0.10399220883846283, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.1696886569261551, 'logits/rejected': 0.33062222599983215, 'epoch': 0.07}
  7%|████████▏                                                                                                         | 49/681 [02:24<31:27,  2.99s/it]  7%|████████▎                                                                                                         | 50/681 [02:26<30:56,  2.94s/it]                                                                                                                                                        {'loss': 1.3456, 'grad_norm': 31.9883975982666, 'learning_rate': 3.5507246376811595e-07, 'beta_dpo/gap_mean': 0.4253373444080353, 'beta_dpo/gap_std': 0.7102055549621582, 'beta_dpo/beta_used_raw': 0.09910602867603302, 'beta_dpo/beta_used': 0.09910602867603302, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': 0.8714113235473633, 'logits/rejected': 1.1603641510009766, 'epoch': 0.07}
  7%|████████▎                                                                                                         | 50/681 [02:27<30:56,  2.94s/it]  7%|████████▌                                                                                                         | 51/681 [02:29<31:03,  2.96s/it]                                                                                                                                                        {'loss': 1.3414, 'grad_norm': 29.27351951599121, 'learning_rate': 3.6231884057971015e-07, 'beta_dpo/gap_mean': 0.4460796117782593, 'beta_dpo/gap_std': 0.7467154264450073, 'beta_dpo/beta_used_raw': 0.10119134932756424, 'beta_dpo/beta_used': 0.10119134932756424, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.7564854621887207, 'logits/rejected': 1.1092755794525146, 'epoch': 0.07}
  7%|████████▌                                                                                                         | 51/681 [02:30<31:03,  2.96s/it]  8%|████████▋                                                                                                         | 52/681 [02:32<30:25,  2.90s/it]                                                                                                                                                        {'loss': 1.3309, 'grad_norm': 31.185443878173828, 'learning_rate': 3.695652173913043e-07, 'beta_dpo/gap_mean': 0.5001685619354248, 'beta_dpo/gap_std': 0.7689269185066223, 'beta_dpo/beta_used_raw': 0.10360611975193024, 'beta_dpo/beta_used': 0.10360611975193024, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': 0.1388968527317047, 'logits/rejected': 0.3441314697265625, 'epoch': 0.08}
  8%|████████▋                                                                                                         | 52/681 [02:32<30:25,  2.90s/it]  8%|████████▊                                                                                                         | 53/681 [02:35<31:14,  2.98s/it]                                                                                                                                                        {'loss': 1.3325, 'grad_norm': 31.37520980834961, 'learning_rate': 3.7681159420289855e-07, 'beta_dpo/gap_mean': 0.5589120388031006, 'beta_dpo/gap_std': 0.8447322845458984, 'beta_dpo/beta_used_raw': 0.10029203444719315, 'beta_dpo/beta_used': 0.10029203444719315, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.6295239329338074, 'logits/rejected': 0.7122503519058228, 'epoch': 0.08}
  8%|████████▊                                                                                                         | 53/681 [02:35<31:14,  2.98s/it]  8%|█████████                                                                                                         | 54/681 [02:38<30:19,  2.90s/it]                                                                                                                                                        {'loss': 1.3147, 'grad_norm': 35.64163589477539, 'learning_rate': 3.8405797101449274e-07, 'beta_dpo/gap_mean': 0.6512259840965271, 'beta_dpo/gap_std': 0.8958290815353394, 'beta_dpo/beta_used_raw': 0.10459037125110626, 'beta_dpo/beta_used': 0.10459037125110626, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.9176524877548218, 'logits/rejected': 1.011580228805542, 'epoch': 0.08}
  8%|█████████                                                                                                         | 54/681 [02:38<30:19,  2.90s/it]  8%|█████████▏                                                                                                        | 55/681 [02:41<29:13,  2.80s/it]                                                                                                                                                        {'loss': 1.3113, 'grad_norm': 35.24003601074219, 'learning_rate': 3.9130434782608694e-07, 'beta_dpo/gap_mean': 0.7022398710250854, 'beta_dpo/gap_std': 0.9507501125335693, 'beta_dpo/beta_used_raw': 0.1026381105184555, 'beta_dpo/beta_used': 0.1026381105184555, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.29505473375320435, 'logits/rejected': -0.09624499082565308, 'epoch': 0.08}
  8%|█████████▏                                                                                                        | 55/681 [02:41<29:13,  2.80s/it]  8%|█████████▎                                                                                                        | 56/681 [02:44<29:45,  2.86s/it]                                                                                                                                                        {'loss': 1.3044, 'grad_norm': 32.721805572509766, 'learning_rate': 3.9855072463768114e-07, 'beta_dpo/gap_mean': 0.772992730140686, 'beta_dpo/gap_std': 1.0654406547546387, 'beta_dpo/beta_used_raw': 0.1019178181886673, 'beta_dpo/beta_used': 0.1019178181886673, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.0909002423286438, 'logits/rejected': 0.28411364555358887, 'epoch': 0.08}
  8%|█████████▎                                                                                                        | 56/681 [02:44<29:45,  2.86s/it]  8%|█████████▌                                                                                                        | 57/681 [02:47<29:37,  2.85s/it]                                                                                                                                                        {'loss': 1.3245, 'grad_norm': 31.025205612182617, 'learning_rate': 4.057971014492754e-07, 'beta_dpo/gap_mean': 0.7895393371582031, 'beta_dpo/gap_std': 1.1319793462753296, 'beta_dpo/beta_used_raw': 0.09452690184116364, 'beta_dpo/beta_used': 0.09452690184116364, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.24088265001773834, 'logits/rejected': 0.3191375136375427, 'epoch': 0.08}
  8%|█████████▌                                                                                                        | 57/681 [02:47<29:37,  2.85s/it]  9%|█████████▋                                                                                                        | 58/681 [02:50<30:03,  2.89s/it]                                                                                                                                                        {'loss': 1.2914, 'grad_norm': 35.668453216552734, 'learning_rate': 4.1304347826086954e-07, 'beta_dpo/gap_mean': 0.8548910021781921, 'beta_dpo/gap_std': 1.1864020824432373, 'beta_dpo/beta_used_raw': 0.10477735102176666, 'beta_dpo/beta_used': 0.10477735102176666, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -0.08373896777629852, 'logits/rejected': 0.29527297616004944, 'epoch': 0.09}
  9%|█████████▋                                                                                                        | 58/681 [02:50<30:03,  2.89s/it]  9%|█████████▉                                                                                                        | 59/681 [02:52<30:01,  2.90s/it]                                                                                                                                                        {'loss': 1.2938, 'grad_norm': 33.82415008544922, 'learning_rate': 4.2028985507246374e-07, 'beta_dpo/gap_mean': 0.922788143157959, 'beta_dpo/gap_std': 1.215921401977539, 'beta_dpo/beta_used_raw': 0.10405892133712769, 'beta_dpo/beta_used': 0.10405892133712769, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': 0.3770354986190796, 'logits/rejected': 0.5427916646003723, 'epoch': 0.09}
  9%|█████████▉                                                                                                        | 59/681 [02:52<30:01,  2.90s/it]  9%|██████████                                                                                                        | 60/681 [02:55<29:25,  2.84s/it]                                                                                                                                                        {'loss': 1.3151, 'grad_norm': 25.01860809326172, 'learning_rate': 4.2753623188405794e-07, 'beta_dpo/gap_mean': 0.9623857736587524, 'beta_dpo/gap_std': 1.2300928831100464, 'beta_dpo/beta_used_raw': 0.08976569026708603, 'beta_dpo/beta_used': 0.08976569026708603, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.3236808180809021, 'logits/rejected': 0.7505677938461304, 'epoch': 0.09}
  9%|██████████                                                                                                        | 60/681 [02:55<29:25,  2.84s/it]  9%|██████████▏                                                                                                       | 61/681 [02:58<30:21,  2.94s/it]                                                                                                                                                        {'loss': 1.3396, 'grad_norm': 22.11328887939453, 'learning_rate': 4.3478260869565214e-07, 'beta_dpo/gap_mean': 0.9610786437988281, 'beta_dpo/gap_std': 1.3071849346160889, 'beta_dpo/beta_used_raw': 0.07914106547832489, 'beta_dpo/beta_used': 0.07914106547832489, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.2516426146030426, 'logits/rejected': -0.02317236363887787, 'epoch': 0.09}
  9%|██████████▏                                                                                                       | 61/681 [02:58<30:21,  2.94s/it]  9%|██████████▍                                                                                                       | 62/681 [03:01<30:45,  2.98s/it]                                                                                                                                                        {'loss': 1.3037, 'grad_norm': 26.365983963012695, 'learning_rate': 4.420289855072464e-07, 'beta_dpo/gap_mean': 0.9768849611282349, 'beta_dpo/gap_std': 1.3115894794464111, 'beta_dpo/beta_used_raw': 0.09530578553676605, 'beta_dpo/beta_used': 0.09530578553676605, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.27271533012390137, 'logits/rejected': 0.268252432346344, 'epoch': 0.09}
  9%|██████████▍                                                                                                       | 62/681 [03:01<30:45,  2.98s/it]  9%|██████████▌                                                                                                       | 63/681 [03:04<30:17,  2.94s/it]                                                                                                                                                        {'loss': 1.2743, 'grad_norm': 35.525062561035156, 'learning_rate': 4.4927536231884053e-07, 'beta_dpo/gap_mean': 1.0516126155853271, 'beta_dpo/gap_std': 1.3722937107086182, 'beta_dpo/beta_used_raw': 0.10470438003540039, 'beta_dpo/beta_used': 0.10470438003540039, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.27358633279800415, 'logits/rejected': 0.5209922790527344, 'epoch': 0.09}
  9%|██████████▌                                                                                                       | 63/681 [03:04<30:17,  2.94s/it]  9%|██████████▋                                                                                                       | 64/681 [03:07<29:58,  2.91s/it]                                                                                                                                                        {'loss': 1.2742, 'grad_norm': 31.30100440979004, 'learning_rate': 4.5652173913043473e-07, 'beta_dpo/gap_mean': 1.142209529876709, 'beta_dpo/gap_std': 1.4562242031097412, 'beta_dpo/beta_used_raw': 0.09943975508213043, 'beta_dpo/beta_used': 0.09943975508213043, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.8951408863067627, 'logits/rejected': 1.089853048324585, 'epoch': 0.09}
  9%|██████████▋                                                                                                       | 64/681 [03:07<29:58,  2.91s/it] 10%|██████████▉                                                                                                       | 65/681 [03:10<30:02,  2.93s/it]                                                                                                                                                        {'loss': 1.2767, 'grad_norm': 34.030433654785156, 'learning_rate': 4.63768115942029e-07, 'beta_dpo/gap_mean': 1.2123044729232788, 'beta_dpo/gap_std': 1.492063045501709, 'beta_dpo/beta_used_raw': 0.09851166605949402, 'beta_dpo/beta_used': 0.09851166605949402, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': 0.39446431398391724, 'logits/rejected': 0.29857978224754333, 'epoch': 0.1}
 10%|██████████▉                                                                                                       | 65/681 [03:10<30:02,  2.93s/it] 10%|███████████                                                                                                       | 66/681 [03:13<30:08,  2.94s/it]                                                                                                                                                        {'loss': 1.3196, 'grad_norm': 21.924297332763672, 'learning_rate': 4.7101449275362313e-07, 'beta_dpo/gap_mean': 1.2385344505310059, 'beta_dpo/gap_std': 1.5351271629333496, 'beta_dpo/beta_used_raw': 0.08195464313030243, 'beta_dpo/beta_used': 0.08195464313030243, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.015095788985490799, 'logits/rejected': 0.257466584444046, 'epoch': 0.1}
 10%|███████████                                                                                                       | 66/681 [03:13<30:08,  2.94s/it] 10%|███████████▏                                                                                                      | 67/681 [03:16<29:12,  2.85s/it]                                                                                                                                                        {'loss': 1.3397, 'grad_norm': 17.05328941345215, 'learning_rate': 4.782608695652174e-07, 'beta_dpo/gap_mean': 1.1743882894515991, 'beta_dpo/gap_std': 1.622124195098877, 'beta_dpo/beta_used_raw': 0.07061232626438141, 'beta_dpo/beta_used': 0.07061232626438141, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.6905490159988403, 'logits/rejected': 0.8179426193237305, 'epoch': 0.1}
 10%|███████████▏                                                                                                      | 67/681 [03:16<29:12,  2.85s/it] 10%|███████████▍                                                                                                      | 68/681 [03:18<28:45,  2.81s/it]                                                                                                                                                        {'loss': 1.2867, 'grad_norm': 24.639341354370117, 'learning_rate': 4.855072463768116e-07, 'beta_dpo/gap_mean': 1.2332521677017212, 'beta_dpo/gap_std': 1.7263941764831543, 'beta_dpo/beta_used_raw': 0.09138956665992737, 'beta_dpo/beta_used': 0.09138956665992737, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.910900354385376, 'logits/rejected': -0.7187647223472595, 'epoch': 0.1}
 10%|███████████▍                                                                                                      | 68/681 [03:18<28:45,  2.81s/it] 10%|███████████▌                                                                                                      | 69/681 [03:22<30:28,  2.99s/it]                                                                                                                                                        {'loss': 1.268, 'grad_norm': 30.226844787597656, 'learning_rate': 4.927536231884058e-07, 'beta_dpo/gap_mean': 1.3337668180465698, 'beta_dpo/gap_std': 1.8452472686767578, 'beta_dpo/beta_used_raw': 0.09712530672550201, 'beta_dpo/beta_used': 0.09712530672550201, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.2648603320121765, 'logits/rejected': 0.3073993921279907, 'epoch': 0.1}
 10%|███████████▌                                                                                                      | 69/681 [03:22<30:28,  2.99s/it] 10%|███████████▋                                                                                                      | 70/681 [03:25<29:42,  2.92s/it]                                                                                                                                                        {'loss': 1.286, 'grad_norm': 22.558631896972656, 'learning_rate': 5e-07, 'beta_dpo/gap_mean': 1.459987998008728, 'beta_dpo/gap_std': 1.982649564743042, 'beta_dpo/beta_used_raw': 0.08421066403388977, 'beta_dpo/beta_used': 0.08421066403388977, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.3340024948120117, 'logits/rejected': 0.5476035475730896, 'epoch': 0.1}
 10%|███████████▋                                                                                                      | 70/681 [03:25<29:42,  2.92s/it] 10%|███████████▉                                                                                                      | 71/681 [03:27<29:32,  2.90s/it]                                                                                                                                                        {'loss': 1.2169, 'grad_norm': 32.90518569946289, 'learning_rate': 4.999967061337492e-07, 'beta_dpo/gap_mean': 1.7209677696228027, 'beta_dpo/gap_std': 2.2336602210998535, 'beta_dpo/beta_used_raw': 0.10257969796657562, 'beta_dpo/beta_used': 0.10257969796657562, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.2438286542892456, 'logits/rejected': 0.43359801173210144, 'epoch': 0.1}
 10%|███████████▉                                                                                                      | 71/681 [03:27<29:32,  2.90s/it] 11%|████████████                                                                                                      | 72/681 [03:30<29:10,  2.87s/it]                                                                                                                                                        {'loss': 1.2618, 'grad_norm': 24.293167114257812, 'learning_rate': 4.999868246217933e-07, 'beta_dpo/gap_mean': 1.8638193607330322, 'beta_dpo/gap_std': 2.3361806869506836, 'beta_dpo/beta_used_raw': 0.08484944701194763, 'beta_dpo/beta_used': 0.08484944701194763, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.16392625868320465, 'logits/rejected': 0.36707645654678345, 'epoch': 0.11}
 11%|████████████                                                                                                      | 72/681 [03:30<29:10,  2.87s/it] 11%|████████████▏                                                                                                     | 73/681 [03:33<29:14,  2.89s/it]                                                                                                                                                        {'loss': 1.3011, 'grad_norm': 20.27967643737793, 'learning_rate': 4.999703557245192e-07, 'beta_dpo/gap_mean': 1.9632892608642578, 'beta_dpo/gap_std': 2.580928087234497, 'beta_dpo/beta_used_raw': 0.06621776521205902, 'beta_dpo/beta_used': 0.06621776521205902, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.8935944437980652, 'logits/rejected': -0.34290611743927, 'epoch': 0.11}
 11%|████████████▏                                                                                                     | 73/681 [03:33<29:14,  2.89s/it] 11%|████████████▍                                                                                                     | 74/681 [03:36<29:11,  2.89s/it]                                                                                                                                                        {'loss': 1.2112, 'grad_norm': 30.242183685302734, 'learning_rate': 4.999472998758977e-07, 'beta_dpo/gap_mean': 2.124460220336914, 'beta_dpo/gap_std': 2.7994680404663086, 'beta_dpo/beta_used_raw': 0.09418769180774689, 'beta_dpo/beta_used': 0.09418769180774689, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.3257332146167755, 'logits/rejected': -0.3129286468029022, 'epoch': 0.11}
 11%|████████████▍                                                                                                     | 74/681 [03:36<29:11,  2.89s/it] 11%|████████████▌                                                                                                     | 75/681 [03:39<28:59,  2.87s/it]                                                                                                                                                        {'loss': 1.109, 'grad_norm': 39.98731231689453, 'learning_rate': 4.999176576834721e-07, 'beta_dpo/gap_mean': 2.335268974304199, 'beta_dpo/gap_std': 3.031240940093994, 'beta_dpo/beta_used_raw': 0.11877734959125519, 'beta_dpo/beta_used': 0.11877734959125519, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.41363754868507385, 'logits/rejected': 0.28612393140792847, 'epoch': 0.11}
 11%|████████████▌                                                                                                     | 75/681 [03:39<28:59,  2.87s/it] 11%|████████████▋                                                                                                     | 76/681 [03:42<29:46,  2.95s/it]                                                                                                                                                        {'loss': 1.1912, 'grad_norm': 25.231731414794922, 'learning_rate': 4.998814299283415e-07, 'beta_dpo/gap_mean': 2.4628543853759766, 'beta_dpo/gap_std': 3.2532970905303955, 'beta_dpo/beta_used_raw': 0.08970046043395996, 'beta_dpo/beta_used': 0.08970046043395996, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2684142589569092, 'logits/rejected': -0.9033623933792114, 'epoch': 0.11}
 11%|████████████▋                                                                                                     | 76/681 [03:42<29:46,  2.95s/it] 11%|████████████▉                                                                                                     | 77/681 [03:45<28:30,  2.83s/it]                                                                                                                                                        {'loss': 1.1905, 'grad_norm': 29.32447624206543, 'learning_rate': 4.998386175651409e-07, 'beta_dpo/gap_mean': 2.5265262126922607, 'beta_dpo/gap_std': 3.3844351768493652, 'beta_dpo/beta_used_raw': 0.09582079946994781, 'beta_dpo/beta_used': 0.09582079946994781, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.20256809890270233, 'logits/rejected': -0.08170560747385025, 'epoch': 0.11}
 11%|████████████▉                                                                                                     | 77/681 [03:45<28:30,  2.83s/it] 11%|█████████████                                                                                                     | 78/681 [03:48<29:09,  2.90s/it]                                                                                                                                                        {'loss': 1.2294, 'grad_norm': 20.592315673828125, 'learning_rate': 4.997892217220159e-07, 'beta_dpo/gap_mean': 2.600193977355957, 'beta_dpo/gap_std': 3.4132637977600098, 'beta_dpo/beta_used_raw': 0.07637983560562134, 'beta_dpo/beta_used': 0.07637983560562134, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.5006381273269653, 'logits/rejected': 0.6229469180107117, 'epoch': 0.11}
 11%|█████████████                                                                                                     | 78/681 [03:48<29:09,  2.90s/it] 12%|█████████████▏                                                                                                    | 79/681 [03:51<29:15,  2.92s/it]                                                                                                                                                        {'loss': 1.0555, 'grad_norm': 36.98799514770508, 'learning_rate': 4.997332437005931e-07, 'beta_dpo/gap_mean': 2.8109922409057617, 'beta_dpo/gap_std': 3.607632637023926, 'beta_dpo/beta_used_raw': 0.12261506170034409, 'beta_dpo/beta_used': 0.12261506170034409, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -0.14069265127182007, 'logits/rejected': 0.381592333316803, 'epoch': 0.12}
 12%|█████████████▏                                                                                                    | 79/681 [03:51<29:15,  2.92s/it] 12%|█████████████▍                                                                                                    | 80/681 [03:53<29:06,  2.91s/it]                                                                                                                                                        {'loss': 1.263, 'grad_norm': 18.50529670715332, 'learning_rate': 4.996706849759452e-07, 'beta_dpo/gap_mean': 2.924854278564453, 'beta_dpo/gap_std': 3.7584455013275146, 'beta_dpo/beta_used_raw': 0.05763671547174454, 'beta_dpo/beta_used': 0.05763671547174454, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.5511586666107178, 'logits/rejected': 0.2598066031932831, 'epoch': 0.12}
 12%|█████████████▍                                                                                                    | 80/681 [03:53<29:06,  2.91s/it] 12%|█████████████▌                                                                                                    | 81/681 [03:57<29:32,  2.95s/it]                                                                                                                                                        {'loss': 1.2039, 'grad_norm': 22.593578338623047, 'learning_rate': 4.996015471965529e-07, 'beta_dpo/gap_mean': 3.1903529167175293, 'beta_dpo/gap_std': 4.072197914123535, 'beta_dpo/beta_used_raw': 0.0756058320403099, 'beta_dpo/beta_used': 0.0756058320403099, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.4839993119239807, 'logits/rejected': 0.11238844692707062, 'epoch': 0.12}
 12%|█████████████▌                                                                                                    | 81/681 [03:57<29:32,  2.95s/it] 12%|█████████████▋                                                                                                    | 82/681 [03:59<28:52,  2.89s/it]                                                                                                                                                        {'loss': 1.2371, 'grad_norm': 21.1937313079834, 'learning_rate': 4.995258321842611e-07, 'beta_dpo/gap_mean': 3.1580824851989746, 'beta_dpo/gap_std': 4.085663795471191, 'beta_dpo/beta_used_raw': 0.06392714381217957, 'beta_dpo/beta_used': 0.06392714381217957, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.18834875524044037, 'logits/rejected': 0.010252445936203003, 'epoch': 0.12}
 12%|█████████████▋                                                                                                    | 82/681 [03:59<28:52,  2.89s/it] 12%|█████████████▉                                                                                                    | 83/681 [04:02<28:28,  2.86s/it]                                                                                                                                                        {'loss': 1.279, 'grad_norm': 16.829927444458008, 'learning_rate': 4.994435419342304e-07, 'beta_dpo/gap_mean': 3.2494096755981445, 'beta_dpo/gap_std': 4.285775661468506, 'beta_dpo/beta_used_raw': 0.051595039665699005, 'beta_dpo/beta_used': 0.051595039665699005, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.4440305233001709, 'logits/rejected': -0.3782370090484619, 'epoch': 0.12}
 12%|█████████████▉                                                                                                    | 83/681 [04:02<28:28,  2.86s/it] 12%|██████████████                                                                                                    | 84/681 [04:05<29:55,  3.01s/it]                                                                                                                                                        {'loss': 1.3021, 'grad_norm': 14.960714340209961, 'learning_rate': 4.993546786148857e-07, 'beta_dpo/gap_mean': 3.168778896331787, 'beta_dpo/gap_std': 4.352312088012695, 'beta_dpo/beta_used_raw': 0.026219218969345093, 'beta_dpo/beta_used': 0.035387977957725525, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.734527587890625, 'logits/rejected': -0.41321492195129395, 'epoch': 0.12}
 12%|██████████████                                                                                                    | 84/681 [04:05<29:55,  3.01s/it] 12%|██████████████▏                                                                                                   | 85/681 [04:08<29:48,  3.00s/it]                                                                                                                                                        {'loss': 1.1866, 'grad_norm': 26.920080184936523, 'learning_rate': 4.992592445678582e-07, 'beta_dpo/gap_mean': 3.0220541954040527, 'beta_dpo/gap_std': 4.437371253967285, 'beta_dpo/beta_used_raw': 0.09027501940727234, 'beta_dpo/beta_used': 0.09027501940727234, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': 0.3732537031173706, 'logits/rejected': 0.6761988997459412, 'epoch': 0.12}
 12%|██████████████▏                                                                                                   | 85/681 [04:08<29:48,  3.00s/it] 13%|██████████████▍                                                                                                   | 86/681 [04:11<29:15,  2.95s/it]                                                                                                                                                        {'loss': 1.2988, 'grad_norm': 12.763246536254883, 'learning_rate': 4.991572423079235e-07, 'beta_dpo/gap_mean': 3.152754783630371, 'beta_dpo/gap_std': 4.687079429626465, 'beta_dpo/beta_used_raw': 0.04152470454573631, 'beta_dpo/beta_used': 0.04152470454573631, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7253550887107849, 'logits/rejected': -0.5855756998062134, 'epoch': 0.13}
 13%|██████████████▍                                                                                                   | 86/681 [04:11<29:15,  2.95s/it] 13%|██████████████▌                                                                                                   | 87/681 [04:14<29:13,  2.95s/it]                                                                                                                                                        {'loss': 1.2483, 'grad_norm': 19.533201217651367, 'learning_rate': 4.990486745229364e-07, 'beta_dpo/gap_mean': 3.322826862335205, 'beta_dpo/gap_std': 4.999612808227539, 'beta_dpo/beta_used_raw': 0.06223129481077194, 'beta_dpo/beta_used': 0.06223129481077194, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.8896793723106384, 'logits/rejected': -0.609255313873291, 'epoch': 0.13}
 13%|██████████████▌                                                                                                   | 87/681 [04:14<29:13,  2.95s/it] 13%|██████████████▋                                                                                                   | 88/681 [04:17<29:15,  2.96s/it]                                                                                                                                                        {'loss': 1.1191, 'grad_norm': 28.452533721923828, 'learning_rate': 4.989335440737586e-07, 'beta_dpo/gap_mean': 3.3977251052856445, 'beta_dpo/gap_std': 5.225910186767578, 'beta_dpo/beta_used_raw': 0.10454927384853363, 'beta_dpo/beta_used': 0.10454927384853363, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.383707731962204, 'logits/rejected': -0.38696473836898804, 'epoch': 0.13}
 13%|██████████████▋                                                                                                   | 88/681 [04:17<29:15,  2.96s/it] 13%|██████████████▉                                                                                                   | 89/681 [04:20<28:42,  2.91s/it]                                                                                                                                                        {'loss': 1.3119, 'grad_norm': 11.382292747497559, 'learning_rate': 4.988118539941847e-07, 'beta_dpo/gap_mean': 3.3997325897216797, 'beta_dpo/gap_std': 5.348217010498047, 'beta_dpo/beta_used_raw': 0.03293079510331154, 'beta_dpo/beta_used': 0.03293079510331154, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.12446750700473785, 'logits/rejected': 0.03424917906522751, 'epoch': 0.13}
 13%|██████████████▉                                                                                                   | 89/681 [04:20<28:42,  2.91s/it] 13%|███████████████                                                                                                   | 90/681 [04:23<28:11,  2.86s/it]                                                                                                                                                        {'loss': 1.063, 'grad_norm': 32.30577850341797, 'learning_rate': 4.986836074908615e-07, 'beta_dpo/gap_mean': 3.538516044616699, 'beta_dpo/gap_std': 5.529797554016113, 'beta_dpo/beta_used_raw': 0.11191559582948685, 'beta_dpo/beta_used': 0.11191559582948685, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.3827494978904724, 'logits/rejected': -0.2031489610671997, 'epoch': 0.13}
 13%|███████████████                                                                                                   | 90/681 [04:23<28:11,  2.86s/it] 13%|███████████████▏                                                                                                  | 91/681 [04:26<28:51,  2.94s/it]                                                                                                                                                        {'loss': 1.2361, 'grad_norm': 19.282800674438477, 'learning_rate': 4.985488079432037e-07, 'beta_dpo/gap_mean': 3.693659782409668, 'beta_dpo/gap_std': 5.714102745056152, 'beta_dpo/beta_used_raw': 0.0587504506111145, 'beta_dpo/beta_used': 0.0587504506111145, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.5610724687576294, 'logits/rejected': -0.07184645533561707, 'epoch': 0.13}
 13%|███████████████▏                                                                                                  | 91/681 [04:26<28:51,  2.94s/it] 14%|███████████████▍                                                                                                  | 92/681 [04:29<28:46,  2.93s/it]                                                                                                                                                        {'loss': 1.3362, 'grad_norm': 9.117363929748535, 'learning_rate': 4.984074589033043e-07, 'beta_dpo/gap_mean': 3.6730222702026367, 'beta_dpo/gap_std': 5.738746166229248, 'beta_dpo/beta_used_raw': 0.021044503897428513, 'beta_dpo/beta_used': 0.021044503897428513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3292481899261475, 'logits/rejected': -1.0745368003845215, 'epoch': 0.14}
 14%|███████████████▍                                                                                                  | 92/681 [04:29<28:46,  2.93s/it] 14%|███████████████▌                                                                                                  | 93/681 [04:31<27:14,  2.78s/it]                                                                                                                                                        {'loss': 1.2159, 'grad_norm': 18.065797805786133, 'learning_rate': 4.982595640958425e-07, 'beta_dpo/gap_mean': 3.622422933578491, 'beta_dpo/gap_std': 5.81143856048584, 'beta_dpo/beta_used_raw': 0.06564544886350632, 'beta_dpo/beta_used': 0.06564544886350632, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.129691481590271, 'logits/rejected': -0.4519658386707306, 'epoch': 0.14}
 14%|███████████████▌                                                                                                  | 93/681 [04:31<27:14,  2.78s/it] 14%|███████████████▋                                                                                                  | 94/681 [04:34<28:10,  2.88s/it]                                                                                                                                                        {'loss': 1.1855, 'grad_norm': 30.44569206237793, 'learning_rate': 4.98105127417984e-07, 'beta_dpo/gap_mean': 3.922881603240967, 'beta_dpo/gap_std': 5.974148273468018, 'beta_dpo/beta_used_raw': 0.07418715953826904, 'beta_dpo/beta_used': 0.07418715953826904, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.7543771266937256, 'logits/rejected': -0.3432539701461792, 'epoch': 0.14}
 14%|███████████████▋                                                                                                  | 94/681 [04:34<28:10,  2.88s/it] 14%|███████████████▉                                                                                                  | 95/681 [04:37<27:49,  2.85s/it]                                                                                                                                                        {'loss': 1.3438, 'grad_norm': 4.844404220581055, 'learning_rate': 4.979441529392784e-07, 'beta_dpo/gap_mean': 3.914681911468506, 'beta_dpo/gap_std': 6.0327043533325195, 'beta_dpo/beta_used_raw': 0.016762804239988327, 'beta_dpo/beta_used': 0.016762804239988327, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3417716026306152, 'logits/rejected': -0.5555290579795837, 'epoch': 0.14}
 14%|███████████████▉                                                                                                  | 95/681 [04:37<27:49,  2.85s/it] 14%|████████████████                                                                                                  | 96/681 [04:40<27:47,  2.85s/it]                                                                                                                                                        {'loss': 1.1501, 'grad_norm': 20.949954986572266, 'learning_rate': 4.977766449015534e-07, 'beta_dpo/gap_mean': 4.16600227355957, 'beta_dpo/gap_std': 6.302978515625, 'beta_dpo/beta_used_raw': 0.07483043521642685, 'beta_dpo/beta_used': 0.07483043521642685, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.09304308891296387, 'logits/rejected': 0.17778439819812775, 'epoch': 0.14}
 14%|████████████████                                                                                                  | 96/681 [04:40<27:47,  2.85s/it] 14%|████████████████▏                                                                                                 | 97/681 [04:43<27:57,  2.87s/it]                                                                                                                                                        {'loss': 1.0978, 'grad_norm': 24.92792320251465, 'learning_rate': 4.976026077188012e-07, 'beta_dpo/gap_mean': 4.1845598220825195, 'beta_dpo/gap_std': 6.200246810913086, 'beta_dpo/beta_used_raw': 0.08849300444126129, 'beta_dpo/beta_used': 0.08849300444126129, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.6613257527351379, 'logits/rejected': -0.10425081849098206, 'epoch': 0.14}
 14%|████████████████▏                                                                                                 | 97/681 [04:43<27:57,  2.87s/it] 14%|████████████████▍                                                                                                 | 98/681 [04:46<27:26,  2.82s/it]                                                                                                                                                        {'loss': 1.0047, 'grad_norm': 31.26581573486328, 'learning_rate': 4.974220459770639e-07, 'beta_dpo/gap_mean': 4.468649387359619, 'beta_dpo/gap_std': 6.226131439208984, 'beta_dpo/beta_used_raw': 0.11061571538448334, 'beta_dpo/beta_used': 0.11061571538448334, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.2658594846725464, 'logits/rejected': -0.22771313786506653, 'epoch': 0.14}
 14%|████████████████▍                                                                                                 | 98/681 [04:46<27:26,  2.82s/it] 15%|████████████████▌                                                                                                 | 99/681 [04:48<26:58,  2.78s/it]                                                                                                                                                        {'loss': 1.16, 'grad_norm': 21.47028160095215, 'learning_rate': 4.972349644343108e-07, 'beta_dpo/gap_mean': 4.65333366394043, 'beta_dpo/gap_std': 6.376982688903809, 'beta_dpo/beta_used_raw': 0.06567872315645218, 'beta_dpo/beta_used': 0.06567872315645218, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.632530152797699, 'logits/rejected': -0.23820585012435913, 'epoch': 0.15}
 15%|████████████████▌                                                                                                 | 99/681 [04:48<26:58,  2.78s/it] 15%|████████████████▌                                                                                                | 100/681 [04:51<27:52,  2.88s/it]                                                                                                                                                        {'loss': 1.1246, 'grad_norm': 20.208816528320312, 'learning_rate': 4.970413680203148e-07, 'beta_dpo/gap_mean': 4.682595252990723, 'beta_dpo/gap_std': 6.322968482971191, 'beta_dpo/beta_used_raw': 0.07161588966846466, 'beta_dpo/beta_used': 0.07161588966846466, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -0.9340729117393494, 'logits/rejected': -0.8069697618484497, 'epoch': 0.15}
 15%|████████████████▌                                                                                                | 100/681 [04:51<27:52,  2.88s/it][INFO|trainer.py:4307] 2026-04-24 01:56:39,715 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 01:56:39,715 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 01:56:39,715 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:21,  3.33it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:29,  2.35it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:33,  2.06it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:35,  1.93it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.82it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:35,  1.88it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:04<00:37,  1.75it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:37,  1.69it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.67it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:37,  1.67it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:36,  1.65it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:35,  1.68it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.66it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:34,  1.66it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.61it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.59it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:34,  1.57it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:11<00:34,  1.55it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:34,  1.54it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:33,  1.54it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:13<00:33,  1.53it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:32,  1.56it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.57it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.59it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:29,  1.59it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.76it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.71it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.73it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:24,  1.75it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:25,  1.68it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:23,  1.71it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.73it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:20<00:22,  1.70it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:23,  1.64it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:22,  1.63it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.63it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:20,  1.72it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:20,  1.64it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.71it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:18,  1.66it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:17,  1.69it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.67it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.60it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.68it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.65it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.63it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.62it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:14,  1.64it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.61it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:31<00:13,  1.58it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:12,  1.55it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.65it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.64it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.68it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:09,  1.62it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:08,  1.67it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:07,  1.65it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.63it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:37<00:06,  1.65it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.74it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:38<00:05,  1.76it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.74it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:04,  1.67it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.70it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.67it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:41<00:02,  1.63it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.62it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.63it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:43<00:00,  1.63it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.6499497890472412, 'eval_runtime': 44.1735, 'eval_samples_per_second': 52.95, 'eval_steps_per_second': 1.675, 'eval_beta_dpo/gap_mean': 4.617349624633789, 'eval_beta_dpo/gap_std': 6.235292911529541, 'eval_beta_dpo/beta_used_raw': -4.359763352113077e-06, 'eval_beta_dpo/beta_used': 0.029263369739055634, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -0.1879054754972458, 'eval_logits/rejected': 0.048689987510442734, 'epoch': 0.15}
 15%|████████████████▌                                                                                                | 100/681 [05:36<27:52,  2.88s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s][A
                                                                                                                                                        [A 15%|████████████████▍                                                                                              | 101/681 [05:38<2:35:27, 16.08s/it]                                                                                                                                                        {'loss': 1.1745, 'grad_norm': 22.336591720581055, 'learning_rate': 4.968412618365215e-07, 'beta_dpo/gap_mean': 4.556900501251221, 'beta_dpo/gap_std': 6.3267927169799805, 'beta_dpo/beta_used_raw': 0.011043012142181396, 'beta_dpo/beta_used': 0.05792199447751045, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.3307875096797943, 'logits/rejected': -0.38723018765449524, 'epoch': 0.15}
 15%|████████████████▍                                                                                              | 101/681 [05:38<2:35:27, 16.08s/it] 15%|████████████████▋                                                                                              | 102/681 [05:41<1:56:37, 12.09s/it]                                                                                                                                                        {'loss': 1.3837, 'grad_norm': 0.3191300332546234, 'learning_rate': 4.966346511559149e-07, 'beta_dpo/gap_mean': 4.187932014465332, 'beta_dpo/gap_std': 6.494045257568359, 'beta_dpo/beta_used_raw': -0.0021508424542844296, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.49200695753097534, 'logits/rejected': 0.015693657100200653, 'epoch': 0.15}
 15%|████████████████▋                                                                                              | 102/681 [05:41<1:56:37, 12.09s/it] 15%|████████████████▊                                                                                              | 103/681 [05:44<1:29:07,  9.25s/it]                                                                                                                                                        {'loss': 0.9733, 'grad_norm': 30.04520034790039, 'learning_rate': 4.964215414228785e-07, 'beta_dpo/gap_mean': 4.446552276611328, 'beta_dpo/gap_std': 6.728653907775879, 'beta_dpo/beta_used_raw': 0.12325669825077057, 'beta_dpo/beta_used': 0.12325669825077057, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.1893901824951172, 'logits/rejected': 0.20488853752613068, 'epoch': 0.15}
 15%|████████████████▊                                                                                              | 103/681 [05:44<1:29:07,  9.25s/it] 15%|████████████████▉                                                                                              | 104/681 [05:46<1:09:32,  7.23s/it]                                                                                                                                                        {'loss': 1.0458, 'grad_norm': 25.41728973388672, 'learning_rate': 4.96201938253052e-07, 'beta_dpo/gap_mean': 4.730528831481934, 'beta_dpo/gap_std': 7.018924713134766, 'beta_dpo/beta_used_raw': 0.10145142674446106, 'beta_dpo/beta_used': 0.10145142674446106, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.5134764909744263, 'logits/rejected': -0.8099765181541443, 'epoch': 0.15}
 15%|████████████████▉                                                                                              | 104/681 [05:46<1:09:32,  7.23s/it] 15%|█████████████████▍                                                                                               | 105/681 [05:49<57:19,  5.97s/it]                                                                                                                                                        {'loss': 1.1229, 'grad_norm': 21.229785919189453, 'learning_rate': 4.959758474331832e-07, 'beta_dpo/gap_mean': 4.928286552429199, 'beta_dpo/gap_std': 7.368670463562012, 'beta_dpo/beta_used_raw': 0.07333097606897354, 'beta_dpo/beta_used': 0.07333097606897354, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5502166748046875, 'logits/rejected': -0.854112982749939, 'epoch': 0.15}
 15%|█████████████████▍                                                                                               | 105/681 [05:49<57:19,  5.97s/it] 16%|█████████████████▌                                                                                               | 106/681 [05:52<48:39,  5.08s/it]                                                                                                                                                        {'loss': 1.2137, 'grad_norm': 13.381973266601562, 'learning_rate': 4.957432749209755e-07, 'beta_dpo/gap_mean': 5.1268205642700195, 'beta_dpo/gap_std': 7.609879970550537, 'beta_dpo/beta_used_raw': 0.04561164975166321, 'beta_dpo/beta_used': 0.04561164975166321, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.42794278264045715, 'logits/rejected': 0.10008341073989868, 'epoch': 0.16}
 16%|█████████████████▌                                                                                               | 106/681 [05:52<48:39,  5.08s/it] 16%|█████████████████▊                                                                                               | 107/681 [05:55<42:59,  4.49s/it]                                                                                                                                                        {'loss': 0.9888, 'grad_norm': 28.917911529541016, 'learning_rate': 4.955042268449307e-07, 'beta_dpo/gap_mean': 5.44158935546875, 'beta_dpo/gap_std': 8.028169631958008, 'beta_dpo/beta_used_raw': 0.1029866486787796, 'beta_dpo/beta_used': 0.1029866486787796, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.9266539812088013, 'logits/rejected': -0.49631673097610474, 'epoch': 0.16}
 16%|█████████████████▊                                                                                               | 107/681 [05:55<42:59,  4.49s/it] 16%|█████████████████▉                                                                                               | 108/681 [05:58<37:45,  3.95s/it]                                                                                                                                                        {'loss': 1.1273, 'grad_norm': 19.129323959350586, 'learning_rate': 4.952587095041881e-07, 'beta_dpo/gap_mean': 5.726339340209961, 'beta_dpo/gap_std': 8.711938858032227, 'beta_dpo/beta_used_raw': 0.06229037046432495, 'beta_dpo/beta_used': 0.06229037046432495, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.9584572911262512, 'logits/rejected': -0.5016314387321472, 'epoch': 0.16}
 16%|█████████████████▉                                                                                               | 108/681 [05:58<37:45,  3.95s/it] 16%|██████████████████                                                                                               | 109/681 [06:01<35:07,  3.69s/it]                                                                                                                                                        {'loss': 1.1233, 'grad_norm': 18.17817497253418, 'learning_rate': 4.95006729368358e-07, 'beta_dpo/gap_mean': 6.139488697052002, 'beta_dpo/gap_std': 9.01210880279541, 'beta_dpo/beta_used_raw': 0.06188575178384781, 'beta_dpo/beta_used': 0.06188575178384781, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.1628775596618652, 'logits/rejected': -1.2133209705352783, 'epoch': 0.16}
 16%|██████████████████                                                                                               | 109/681 [06:01<35:07,  3.69s/it] 16%|██████████████████▎                                                                                              | 110/681 [06:04<33:11,  3.49s/it]                                                                                                                                                        {'loss': 1.3828, 'grad_norm': 0.3541998863220215, 'learning_rate': 4.947482930773511e-07, 'beta_dpo/gap_mean': 6.065304756164551, 'beta_dpo/gap_std': 9.025213241577148, 'beta_dpo/beta_used_raw': -0.051077503710985184, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.3318154215812683, 'logits/rejected': 0.049862414598464966, 'epoch': 0.16}
 16%|██████████████████▎                                                                                              | 110/681 [06:04<33:11,  3.49s/it] 16%|██████████████████▍                                                                                              | 111/681 [06:07<31:20,  3.30s/it]                                                                                                                                                        {'loss': 0.6861, 'grad_norm': 52.75183868408203, 'learning_rate': 4.944834074412042e-07, 'beta_dpo/gap_mean': 6.521720886230469, 'beta_dpo/gap_std': 9.535682678222656, 'beta_dpo/beta_used_raw': 0.21433338522911072, 'beta_dpo/beta_used': 0.21433338522911072, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.2158098220825195, 'logits/rejected': -1.3288953304290771, 'epoch': 0.16}
 16%|██████████████████▍                                                                                              | 111/681 [06:07<31:20,  3.30s/it] 16%|██████████████████▌                                                                                              | 112/681 [06:09<29:15,  3.09s/it]                                                                                                                                                        {'loss': 1.2109, 'grad_norm': 13.388900756835938, 'learning_rate': 4.942120794399002e-07, 'beta_dpo/gap_mean': 6.324298858642578, 'beta_dpo/gap_std': 9.393738746643066, 'beta_dpo/beta_used_raw': 0.0375223234295845, 'beta_dpo/beta_used': 0.0375223234295845, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.3608340322971344, 'logits/rejected': -0.2805202603340149, 'epoch': 0.16}
 16%|██████████████████▌                                                                                              | 112/681 [06:10<29:15,  3.09s/it] 17%|██████████████████▊                                                                                              | 113/681 [06:12<28:53,  3.05s/it]                                                                                                                                                        {'loss': 1.3654, 'grad_norm': 2.6726489067077637, 'learning_rate': 4.939343162231841e-07, 'beta_dpo/gap_mean': 6.02249002456665, 'beta_dpo/gap_std': 9.307682037353516, 'beta_dpo/beta_used_raw': -0.012436026707291603, 'beta_dpo/beta_used': 0.004732728470116854, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.6618878841400146, 'logits/rejected': -0.6378419995307922, 'epoch': 0.17}
 17%|██████████████████▊                                                                                              | 113/681 [06:13<28:53,  3.05s/it] 17%|██████████████████▉                                                                                              | 114/681 [06:15<28:27,  3.01s/it]                                                                                                                                                        {'loss': 1.0121, 'grad_norm': 37.85430145263672, 'learning_rate': 4.936501251103751e-07, 'beta_dpo/gap_mean': 6.201924800872803, 'beta_dpo/gap_std': 9.722326278686523, 'beta_dpo/beta_used_raw': 0.10487943142652512, 'beta_dpo/beta_used': 0.10487943142652512, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.106161117553711, 'logits/rejected': -1.1193244457244873, 'epoch': 0.17}
 17%|██████████████████▉                                                                                              | 114/681 [06:15<28:27,  3.01s/it] 17%|███████████████████                                                                                              | 115/681 [06:19<28:45,  3.05s/it]                                                                                                                                                        {'loss': 1.0974, 'grad_norm': 22.83355712890625, 'learning_rate': 4.933595135901732e-07, 'beta_dpo/gap_mean': 6.369258880615234, 'beta_dpo/gap_std': 9.897127151489258, 'beta_dpo/beta_used_raw': 0.07024595141410828, 'beta_dpo/beta_used': 0.07024595141410828, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.8814918994903564, 'logits/rejected': -0.22126063704490662, 'epoch': 0.17}
 17%|███████████████████                                                                                              | 115/681 [06:19<28:45,  3.05s/it] 17%|███████████████████▏                                                                                             | 116/681 [06:21<27:36,  2.93s/it]                                                                                                                                                        {'loss': 1.2206, 'grad_norm': 15.455899238586426, 'learning_rate': 4.930624893204624e-07, 'beta_dpo/gap_mean': 6.360749244689941, 'beta_dpo/gap_std': 9.90849781036377, 'beta_dpo/beta_used_raw': 0.016239957883954048, 'beta_dpo/beta_used': 0.03589708358049393, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -0.8801502585411072, 'logits/rejected': -0.5614099502563477, 'epoch': 0.17}
 17%|███████████████████▏                                                                                             | 116/681 [06:21<27:36,  2.93s/it] 17%|███████████████████▍                                                                                             | 117/681 [06:24<27:26,  2.92s/it]                                                                                                                                                        {'loss': 1.1196, 'grad_norm': 17.241731643676758, 'learning_rate': 4.927590601281083e-07, 'beta_dpo/gap_mean': 6.227132797241211, 'beta_dpo/gap_std': 10.034835815429688, 'beta_dpo/beta_used_raw': 0.06246402487158775, 'beta_dpo/beta_used': 0.06246402487158775, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.1716945171356201, 'logits/rejected': -0.6936039328575134, 'epoch': 0.17}
 17%|███████████████████▍                                                                                             | 117/681 [06:24<27:26,  2.92s/it] 17%|███████████████████▌                                                                                             | 118/681 [06:27<27:11,  2.90s/it]                                                                                                                                                        {'loss': 0.9042, 'grad_norm': 26.410181045532227, 'learning_rate': 4.924492340087524e-07, 'beta_dpo/gap_mean': 6.186464786529541, 'beta_dpo/gap_std': 9.922000885009766, 'beta_dpo/beta_used_raw': 0.11437574028968811, 'beta_dpo/beta_used': 0.11437574028968811, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.24005727469921112, 'logits/rejected': 0.17718710005283356, 'epoch': 0.17}
 17%|███████████████████▌                                                                                             | 118/681 [06:27<27:11,  2.90s/it] 17%|███████████████████▋                                                                                             | 119/681 [06:30<27:33,  2.94s/it]                                                                                                                                                        {'loss': 0.782, 'grad_norm': 35.94211959838867, 'learning_rate': 4.92133019126601e-07, 'beta_dpo/gap_mean': 6.43756103515625, 'beta_dpo/gap_std': 10.469891548156738, 'beta_dpo/beta_used_raw': 0.15982091426849365, 'beta_dpo/beta_used': 0.15982091426849365, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.271965742111206, 'logits/rejected': -0.8017282485961914, 'epoch': 0.17}
 17%|███████████████████▋                                                                                             | 119/681 [06:30<27:33,  2.94s/it] 18%|███████████████████▉                                                                                             | 120/681 [06:33<27:27,  2.94s/it]                                                                                                                                                        {'loss': 0.8735, 'grad_norm': 71.97966766357422, 'learning_rate': 4.918104238142103e-07, 'beta_dpo/gap_mean': 6.951420783996582, 'beta_dpo/gap_std': 11.378963470458984, 'beta_dpo/beta_used_raw': 0.18478921055793762, 'beta_dpo/beta_used': 0.18478921055793762, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8507401943206787, 'logits/rejected': -0.5078636407852173, 'epoch': 0.18}
 18%|███████████████████▉                                                                                             | 120/681 [06:33<27:27,  2.94s/it] 18%|████████████████████                                                                                             | 121/681 [06:36<27:03,  2.90s/it]                                                                                                                                                        {'loss': 0.936, 'grad_norm': 25.373376846313477, 'learning_rate': 4.91481456572267e-07, 'beta_dpo/gap_mean': 7.4571428298950195, 'beta_dpo/gap_std': 11.627532958984375, 'beta_dpo/beta_used_raw': 0.08799508213996887, 'beta_dpo/beta_used': 0.08799508213996887, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.416792631149292, 'logits/rejected': -0.1818535476922989, 'epoch': 0.18}
 18%|████████████████████                                                                                             | 121/681 [06:36<27:03,  2.90s/it] 18%|████████████████████▏                                                                                            | 122/681 [06:39<26:51,  2.88s/it]                                                                                                                                                        {'loss': 0.7657, 'grad_norm': 48.199588775634766, 'learning_rate': 4.911461260693638e-07, 'beta_dpo/gap_mean': 7.865861892700195, 'beta_dpo/gap_std': 11.58388900756836, 'beta_dpo/beta_used_raw': 0.17342130839824677, 'beta_dpo/beta_used': 0.17342130839824677, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.6681898832321167, 'logits/rejected': -0.8930027484893799, 'epoch': 0.18}
 18%|████████████████████▏                                                                                            | 122/681 [06:39<26:51,  2.88s/it] 18%|████████████████████▍                                                                                            | 123/681 [06:42<27:18,  2.94s/it]                                                                                                                                                        {'loss': 1.2325, 'grad_norm': 11.817289352416992, 'learning_rate': 4.908044411417711e-07, 'beta_dpo/gap_mean': 8.13044548034668, 'beta_dpo/gap_std': 11.621488571166992, 'beta_dpo/beta_used_raw': 0.008279215544462204, 'beta_dpo/beta_used': 0.025086402893066406, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7230386734008789, 'logits/rejected': -0.658951997756958, 'epoch': 0.18}
 18%|████████████████████▍                                                                                            | 123/681 [06:42<27:18,  2.94s/it] 18%|████████████████████▌                                                                                            | 124/681 [06:45<27:18,  2.94s/it]                                                                                                                                                        {'loss': 1.2045, 'grad_norm': 15.88585376739502, 'learning_rate': 4.904564107932048e-07, 'beta_dpo/gap_mean': 8.08623218536377, 'beta_dpo/gap_std': 12.203933715820312, 'beta_dpo/beta_used_raw': 0.0250830240547657, 'beta_dpo/beta_used': 0.03426877409219742, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3795387744903564, 'logits/rejected': -1.25779390335083, 'epoch': 0.18}
 18%|████████████████████▌                                                                                            | 124/681 [06:45<27:18,  2.94s/it] 18%|████████████████████▋                                                                                            | 125/681 [06:47<26:48,  2.89s/it]                                                                                                                                                        {'loss': 1.2259, 'grad_norm': 11.108583450317383, 'learning_rate': 4.90102044194588e-07, 'beta_dpo/gap_mean': 7.851171493530273, 'beta_dpo/gap_std': 12.244317054748535, 'beta_dpo/beta_used_raw': -0.018910221755504608, 'beta_dpo/beta_used': 0.02784820832312107, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.035954236984253, 'logits/rejected': -0.5925918221473694, 'epoch': 0.18}
 18%|████████████████████▋                                                                                            | 125/681 [06:47<26:48,  2.89s/it] 19%|████████████████████▉                                                                                            | 126/681 [06:50<27:00,  2.92s/it]                                                                                                                                                        {'loss': 0.8214, 'grad_norm': 18.8892822265625, 'learning_rate': 4.897413506838102e-07, 'beta_dpo/gap_mean': 7.984950542449951, 'beta_dpo/gap_std': 12.292469024658203, 'beta_dpo/beta_used_raw': 0.13587123155593872, 'beta_dpo/beta_used': 0.13587123155593872, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.1455111503601074, 'logits/rejected': -0.735314130783081, 'epoch': 0.19}
 19%|████████████████████▉                                                                                            | 126/681 [06:50<27:00,  2.92s/it] 19%|█████████████████████                                                                                            | 127/681 [06:53<27:15,  2.95s/it]                                                                                                                                                        {'loss': 1.3005, 'grad_norm': 7.639008045196533, 'learning_rate': 4.89374339765481e-07, 'beta_dpo/gap_mean': 7.8060221672058105, 'beta_dpo/gap_std': 12.259511947631836, 'beta_dpo/beta_used_raw': -0.08129874616861343, 'beta_dpo/beta_used': 0.015097999945282936, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6038010120391846, 'logits/rejected': -1.1748343706130981, 'epoch': 0.19}
 19%|█████████████████████                                                                                            | 127/681 [06:53<27:15,  2.95s/it] 19%|█████████████████████▏                                                                                           | 128/681 [06:56<27:27,  2.98s/it]                                                                                                                                                        {'loss': 1.241, 'grad_norm': 9.376649856567383, 'learning_rate': 4.890010211106795e-07, 'beta_dpo/gap_mean': 7.4818620681762695, 'beta_dpo/gap_std': 12.500299453735352, 'beta_dpo/beta_used_raw': -0.017380883917212486, 'beta_dpo/beta_used': 0.02616513893008232, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3974875211715698, 'logits/rejected': -1.2336883544921875, 'epoch': 0.19}
 19%|█████████████████████▏                                                                                           | 128/681 [06:56<27:27,  2.98s/it] 19%|█████████████████████▍                                                                                           | 129/681 [06:59<27:12,  2.96s/it]                                                                                                                                                        {'loss': 1.255, 'grad_norm': 11.695999145507812, 'learning_rate': 4.88621404556699e-07, 'beta_dpo/gap_mean': 7.44722843170166, 'beta_dpo/gap_std': 12.719097137451172, 'beta_dpo/beta_used_raw': 0.016296565532684326, 'beta_dpo/beta_used': 0.02920507825911045, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9010772705078125, 'logits/rejected': -0.5811547040939331, 'epoch': 0.19}
 19%|█████████████████████▍                                                                                           | 129/681 [06:59<27:12,  2.96s/it] 19%|█████████████████████▌                                                                                           | 130/681 [07:02<27:02,  2.95s/it]                                                                                                                                                        {'loss': 1.0962, 'grad_norm': 35.886478424072266, 'learning_rate': 4.882355001067891e-07, 'beta_dpo/gap_mean': 7.697457313537598, 'beta_dpo/gap_std': 12.858654975891113, 'beta_dpo/beta_used_raw': 0.058206088840961456, 'beta_dpo/beta_used': 0.10024239122867584, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.766028642654419, 'logits/rejected': -1.4478832483291626, 'epoch': 0.19}
 19%|█████████████████████▌                                                                                           | 130/681 [07:02<27:02,  2.95s/it] 19%|█████████████████████▋                                                                                           | 131/681 [07:05<26:38,  2.91s/it]                                                                                                                                                        {'loss': 1.1125, 'grad_norm': 16.280431747436523, 'learning_rate': 4.878433179298909e-07, 'beta_dpo/gap_mean': 8.031866073608398, 'beta_dpo/gap_std': 13.036602020263672, 'beta_dpo/beta_used_raw': -0.005639418959617615, 'beta_dpo/beta_used': 0.051814038306474686, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9288041591644287, 'logits/rejected': -0.586998462677002, 'epoch': 0.19}
 19%|█████████████████████▋                                                                                           | 131/681 [07:05<26:38,  2.91s/it] 19%|█████████████████████▉                                                                                           | 132/681 [07:08<26:20,  2.88s/it]                                                                                                                                                        {'loss': 1.11, 'grad_norm': 74.64128875732422, 'learning_rate': 4.874448683603694e-07, 'beta_dpo/gap_mean': 8.335851669311523, 'beta_dpo/gap_std': 13.116096496582031, 'beta_dpo/beta_used_raw': 0.0700206607580185, 'beta_dpo/beta_used': 0.12162086367607117, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.410784363746643, 'logits/rejected': -0.9624686241149902, 'epoch': 0.19}
 19%|█████████████████████▉                                                                                           | 132/681 [07:08<26:20,  2.88s/it] 20%|██████████████████████                                                                                           | 133/681 [07:11<26:27,  2.90s/it]                                                                                                                                                        {'loss': 1.2251, 'grad_norm': 13.60718822479248, 'learning_rate': 4.870401618977415e-07, 'beta_dpo/gap_mean': 8.31583309173584, 'beta_dpo/gap_std': 13.013181686401367, 'beta_dpo/beta_used_raw': -0.024122050032019615, 'beta_dpo/beta_used': 0.02543148770928383, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5543633699417114, 'logits/rejected': -1.2189191579818726, 'epoch': 0.2}
 20%|██████████████████████                                                                                           | 133/681 [07:11<26:27,  2.90s/it] 20%|██████████████████████▏                                                                                          | 134/681 [07:13<25:51,  2.84s/it]                                                                                                                                                        {'loss': 0.9317, 'grad_norm': 37.15864944458008, 'learning_rate': 4.866292092063986e-07, 'beta_dpo/gap_mean': 8.396821975708008, 'beta_dpo/gap_std': 12.921862602233887, 'beta_dpo/beta_used_raw': 0.11427221447229385, 'beta_dpo/beta_used': 0.14605940878391266, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2449548244476318, 'logits/rejected': -1.1385276317596436, 'epoch': 0.2}
 20%|██████████████████████▏                                                                                          | 134/681 [07:14<25:51,  2.84s/it] 20%|██████████████████████▍                                                                                          | 135/681 [07:16<25:41,  2.82s/it]                                                                                                                                                        {'loss': 1.0905, 'grad_norm': 17.508895874023438, 'learning_rate': 4.862120211153265e-07, 'beta_dpo/gap_mean': 8.817639350891113, 'beta_dpo/gap_std': 12.690017700195312, 'beta_dpo/beta_used_raw': 0.045718513429164886, 'beta_dpo/beta_used': 0.045718513429164886, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.02831496298313141, 'logits/rejected': -0.29007458686828613, 'epoch': 0.2}
 20%|██████████████████████▍                                                                                          | 135/681 [07:16<25:41,  2.82s/it] 20%|██████████████████████▌                                                                                          | 136/681 [07:19<26:18,  2.90s/it]                                                                                                                                                        {'loss': 1.2525, 'grad_norm': 11.94852352142334, 'learning_rate': 4.857886086178193e-07, 'beta_dpo/gap_mean': 8.903334617614746, 'beta_dpo/gap_std': 12.98226547241211, 'beta_dpo/beta_used_raw': -0.015174014493823051, 'beta_dpo/beta_used': 0.02267739549279213, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.7013956308364868, 'logits/rejected': -0.5501904487609863, 'epoch': 0.2}
 20%|██████████████████████▌                                                                                          | 136/681 [07:19<26:18,  2.90s/it] 20%|██████████████████████▋                                                                                          | 137/681 [07:22<26:39,  2.94s/it]                                                                                                                                                        {'loss': 0.786, 'grad_norm': 13.686877250671387, 'learning_rate': 4.853589828711902e-07, 'beta_dpo/gap_mean': 9.902145385742188, 'beta_dpo/gap_std': 13.492377281188965, 'beta_dpo/beta_used_raw': 0.10866523534059525, 'beta_dpo/beta_used': 0.1529083102941513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8978835344314575, 'logits/rejected': -1.6756528615951538, 'epoch': 0.2}
 20%|██████████████████████▋                                                                                          | 137/681 [07:22<26:39,  2.94s/it] 20%|██████████████████████▉                                                                                          | 138/681 [07:25<26:09,  2.89s/it]                                                                                                                                                        {'loss': 1.0938, 'grad_norm': 19.724102020263672, 'learning_rate': 4.849231551964771e-07, 'beta_dpo/gap_mean': 9.929509162902832, 'beta_dpo/gap_std': 13.629077911376953, 'beta_dpo/beta_used_raw': 0.026043172925710678, 'beta_dpo/beta_used': 0.05722189322113991, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.0326536893844604, 'logits/rejected': -0.7594943046569824, 'epoch': 0.2}
 20%|██████████████████████▉                                                                                          | 138/681 [07:25<26:09,  2.89s/it] 20%|███████████████████████                                                                                          | 139/681 [07:28<25:34,  2.83s/it]                                                                                                                                                        {'loss': 0.6854, 'grad_norm': 26.593109130859375, 'learning_rate': 4.844811370781446e-07, 'beta_dpo/gap_mean': 9.884401321411133, 'beta_dpo/gap_std': 13.6463623046875, 'beta_dpo/beta_used_raw': 0.12640082836151123, 'beta_dpo/beta_used': 0.12640082836151123, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.64597749710083, 'logits/rejected': -0.9838266372680664, 'epoch': 0.2}
 20%|███████████████████████                                                                                          | 139/681 [07:28<25:34,  2.83s/it] 21%|███████████████████████▏                                                                                         | 140/681 [07:31<25:05,  2.78s/it]                                                                                                                                                        {'loss': 1.0512, 'grad_norm': 18.55207061767578, 'learning_rate': 4.840329401637809e-07, 'beta_dpo/gap_mean': 9.712495803833008, 'beta_dpo/gap_std': 13.483675003051758, 'beta_dpo/beta_used_raw': 0.056642085313797, 'beta_dpo/beta_used': 0.056642085313797, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.6746652126312256, 'logits/rejected': -1.4344180822372437, 'epoch': 0.21}
 21%|███████████████████████▏                                                                                         | 140/681 [07:31<25:05,  2.78s/it] 21%|███████████████████████▍                                                                                         | 141/681 [07:33<25:34,  2.84s/it]                                                                                                                                                        {'loss': 0.9227, 'grad_norm': 21.781705856323242, 'learning_rate': 4.83578576263792e-07, 'beta_dpo/gap_mean': 9.770435333251953, 'beta_dpo/gap_std': 13.59737491607666, 'beta_dpo/beta_used_raw': 0.0755089595913887, 'beta_dpo/beta_used': 0.0755089595913887, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.4660749435424805, 'logits/rejected': -0.8644838333129883, 'epoch': 0.21}
 21%|███████████████████████▍                                                                                         | 141/681 [07:34<25:34,  2.84s/it] 21%|███████████████████████▌                                                                                         | 142/681 [07:37<26:13,  2.92s/it]                                                                                                                                                        {'loss': 1.2976, 'grad_norm': 6.346410751342773, 'learning_rate': 4.83118057351089e-07, 'beta_dpo/gap_mean': 9.913363456726074, 'beta_dpo/gap_std': 13.940789222717285, 'beta_dpo/beta_used_raw': -0.020570263266563416, 'beta_dpo/beta_used': 0.01150353904813528, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5786668062210083, 'logits/rejected': -1.476420283317566, 'epoch': 0.21}
 21%|███████████████████████▌                                                                                         | 142/681 [07:37<26:13,  2.92s/it] 21%|███████████████████████▋                                                                                         | 143/681 [07:39<25:50,  2.88s/it]                                                                                                                                                        {'loss': 1.2025, 'grad_norm': 11.604023933410645, 'learning_rate': 4.826513955607734e-07, 'beta_dpo/gap_mean': 9.732027053833008, 'beta_dpo/gap_std': 13.709982872009277, 'beta_dpo/beta_used_raw': -0.006260888651013374, 'beta_dpo/beta_used': 0.027784820646047592, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2161595821380615, 'logits/rejected': -0.7919315099716187, 'epoch': 0.21}
 21%|███████████████████████▋                                                                                         | 143/681 [07:39<25:50,  2.88s/it] 21%|███████████████████████▉                                                                                         | 144/681 [07:42<26:14,  2.93s/it]                                                                                                                                                        {'loss': 1.3798, 'grad_norm': 0.4413388669490814, 'learning_rate': 4.821786031898176e-07, 'beta_dpo/gap_mean': 9.147777557373047, 'beta_dpo/gap_std': 13.664955139160156, 'beta_dpo/beta_used_raw': -0.05543350800871849, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.390363335609436, 'logits/rejected': -0.8810880184173584, 'epoch': 0.21}
 21%|███████████████████████▉                                                                                         | 144/681 [07:42<26:14,  2.93s/it] 21%|████████████████████████                                                                                         | 145/681 [07:45<26:04,  2.92s/it]                                                                                                                                                        {'loss': 1.0788, 'grad_norm': 26.998960494995117, 'learning_rate': 4.816996926967401e-07, 'beta_dpo/gap_mean': 9.196908950805664, 'beta_dpo/gap_std': 13.344491004943848, 'beta_dpo/beta_used_raw': 0.05399645119905472, 'beta_dpo/beta_used': 0.06164686381816864, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.8819482922554016, 'logits/rejected': -0.13721227645874023, 'epoch': 0.21}
 21%|████████████████████████                                                                                         | 145/681 [07:45<26:04,  2.92s/it] 21%|████████████████████████▏                                                                                        | 146/681 [07:48<26:12,  2.94s/it]                                                                                                                                                        {'loss': 0.9748, 'grad_norm': 26.07987403869629, 'learning_rate': 4.812146767012779e-07, 'beta_dpo/gap_mean': 9.43843936920166, 'beta_dpo/gap_std': 13.427677154541016, 'beta_dpo/beta_used_raw': 0.07673842459917068, 'beta_dpo/beta_used': 0.07673842459917068, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.7555097341537476, 'logits/rejected': -0.3993244469165802, 'epoch': 0.21}
 21%|████████████████████████▏                                                                                        | 146/681 [07:48<26:12,  2.94s/it] 22%|████████████████████████▍                                                                                        | 147/681 [07:51<25:52,  2.91s/it]                                                                                                                                                        {'loss': 1.1652, 'grad_norm': 13.280474662780762, 'learning_rate': 4.807235679840536e-07, 'beta_dpo/gap_mean': 9.393177032470703, 'beta_dpo/gap_std': 13.246931076049805, 'beta_dpo/beta_used_raw': 0.0317380353808403, 'beta_dpo/beta_used': 0.0317380353808403, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.7165126800537109, 'logits/rejected': -0.09713305532932281, 'epoch': 0.22}
 22%|████████████████████████▍                                                                                        | 147/681 [07:51<25:52,  2.91s/it] 22%|████████████████████████▌                                                                                        | 148/681 [07:54<25:51,  2.91s/it]                                                                                                                                                        {'loss': 1.0254, 'grad_norm': 43.10494613647461, 'learning_rate': 4.802263794862384e-07, 'beta_dpo/gap_mean': 9.365718841552734, 'beta_dpo/gap_std': 12.914957046508789, 'beta_dpo/beta_used_raw': 0.08999797701835632, 'beta_dpo/beta_used': 0.08999797701835632, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.666337251663208, 'logits/rejected': -0.916774332523346, 'epoch': 0.22}
 22%|████████████████████████▌                                                                                        | 148/681 [07:54<25:51,  2.91s/it] 22%|████████████████████████▋                                                                                        | 149/681 [07:57<26:05,  2.94s/it]                                                                                                                                                        {'loss': 1.0403, 'grad_norm': 26.33489990234375, 'learning_rate': 4.797231243092118e-07, 'beta_dpo/gap_mean': 9.781652450561523, 'beta_dpo/gap_std': 13.695876121520996, 'beta_dpo/beta_used_raw': 0.05286760255694389, 'beta_dpo/beta_used': 0.07181931287050247, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.176733374595642, 'logits/rejected': -1.0434083938598633, 'epoch': 0.22}
 22%|████████████████████████▋                                                                                        | 149/681 [07:57<26:05,  2.94s/it] 22%|████████████████████████▉                                                                                        | 150/681 [08:00<25:53,  2.93s/it]                                                                                                                                                        {'loss': 0.9952, 'grad_norm': 17.09866714477539, 'learning_rate': 4.792138157142157e-07, 'beta_dpo/gap_mean': 9.728391647338867, 'beta_dpo/gap_std': 13.834672927856445, 'beta_dpo/beta_used_raw': 0.04589571803808212, 'beta_dpo/beta_used': 0.06182215362787247, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.348958134651184, 'logits/rejected': -0.8628441095352173, 'epoch': 0.22}
 22%|████████████████████████▉                                                                                        | 150/681 [08:00<25:53,  2.93s/it] 22%|█████████████████████████                                                                                        | 151/681 [08:03<25:14,  2.86s/it]                                                                                                                                                        {'loss': 1.1467, 'grad_norm': 13.76240348815918, 'learning_rate': 4.786984671220053e-07, 'beta_dpo/gap_mean': 9.682779312133789, 'beta_dpo/gap_std': 14.172306060791016, 'beta_dpo/beta_used_raw': 0.03461529687047005, 'beta_dpo/beta_used': 0.03461529687047005, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.906869888305664, 'logits/rejected': -2.313046932220459, 'epoch': 0.22}
 22%|█████████████████████████                                                                                        | 151/681 [08:03<25:14,  2.86s/it] 22%|█████████████████████████▏                                                                                       | 152/681 [08:06<25:15,  2.87s/it]                                                                                                                                                        {'loss': 1.0583, 'grad_norm': 17.71702766418457, 'learning_rate': 4.78177092112495e-07, 'beta_dpo/gap_mean': 10.006989479064941, 'beta_dpo/gap_std': 14.11435317993164, 'beta_dpo/beta_used_raw': 0.04498470202088356, 'beta_dpo/beta_used': 0.05210987105965614, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.2832828760147095, 'logits/rejected': -0.9308356642723083, 'epoch': 0.22}
 22%|█████████████████████████▏                                                                                       | 152/681 [08:06<25:15,  2.87s/it] 22%|█████████████████████████▍                                                                                       | 153/681 [08:09<26:03,  2.96s/it]                                                                                                                                                        {'loss': 1.38, 'grad_norm': 0.4966456890106201, 'learning_rate': 4.776497044244016e-07, 'beta_dpo/gap_mean': 9.721057891845703, 'beta_dpo/gap_std': 14.40190315246582, 'beta_dpo/beta_used_raw': -0.09433462470769882, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0196692943573, 'logits/rejected': -1.5572824478149414, 'epoch': 0.22}
 22%|█████████████████████████▍                                                                                       | 153/681 [08:09<26:03,  2.96s/it] 23%|█████████████████████████▌                                                                                       | 154/681 [08:12<25:43,  2.93s/it]                                                                                                                                                        {'loss': 0.9692, 'grad_norm': 49.517601013183594, 'learning_rate': 4.771163179548808e-07, 'beta_dpo/gap_mean': 10.133020401000977, 'beta_dpo/gap_std': 14.461688995361328, 'beta_dpo/beta_used_raw': 0.09089169651269913, 'beta_dpo/beta_used': 0.09308835864067078, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7237651348114014, 'logits/rejected': -1.6149145364761353, 'epoch': 0.23}
 23%|█████████████████████████▌                                                                                       | 154/681 [08:12<25:43,  2.93s/it] 23%|█████████████████████████▋                                                                                       | 155/681 [08:15<25:44,  2.94s/it]                                                                                                                                                        {'loss': 1.3783, 'grad_norm': 0.4489584267139435, 'learning_rate': 4.7657694675916247e-07, 'beta_dpo/gap_mean': 10.489069938659668, 'beta_dpo/gap_std': 14.97435188293457, 'beta_dpo/beta_used_raw': -0.04272199422121048, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.3847413063049316, 'logits/rejected': -1.009522557258606, 'epoch': 0.23}
 23%|█████████████████████████▋                                                                                       | 155/681 [08:15<25:44,  2.94s/it] 23%|█████████████████████████▉                                                                                       | 156/681 [08:18<25:48,  2.95s/it]                                                                                                                                                        {'loss': 1.3807, 'grad_norm': 0.4157707393169403, 'learning_rate': 4.7603160505017893e-07, 'beta_dpo/gap_mean': 10.080753326416016, 'beta_dpo/gap_std': 15.23552417755127, 'beta_dpo/beta_used_raw': -0.18804168701171875, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.9495174884796143, 'logits/rejected': -1.3704191446304321, 'epoch': 0.23}
 23%|█████████████████████████▉                                                                                       | 156/681 [08:18<25:48,  2.95s/it] 23%|██████████████████████████                                                                                       | 157/681 [08:20<24:50,  2.85s/it]                                                                                                                                                        {'loss': 0.4983, 'grad_norm': 45.34365463256836, 'learning_rate': 4.7548030719819154e-07, 'beta_dpo/gap_mean': 10.294825553894043, 'beta_dpo/gap_std': 14.933460235595703, 'beta_dpo/beta_used_raw': 0.23349730670452118, 'beta_dpo/beta_used': 0.23349730670452118, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.053683042526245, 'logits/rejected': -1.90477454662323, 'epoch': 0.23}
 23%|██████████████████████████                                                                                       | 157/681 [08:20<24:50,  2.85s/it] 23%|██████████████████████████▏                                                                                      | 158/681 [08:23<25:12,  2.89s/it]                                                                                                                                                        {'loss': 0.5737, 'grad_norm': 62.011653900146484, 'learning_rate': 4.7492306773041136e-07, 'beta_dpo/gap_mean': 10.810285568237305, 'beta_dpo/gap_std': 15.137372970581055, 'beta_dpo/beta_used_raw': 0.19772231578826904, 'beta_dpo/beta_used': 0.19772231578826904, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6941977739334106, 'logits/rejected': -1.2474297285079956, 'epoch': 0.23}
 23%|██████████████████████████▏                                                                                      | 158/681 [08:23<25:12,  2.89s/it] 23%|██████████████████████████▍                                                                                      | 159/681 [08:26<25:32,  2.94s/it]                                                                                                                                                        {'loss': 1.0856, 'grad_norm': 14.630475044250488, 'learning_rate': 4.743599013306165e-07, 'beta_dpo/gap_mean': 11.02712631225586, 'beta_dpo/gap_std': 15.286413192749023, 'beta_dpo/beta_used_raw': 0.04134593904018402, 'beta_dpo/beta_used': 0.04134593904018402, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7188162803649902, 'logits/rejected': -0.42425087094306946, 'epoch': 0.23}
 23%|██████████████████████████▍                                                                                      | 159/681 [08:26<25:32,  2.94s/it] 23%|██████████████████████████▌                                                                                      | 160/681 [08:29<25:19,  2.92s/it]                                                                                                                                                        {'loss': 0.8484, 'grad_norm': 41.04716491699219, 'learning_rate': 4.737908228387656e-07, 'beta_dpo/gap_mean': 11.070915222167969, 'beta_dpo/gap_std': 14.914669036865234, 'beta_dpo/beta_used_raw': 0.14309489727020264, 'beta_dpo/beta_used': 0.14309489727020264, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -1.9082109928131104, 'logits/rejected': -1.252223253250122, 'epoch': 0.23}
 23%|██████████████████████████▌                                                                                      | 160/681 [08:29<25:19,  2.92s/it] 24%|██████████████████████████▋                                                                                      | 161/681 [08:32<24:59,  2.88s/it]                                                                                                                                                        {'loss': 1.2307, 'grad_norm': 9.691744804382324, 'learning_rate': 4.7321584725060594e-07, 'beta_dpo/gap_mean': 10.881231307983398, 'beta_dpo/gap_std': 14.884664535522461, 'beta_dpo/beta_used_raw': 0.01886550523340702, 'beta_dpo/beta_used': 0.01924612559378147, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.6370534896850586, 'logits/rejected': -0.8996493816375732, 'epoch': 0.24}
 24%|██████████████████████████▋                                                                                      | 161/681 [08:32<24:59,  2.88s/it] 24%|██████████████████████████▉                                                                                      | 162/681 [08:35<25:34,  2.96s/it]                                                                                                                                                        {'loss': 1.2619, 'grad_norm': 8.438042640686035, 'learning_rate': 4.7263498971727905e-07, 'beta_dpo/gap_mean': 10.78388786315918, 'beta_dpo/gap_std': 14.657320022583008, 'beta_dpo/beta_used_raw': -0.013937926851212978, 'beta_dpo/beta_used': 0.014870250597596169, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.6985443830490112, 'logits/rejected': -0.7340394854545593, 'epoch': 0.24}
 24%|██████████████████████████▉                                                                                      | 162/681 [08:35<25:34,  2.96s/it] 24%|███████████████████████████                                                                                      | 163/681 [08:38<25:19,  2.93s/it]                                                                                                                                                        {'loss': 0.966, 'grad_norm': 23.195219039916992, 'learning_rate': 4.720482655449212e-07, 'beta_dpo/gap_mean': 11.073570251464844, 'beta_dpo/gap_std': 14.936013221740723, 'beta_dpo/beta_used_raw': 0.09499046206474304, 'beta_dpo/beta_used': 0.09499046206474304, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.755723476409912, 'logits/rejected': -1.3146591186523438, 'epoch': 0.24}
 24%|███████████████████████████                                                                                      | 163/681 [08:38<25:19,  2.93s/it] 24%|███████████████████████████▏                                                                                     | 164/681 [08:41<25:01,  2.90s/it]                                                                                                                                                        {'loss': 1.1191, 'grad_norm': 25.961963653564453, 'learning_rate': 4.714556901942599e-07, 'beta_dpo/gap_mean': 10.88538932800293, 'beta_dpo/gap_std': 14.663843154907227, 'beta_dpo/beta_used_raw': -0.054905518889427185, 'beta_dpo/beta_used': 0.048484496772289276, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.142005443572998, 'logits/rejected': -0.8273177146911621, 'epoch': 0.24}
 24%|███████████████████████████▏                                                                                     | 164/681 [08:41<25:01,  2.90s/it] 24%|███████████████████████████▍                                                                                     | 165/681 [08:44<24:52,  2.89s/it]                                                                                                                                                        {'loss': 1.0417, 'grad_norm': 21.01889419555664, 'learning_rate': 4.708572792802069e-07, 'beta_dpo/gap_mean': 10.835360527038574, 'beta_dpo/gap_std': 14.838174819946289, 'beta_dpo/beta_used_raw': 0.05095431208610535, 'beta_dpo/beta_used': 0.061039723455905914, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.440589427947998, 'logits/rejected': -0.6986174583435059, 'epoch': 0.24}
 24%|███████████████████████████▍                                                                                     | 165/681 [08:44<24:52,  2.89s/it] 24%|███████████████████████████▌                                                                                     | 166/681 [08:46<24:10,  2.82s/it]                                                                                                                                                        {'loss': 1.0621, 'grad_norm': 21.198007583618164, 'learning_rate': 4.702530485714461e-07, 'beta_dpo/gap_mean': 11.252758979797363, 'beta_dpo/gap_std': 15.27828311920166, 'beta_dpo/beta_used_raw': 0.04411781206727028, 'beta_dpo/beta_used': 0.04411781206727028, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.4728612899780273, 'logits/rejected': -2.3846404552459717, 'epoch': 0.24}
 24%|███████████████████████████▌                                                                                     | 166/681 [08:46<24:10,  2.82s/it] 25%|███████████████████████████▋                                                                                     | 167/681 [08:49<24:30,  2.86s/it]                                                                                                                                                        {'loss': 0.959, 'grad_norm': 15.156601905822754, 'learning_rate': 4.6964301399001877e-07, 'beta_dpo/gap_mean': 11.877561569213867, 'beta_dpo/gap_std': 15.251140594482422, 'beta_dpo/beta_used_raw': 0.04923243448138237, 'beta_dpo/beta_used': 0.06072790175676346, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.06632952392101288, 'logits/rejected': 0.2907092869281769, 'epoch': 0.25}
 25%|███████████████████████████▋                                                                                     | 167/681 [08:49<24:30,  2.86s/it] 25%|███████████████████████████▉                                                                                     | 168/681 [08:52<24:55,  2.91s/it]                                                                                                                                                        {'loss': 1.3762, 'grad_norm': 0.5311835408210754, 'learning_rate': 4.690271916109034e-07, 'beta_dpo/gap_mean': 11.734265327453613, 'beta_dpo/gap_std': 14.756448745727539, 'beta_dpo/beta_used_raw': -0.01268717646598816, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.7944483757019043, 'logits/rejected': -2.1463072299957275, 'epoch': 0.25}
 25%|███████████████████████████▉                                                                                     | 168/681 [08:52<24:55,  2.91s/it] 25%|████████████████████████████                                                                                     | 169/681 [08:55<25:39,  3.01s/it]                                                                                                                                                        {'loss': 1.1529, 'grad_norm': 10.78883171081543, 'learning_rate': 4.6840559766159235e-07, 'beta_dpo/gap_mean': 11.941884994506836, 'beta_dpo/gap_std': 14.766561508178711, 'beta_dpo/beta_used_raw': -0.016583973541855812, 'beta_dpo/beta_used': 0.027791917324066162, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.4098339080810547, 'logits/rejected': -2.322842597961426, 'epoch': 0.25}
 25%|████████████████████████████                                                                                     | 169/681 [08:55<25:39,  3.01s/it] 25%|████████████████████████████▏                                                                                    | 170/681 [08:58<25:31,  3.00s/it]                                                                                                                                                        {'loss': 0.8473, 'grad_norm': 32.531742095947266, 'learning_rate': 4.6777824852166437e-07, 'beta_dpo/gap_mean': 11.933835983276367, 'beta_dpo/gap_std': 14.100811958312988, 'beta_dpo/beta_used_raw': 0.09154824912548065, 'beta_dpo/beta_used': 0.12186012417078018, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.3292378187179565, 'logits/rejected': -1.3104033470153809, 'epoch': 0.25}
 25%|████████████████████████████▏                                                                                    | 170/681 [08:58<25:31,  3.00s/it] 25%|████████████████████████████▎                                                                                    | 171/681 [09:01<24:33,  2.89s/it]                                                                                                                                                        {'loss': 1.3774, 'grad_norm': 0.4719236493110657, 'learning_rate': 4.6714516072235273e-07, 'beta_dpo/gap_mean': 11.822772979736328, 'beta_dpo/gap_std': 14.968297958374023, 'beta_dpo/beta_used_raw': -0.05536588281393051, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.689007520675659, 'logits/rejected': -2.0470364093780518, 'epoch': 0.25}
 25%|████████████████████████████▎                                                                                    | 171/681 [09:01<24:33,  2.89s/it] 25%|████████████████████████████▌                                                                                    | 172/681 [09:04<24:05,  2.84s/it]                                                                                                                                                        {'loss': 1.0913, 'grad_norm': 17.803831100463867, 'learning_rate': 4.6650635094610966e-07, 'beta_dpo/gap_mean': 11.722180366516113, 'beta_dpo/gap_std': 14.616718292236328, 'beta_dpo/beta_used_raw': 0.0349096953868866, 'beta_dpo/beta_used': 0.0349096953868866, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0337367057800293, 'logits/rejected': -0.6409567594528198, 'epoch': 0.25}
 25%|████████████████████████████▌                                                                                    | 172/681 [09:04<24:05,  2.84s/it] 25%|████████████████████████████▋                                                                                    | 173/681 [09:07<23:54,  2.82s/it]                                                                                                                                                        {'loss': 1.1894, 'grad_norm': 10.361151695251465, 'learning_rate': 4.6586183602616687e-07, 'beta_dpo/gap_mean': 11.226985931396484, 'beta_dpo/gap_std': 14.002543449401855, 'beta_dpo/beta_used_raw': -0.06849551200866699, 'beta_dpo/beta_used': 0.025228869169950485, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.6432037353515625, 'logits/rejected': -1.187882661819458, 'epoch': 0.25}
 25%|████████████████████████████▋                                                                                    | 173/681 [09:07<23:54,  2.82s/it] 26%|████████████████████████████▊                                                                                    | 174/681 [09:09<23:59,  2.84s/it]                                                                                                                                                        {'loss': 0.7887, 'grad_norm': 42.93434524536133, 'learning_rate': 4.652116329460919e-07, 'beta_dpo/gap_mean': 11.388176918029785, 'beta_dpo/gap_std': 14.080391883850098, 'beta_dpo/beta_used_raw': 0.12070997804403305, 'beta_dpo/beta_used': 0.12070997804403305, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.564131498336792, 'logits/rejected': -1.1296707391738892, 'epoch': 0.26}
 26%|████████████████████████████▊                                                                                    | 174/681 [09:09<23:59,  2.84s/it] 26%|█████████████████████████████                                                                                    | 175/681 [09:12<24:20,  2.89s/it]                                                                                                                                                        {'loss': 0.5825, 'grad_norm': 50.55311584472656, 'learning_rate': 4.645557588393406e-07, 'beta_dpo/gap_mean': 11.710367202758789, 'beta_dpo/gap_std': 13.957894325256348, 'beta_dpo/beta_used_raw': 0.15403205156326294, 'beta_dpo/beta_used': 0.15403205156326294, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.962306022644043, 'logits/rejected': -0.5951389074325562, 'epoch': 0.26}
 26%|█████████████████████████████                                                                                    | 175/681 [09:12<24:20,  2.89s/it] 26%|█████████████████████████████▏                                                                                   | 176/681 [09:15<23:48,  2.83s/it]                                                                                                                                                        {'loss': 0.6294, 'grad_norm': 31.742752075195312, 'learning_rate': 4.638942309888058e-07, 'beta_dpo/gap_mean': 12.05875015258789, 'beta_dpo/gap_std': 14.242860794067383, 'beta_dpo/beta_used_raw': 0.15750160813331604, 'beta_dpo/beta_used': 0.15750160813331604, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.5246734619140625, 'logits/rejected': -0.361318975687027, 'epoch': 0.26}
 26%|█████████████████████████████▏                                                                                   | 176/681 [09:15<23:48,  2.83s/it] 26%|█████████████████████████████▎                                                                                   | 177/681 [09:18<24:17,  2.89s/it]                                                                                                                                                        {'loss': 1.0297, 'grad_norm': 13.71200180053711, 'learning_rate': 4.6322706682636137e-07, 'beta_dpo/gap_mean': 12.447943687438965, 'beta_dpo/gap_std': 14.704492568969727, 'beta_dpo/beta_used_raw': 0.03919539228081703, 'beta_dpo/beta_used': 0.03919539228081703, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.8452959060668945, 'logits/rejected': -1.9624505043029785, 'epoch': 0.26}
 26%|█████████████████████████████▎                                                                                   | 177/681 [09:18<24:17,  2.89s/it] 26%|█████████████████████████████▌                                                                                   | 178/681 [09:21<24:02,  2.87s/it]                                                                                                                                                        {'loss': 0.6043, 'grad_norm': 19.883230209350586, 'learning_rate': 4.6255428393240354e-07, 'beta_dpo/gap_mean': 13.48470687866211, 'beta_dpo/gap_std': 15.340696334838867, 'beta_dpo/beta_used_raw': 0.14656506478786469, 'beta_dpo/beta_used': 0.14656506478786469, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.0550949573516846, 'logits/rejected': -1.1299716234207153, 'epoch': 0.26}
 26%|█████████████████████████████▌                                                                                   | 178/681 [09:21<24:02,  2.87s/it] 26%|█████████████████████████████▋                                                                                   | 179/681 [09:24<24:31,  2.93s/it]                                                                                                                                                        {'loss': 1.0268, 'grad_norm': 28.019865036010742, 'learning_rate': 4.6187590003538724e-07, 'beta_dpo/gap_mean': 13.46491813659668, 'beta_dpo/gap_std': 15.624149322509766, 'beta_dpo/beta_used_raw': 0.004587773233652115, 'beta_dpo/beta_used': 0.06533389538526535, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.2954455614089966, 'logits/rejected': -1.0482146739959717, 'epoch': 0.26}
 26%|█████████████████████████████▋                                                                                   | 179/681 [09:24<24:31,  2.93s/it] 26%|█████████████████████████████▊                                                                                   | 180/681 [09:27<23:55,  2.86s/it]                                                                                                                                                        {'loss': 0.9187, 'grad_norm': 25.957172393798828, 'learning_rate': 4.611919330113591e-07, 'beta_dpo/gap_mean': 13.542264938354492, 'beta_dpo/gap_std': 15.617108345031738, 'beta_dpo/beta_used_raw': 0.06445710361003876, 'beta_dpo/beta_used': 0.09482339769601822, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.9469971656799316, 'logits/rejected': -1.342593789100647, 'epoch': 0.26}
 26%|█████████████████████████████▊                                                                                   | 180/681 [09:27<23:55,  2.86s/it] 27%|██████████████████████████████                                                                                   | 181/681 [09:30<24:05,  2.89s/it]                                                                                                                                                        {'loss': 1.3772, 'grad_norm': 0.4522143304347992, 'learning_rate': 4.605024008834863e-07, 'beta_dpo/gap_mean': 13.057550430297852, 'beta_dpo/gap_std': 15.115577697753906, 'beta_dpo/beta_used_raw': -0.16363635659217834, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.1184544563293457, 'logits/rejected': -0.9509117603302002, 'epoch': 0.27}
 27%|██████████████████████████████                                                                                   | 181/681 [09:30<24:05,  2.89s/it] 27%|██████████████████████████████▏                                                                                  | 182/681 [09:33<23:54,  2.87s/it]                                                                                                                                                        {'loss': 0.9268, 'grad_norm': 18.858734130859375, 'learning_rate': 4.598073218215817e-07, 'beta_dpo/gap_mean': 13.242197036743164, 'beta_dpo/gap_std': 15.207517623901367, 'beta_dpo/beta_used_raw': -0.025189578533172607, 'beta_dpo/beta_used': 0.06607332825660706, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.5637632608413696, 'logits/rejected': -0.6395530104637146, 'epoch': 0.27}
 27%|██████████████████████████████▏                                                                                  | 182/681 [09:33<23:54,  2.87s/it] 27%|██████████████████████████████▎                                                                                  | 183/681 [09:35<23:38,  2.85s/it]                                                                                                                                                        {'loss': 1.0227, 'grad_norm': 15.126312255859375, 'learning_rate': 4.5910671414162484e-07, 'beta_dpo/gap_mean': 13.31583309173584, 'beta_dpo/gap_std': 15.089471817016602, 'beta_dpo/beta_used_raw': 0.001886218786239624, 'beta_dpo/beta_used': 0.04271284118294716, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3318713903427124, 'logits/rejected': -0.7215397357940674, 'epoch': 0.27}
 27%|██████████████████████████████▎                                                                                  | 183/681 [09:35<23:38,  2.85s/it] 27%|██████████████████████████████▌                                                                                  | 184/681 [09:38<23:40,  2.86s/it]                                                                                                                                                        {'loss': 1.3769, 'grad_norm': 0.4771396219730377, 'learning_rate': 4.5840059630527985e-07, 'beta_dpo/gap_mean': 12.548648834228516, 'beta_dpo/gap_std': 15.1453218460083, 'beta_dpo/beta_used_raw': -0.10297068953514099, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.202876329421997, 'logits/rejected': -1.0334120988845825, 'epoch': 0.27}
 27%|██████████████████████████████▌                                                                                  | 184/681 [09:38<23:40,  2.86s/it] 27%|██████████████████████████████▋                                                                                  | 185/681 [09:41<23:48,  2.88s/it]                                                                                                                                                        {'loss': 1.172, 'grad_norm': 12.845839500427246, 'learning_rate': 4.5768898691940836e-07, 'beta_dpo/gap_mean': 11.986303329467773, 'beta_dpo/gap_std': 15.116844177246094, 'beta_dpo/beta_used_raw': -0.03311272710561752, 'beta_dpo/beta_used': 0.02503103017807007, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.604547142982483, 'logits/rejected': -1.0696234703063965, 'epoch': 0.27}
 27%|██████████████████████████████▋                                                                                  | 185/681 [09:41<23:48,  2.88s/it] 27%|██████████████████████████████▊                                                                                  | 186/681 [09:44<23:36,  2.86s/it]                                                                                                                                                        {'loss': 1.1006, 'grad_norm': 37.95589828491211, 'learning_rate': 4.5697190473557947e-07, 'beta_dpo/gap_mean': 12.084492683410645, 'beta_dpo/gap_std': 15.036298751831055, 'beta_dpo/beta_used_raw': 0.037874944508075714, 'beta_dpo/beta_used': 0.07039283961057663, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.762836217880249, 'logits/rejected': -0.9561566710472107, 'epoch': 0.27}
 27%|██████████████████████████████▊                                                                                  | 186/681 [09:44<23:36,  2.86s/it] 27%|███████████████████████████████                                                                                  | 187/681 [09:47<22:53,  2.78s/it]                                                                                                                                                        {'loss': 1.0635, 'grad_norm': 17.699548721313477, 'learning_rate': 4.5624936864957555e-07, 'beta_dpo/gap_mean': 11.821205139160156, 'beta_dpo/gap_std': 14.921106338500977, 'beta_dpo/beta_used_raw': 0.01781865581870079, 'beta_dpo/beta_used': 0.050373200327157974, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5083730220794678, 'logits/rejected': -1.079012155532837, 'epoch': 0.27}
 27%|███████████████████████████████                                                                                  | 187/681 [09:47<22:53,  2.78s/it] 28%|███████████████████████████████▏                                                                                 | 188/681 [09:49<23:05,  2.81s/it]                                                                                                                                                        {'loss': 0.3456, 'grad_norm': 35.80200958251953, 'learning_rate': 4.5552139770089454e-07, 'beta_dpo/gap_mean': 12.162216186523438, 'beta_dpo/gap_std': 14.689672470092773, 'beta_dpo/beta_used_raw': 0.22188173234462738, 'beta_dpo/beta_used': 0.22188173234462738, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5861679315567017, 'logits/rejected': -1.3824684619903564, 'epoch': 0.28}
 28%|███████████████████████████████▏                                                                                 | 188/681 [09:49<23:05,  2.81s/it] 28%|███████████████████████████████▎                                                                                 | 189/681 [09:52<22:47,  2.78s/it]                                                                                                                                                        {'loss': 1.3771, 'grad_norm': 0.4252919554710388, 'learning_rate': 4.5478801107224794e-07, 'beta_dpo/gap_mean': 12.102740287780762, 'beta_dpo/gap_std': 15.12980842590332, 'beta_dpo/beta_used_raw': -0.07328170537948608, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6726609468460083, 'logits/rejected': -0.8588078618049622, 'epoch': 0.28}
 28%|███████████████████████████████▎                                                                                 | 189/681 [09:52<22:47,  2.78s/it] 28%|███████████████████████████████▌                                                                                 | 190/681 [09:55<22:10,  2.71s/it]                                                                                                                                                        {'loss': 0.6217, 'grad_norm': 32.254600524902344, 'learning_rate': 4.5404922808905543e-07, 'beta_dpo/gap_mean': 12.775008201599121, 'beta_dpo/gap_std': 15.181267738342285, 'beta_dpo/beta_used_raw': 0.12008103728294373, 'beta_dpo/beta_used': 0.12008103728294373, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.151025652885437, 'logits/rejected': -0.609367847442627, 'epoch': 0.28}
 28%|███████████████████████████████▌                                                                                 | 190/681 [09:55<22:10,  2.71s/it] 28%|███████████████████████████████▋                                                                                 | 191/681 [09:58<23:22,  2.86s/it]                                                                                                                                                        {'loss': 0.5277, 'grad_norm': 33.18883514404297, 'learning_rate': 4.5330506821893565e-07, 'beta_dpo/gap_mean': 13.542198181152344, 'beta_dpo/gap_std': 15.320116996765137, 'beta_dpo/beta_used_raw': 0.18861740827560425, 'beta_dpo/beta_used': 0.18861740827560425, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.625694751739502, 'logits/rejected': -1.439784049987793, 'epoch': 0.28}
 28%|███████████████████████████████▋                                                                                 | 191/681 [09:58<23:22,  2.86s/it] 28%|███████████████████████████████▊                                                                                 | 192/681 [10:01<23:32,  2.89s/it]                                                                                                                                                        {'loss': 1.3751, 'grad_norm': 0.5424801111221313, 'learning_rate': 4.5255555107119336e-07, 'beta_dpo/gap_mean': 13.56833267211914, 'beta_dpo/gap_std': 15.42152214050293, 'beta_dpo/beta_used_raw': -0.043134208768606186, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.8365378379821777, 'logits/rejected': -0.426064670085907, 'epoch': 0.28}
 28%|███████████████████████████████▊                                                                                 | 192/681 [10:01<23:32,  2.89s/it] 28%|████████████████████████████████                                                                                 | 193/681 [10:04<23:02,  2.83s/it]                                                                                                                                                        {'loss': 1.3764, 'grad_norm': 0.45949697494506836, 'learning_rate': 4.5180069639630236e-07, 'beta_dpo/gap_mean': 12.877976417541504, 'beta_dpo/gap_std': 15.427734375, 'beta_dpo/beta_used_raw': -0.07547399401664734, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.4489470720291138, 'logits/rejected': -0.35072940587997437, 'epoch': 0.28}
 28%|████████████████████████████████                                                                                 | 193/681 [10:04<23:02,  2.83s/it] 28%|████████████████████████████████▏                                                                                | 194/681 [10:06<22:23,  2.76s/it]                                                                                                                                                        {'loss': 1.0808, 'grad_norm': 14.401615142822266, 'learning_rate': 4.510405240853854e-07, 'beta_dpo/gap_mean': 12.606361389160156, 'beta_dpo/gap_std': 15.135665893554688, 'beta_dpo/beta_used_raw': 0.022517003118991852, 'beta_dpo/beta_used': 0.04862586036324501, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -2.855362892150879, 'logits/rejected': -2.187931776046753, 'epoch': 0.28}
 28%|████████████████████████████████▏                                                                                | 194/681 [10:06<22:23,  2.76s/it] 29%|████████████████████████████████▎                                                                                | 195/681 [10:09<22:49,  2.82s/it]                                                                                                                                                        {'loss': 0.6216, 'grad_norm': 33.854034423828125, 'learning_rate': 4.5027505416968985e-07, 'beta_dpo/gap_mean': 12.886514663696289, 'beta_dpo/gap_std': 15.310539245605469, 'beta_dpo/beta_used_raw': 0.15549784898757935, 'beta_dpo/beta_used': 0.15549784898757935, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4690104722976685, 'logits/rejected': -1.1913936138153076, 'epoch': 0.29}
 29%|████████████████████████████████▎                                                                                | 195/681 [10:09<22:49,  2.82s/it] 29%|████████████████████████████████▌                                                                                | 196/681 [10:12<23:00,  2.85s/it]                                                                                                                                                        {'loss': 0.7612, 'grad_norm': 21.24295997619629, 'learning_rate': 4.495043068200599e-07, 'beta_dpo/gap_mean': 13.215679168701172, 'beta_dpo/gap_std': 15.15478515625, 'beta_dpo/beta_used_raw': 0.09694637358188629, 'beta_dpo/beta_used': 0.09694637358188629, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.30434098839759827, 'logits/rejected': -0.16999830305576324, 'epoch': 0.29}
 29%|████████████████████████████████▌                                                                                | 196/681 [10:12<23:00,  2.85s/it] 29%|████████████████████████████████▋                                                                                | 197/681 [10:15<23:02,  2.86s/it]                                                                                                                                                        {'loss': 1.3783, 'grad_norm': 0.4905308485031128, 'learning_rate': 4.4872830234640493e-07, 'beta_dpo/gap_mean': 12.623498916625977, 'beta_dpo/gap_std': 14.628103256225586, 'beta_dpo/beta_used_raw': -0.15686266124248505, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.6161783933639526, 'logits/rejected': -0.6048535704612732, 'epoch': 0.29}
 29%|████████████████████████████████▋                                                                                | 197/681 [10:15<23:02,  2.86s/it] 29%|████████████████████████████████▊                                                                                | 198/681 [10:18<22:55,  2.85s/it]                                                                                                                                                        {'loss': 0.5797, 'grad_norm': 34.72080993652344, 'learning_rate': 4.479470611971645e-07, 'beta_dpo/gap_mean': 12.599102973937988, 'beta_dpo/gap_std': 14.41894817352295, 'beta_dpo/beta_used_raw': 0.15224260091781616, 'beta_dpo/beta_used': 0.15224260091781616, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3998963832855225, 'logits/rejected': -1.5008985996246338, 'epoch': 0.29}
 29%|████████████████████████████████▊                                                                                | 198/681 [10:18<22:55,  2.85s/it] 29%|█████████████████████████████████                                                                                | 199/681 [10:21<23:22,  2.91s/it]                                                                                                                                                        {'loss': 1.11, 'grad_norm': 13.862502098083496, 'learning_rate': 4.471606039587695e-07, 'beta_dpo/gap_mean': 12.675536155700684, 'beta_dpo/gap_std': 14.37156867980957, 'beta_dpo/beta_used_raw': -0.010611668229103088, 'beta_dpo/beta_used': 0.034465912729501724, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.6405764818191528, 'logits/rejected': -0.7938838005065918, 'epoch': 0.29}
 29%|█████████████████████████████████                                                                                | 199/681 [10:21<23:22,  2.91s/it] 29%|█████████████████████████████████▏                                                                               | 200/681 [10:24<23:37,  2.95s/it]                                                                                                                                                        {'loss': 0.313, 'grad_norm': 83.0425796508789, 'learning_rate': 4.4636895135509966e-07, 'beta_dpo/gap_mean': 13.030755043029785, 'beta_dpo/gap_std': 14.559476852416992, 'beta_dpo/beta_used_raw': 0.3353341221809387, 'beta_dpo/beta_used': 0.3353341221809387, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.21876315772533417, 'logits/rejected': -0.3272482454776764, 'epoch': 0.29}
 29%|█████████████████████████████████▏                                                                               | 200/681 [10:24<23:37,  2.95s/it][INFO|trainer.py:4307] 2026-04-24 02:02:12,217 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 02:02:12,217 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 02:02:12,217 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:21,  3.30it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:29,  2.36it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:33,  2.06it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:35,  1.93it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.82it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:35,  1.88it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:04<00:37,  1.75it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:37,  1.70it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.67it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:36,  1.68it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:37,  1.65it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:35,  1.68it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.65it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:34,  1.66it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.61it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.59it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:34,  1.57it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:11<00:34,  1.56it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:34,  1.54it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:33,  1.54it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:12<00:33,  1.53it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:32,  1.56it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.57it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.59it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:29,  1.59it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.76it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.72it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.73it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:24,  1.75it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.68it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:23,  1.71it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.74it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:20<00:22,  1.70it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:23,  1.64it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:22,  1.64it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.63it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:20,  1.72it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:20,  1.64it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.66it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.72it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:18,  1.67it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:17,  1.69it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.67it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.61it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.68it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.65it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.64it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.62it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:14,  1.64it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.62it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:31<00:13,  1.58it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:12,  1.56it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.66it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.64it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.68it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:09,  1.62it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.69it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:08,  1.67it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:07,  1.65it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.64it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:37<00:06,  1.66it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.75it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:38<00:05,  1.77it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.74it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:04,  1.68it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.71it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.67it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:41<00:02,  1.63it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.62it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.63it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:43<00:00,  1.63it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.6345767974853516, 'eval_runtime': 44.0978, 'eval_samples_per_second': 53.041, 'eval_steps_per_second': 1.678, 'eval_beta_dpo/gap_mean': 12.980899810791016, 'eval_beta_dpo/gap_std': 14.598077774047852, 'eval_beta_dpo/beta_used_raw': -0.09986051917076111, 'eval_beta_dpo/beta_used': 0.022861473262310028, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -1.1707913875579834, 'eval_logits/rejected': -0.8922103643417358, 'epoch': 0.29}
 29%|█████████████████████████████████▏                                                                               | 200/681 [11:08<23:37,  2.95s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s][A
                                                                                                                                                        [A[INFO|trainer.py:3984] 2026-04-24 02:03:10,547 >> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200
[INFO|configuration_utils.py:419] 2026-04-24 02:03:10,552 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200/config.json
[INFO|configuration_utils.py:911] 2026-04-24 02:03:10,555 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-24 02:03:49,896 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-24 02:03:49,899 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-24 02:03:49,901 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200/special_tokens_map.json
 30%|████████████████████████████████▍                                                                             | 201/681 [14:55<11:06:44, 83.34s/it]                                                                                                                                                        {'loss': 1.0486, 'grad_norm': 16.888778686523438, 'learning_rate': 4.455721242469372e-07, 'beta_dpo/gap_mean': 12.999302864074707, 'beta_dpo/gap_std': 14.945844650268555, 'beta_dpo/beta_used_raw': 0.03660256415605545, 'beta_dpo/beta_used': 0.04337719827890396, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.4362549781799316, 'logits/rejected': -0.8436669707298279, 'epoch': 0.3}
 30%|████████████████████████████████▍                                                                             | 201/681 [14:55<11:06:44, 83.34s/it] 30%|████████████████████████████████▉                                                                              | 202/681 [14:58<7:52:46, 59.22s/it]                                                                                                                                                        {'loss': 1.3289, 'grad_norm': 2.7122955322265625, 'learning_rate': 4.4477014363141755e-07, 'beta_dpo/gap_mean': 12.948795318603516, 'beta_dpo/gap_std': 15.3850679397583, 'beta_dpo/beta_used_raw': -0.022527314722537994, 'beta_dpo/beta_used': 0.005111072212457657, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2722792625427246, 'logits/rejected': -1.0189919471740723, 'epoch': 0.3}
 30%|████████████████████████████████▉                                                                              | 202/681 [14:58<7:52:46, 59.22s/it] 30%|█████████████████████████████████                                                                              | 203/681 [15:01<5:37:37, 42.38s/it]                                                                                                                                                        {'loss': 0.8579, 'grad_norm': 56.114437103271484, 'learning_rate': 4.439630306414758e-07, 'beta_dpo/gap_mean': 13.006298065185547, 'beta_dpo/gap_std': 15.015997886657715, 'beta_dpo/beta_used_raw': 0.12862522900104523, 'beta_dpo/beta_used': 0.12862522900104523, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -1.3585411310195923, 'logits/rejected': -1.1620537042617798, 'epoch': 0.3}
 30%|█████████████████████████████████                                                                              | 203/681 [15:01<5:37:37, 42.38s/it] 30%|█████████████████████████████████▎                                                                             | 204/681 [15:04<4:03:10, 30.59s/it]                                                                                                                                                        {'loss': 0.8967, 'grad_norm': 21.43082618713379, 'learning_rate': 4.431508065452897e-07, 'beta_dpo/gap_mean': 12.737507820129395, 'beta_dpo/gap_std': 15.283018112182617, 'beta_dpo/beta_used_raw': 0.054740045219659805, 'beta_dpo/beta_used': 0.0850096344947815, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5987844467163086, 'logits/rejected': -1.1546014547348022, 'epoch': 0.3}
 30%|█████████████████████████████████▎                                                                             | 204/681 [15:04<4:03:10, 30.59s/it] 30%|█████████████████████████████████▍                                                                             | 205/681 [15:07<2:56:42, 22.27s/it]                                                                                                                                                        {'loss': 0.6706, 'grad_norm': 23.453872680664062, 'learning_rate': 4.4233349274571974e-07, 'beta_dpo/gap_mean': 13.173287391662598, 'beta_dpo/gap_std': 14.941397666931152, 'beta_dpo/beta_used_raw': 0.0995965451002121, 'beta_dpo/beta_used': 0.0995965451002121, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.287585973739624, 'logits/rejected': -0.8196157217025757, 'epoch': 0.3}
 30%|█████████████████████████████████▍                                                                             | 205/681 [15:07<2:56:42, 22.27s/it] 30%|█████████████████████████████████▌                                                                             | 206/681 [15:09<2:09:59, 16.42s/it]                                                                                                                                                        {'loss': 0.4603, 'grad_norm': 31.56971549987793, 'learning_rate': 4.415111107797445e-07, 'beta_dpo/gap_mean': 13.55710220336914, 'beta_dpo/gap_std': 14.449283599853516, 'beta_dpo/beta_used_raw': 0.13683286309242249, 'beta_dpo/beta_used': 0.13683286309242249, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.7237926125526428, 'logits/rejected': -0.35238227248191833, 'epoch': 0.3}
 30%|█████████████████████████████████▌                                                                             | 206/681 [15:10<2:09:59, 16.42s/it] 30%|█████████████████████████████████▋                                                                             | 207/681 [15:12<1:37:42, 12.37s/it]                                                                                                                                                        {'loss': 1.1526, 'grad_norm': 15.121429443359375, 'learning_rate': 4.4068368231789365e-07, 'beta_dpo/gap_mean': 13.621185302734375, 'beta_dpo/gap_std': 15.09548568725586, 'beta_dpo/beta_used_raw': -0.027833428233861923, 'beta_dpo/beta_used': 0.030014729127287865, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.298497438430786, 'logits/rejected': -1.8928518295288086, 'epoch': 0.3}
 30%|█████████████████████████████████▋                                                                             | 207/681 [15:12<1:37:42, 12.37s/it] 31%|█████████████████████████████████▉                                                                             | 208/681 [15:15<1:15:09,  9.53s/it]                                                                                                                                                        {'loss': 0.4405, 'grad_norm': 34.89619445800781, 'learning_rate': 4.398512291636768e-07, 'beta_dpo/gap_mean': 13.768835067749023, 'beta_dpo/gap_std': 15.279106140136719, 'beta_dpo/beta_used_raw': 0.15946441888809204, 'beta_dpo/beta_used': 0.15946441888809204, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5797189474105835, 'logits/rejected': -1.104495644569397, 'epoch': 0.31}
 31%|█████████████████████████████████▉                                                                             | 208/681 [15:15<1:15:09,  9.53s/it] 31%|██████████████████████████████████▋                                                                              | 209/681 [15:18<58:48,  7.47s/it]                                                                                                                                                        {'loss': 1.1714, 'grad_norm': 10.798962593078613, 'learning_rate': 4.3901377325300857e-07, 'beta_dpo/gap_mean': 13.984394073486328, 'beta_dpo/gap_std': 15.439398765563965, 'beta_dpo/beta_used_raw': -0.026145994663238525, 'beta_dpo/beta_used': 0.02266796864569187, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2947354316711426, 'logits/rejected': -1.006791353225708, 'epoch': 0.31}
 31%|██████████████████████████████████▋                                                                              | 209/681 [15:18<58:48,  7.47s/it] 31%|██████████████████████████████████▊                                                                              | 210/681 [15:21<47:31,  6.05s/it]                                                                                                                                                        {'loss': 1.0328, 'grad_norm': 16.52035140991211, 'learning_rate': 4.381713366536311e-07, 'beta_dpo/gap_mean': 13.823338508605957, 'beta_dpo/gap_std': 15.4095458984375, 'beta_dpo/beta_used_raw': 0.04278234392404556, 'beta_dpo/beta_used': 0.04331028088927269, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.9326417446136475, 'logits/rejected': -1.2985832691192627, 'epoch': 0.31}
 31%|██████████████████████████████████▊                                                                              | 210/681 [15:21<47:31,  6.05s/it] 31%|███████████████████████████████████                                                                              | 211/681 [15:23<39:20,  5.02s/it]                                                                                                                                                        {'loss': 1.0769, 'grad_norm': 24.701913833618164, 'learning_rate': 4.373239415645323e-07, 'beta_dpo/gap_mean': 13.721076965332031, 'beta_dpo/gap_std': 15.460807800292969, 'beta_dpo/beta_used_raw': -0.038681887090206146, 'beta_dpo/beta_used': 0.04574752599000931, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.6576852798461914, 'logits/rejected': -1.029742956161499, 'epoch': 0.31}
 31%|███████████████████████████████████                                                                              | 211/681 [15:23<39:20,  5.02s/it] 31%|███████████████████████████████████▏                                                                             | 212/681 [15:26<34:10,  4.37s/it]                                                                                                                                                        {'loss': 0.3817, 'grad_norm': 51.808109283447266, 'learning_rate': 4.3647161031536086e-07, 'beta_dpo/gap_mean': 14.656517028808594, 'beta_dpo/gap_std': 15.86941909790039, 'beta_dpo/beta_used_raw': 0.2509711980819702, 'beta_dpo/beta_used': 0.2509711980819702, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.8365099430084229, 'logits/rejected': -1.1870900392532349, 'epoch': 0.31}
 31%|███████████████████████████████████▏                                                                             | 212/681 [15:26<34:10,  4.37s/it] 31%|███████████████████████████████████▎                                                                             | 213/681 [15:29<31:13,  4.00s/it]                                                                                                                                                        {'loss': 1.0754, 'grad_norm': 28.643192291259766, 'learning_rate': 4.3561436536583774e-07, 'beta_dpo/gap_mean': 14.903135299682617, 'beta_dpo/gap_std': 15.852666854858398, 'beta_dpo/beta_used_raw': 0.007331036031246185, 'beta_dpo/beta_used': 0.04146008566021919, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5916590690612793, 'logits/rejected': -1.4091522693634033, 'epoch': 0.31}
 31%|███████████████████████████████████▎                                                                             | 213/681 [15:29<31:13,  4.00s/it] 31%|███████████████████████████████████▌                                                                             | 214/681 [15:32<27:47,  3.57s/it]                                                                                                                                                        {'loss': 1.2192, 'grad_norm': 9.1444673538208, 'learning_rate': 4.3475222930516473e-07, 'beta_dpo/gap_mean': 14.58911418914795, 'beta_dpo/gap_std': 16.172378540039062, 'beta_dpo/beta_used_raw': -0.1139422208070755, 'beta_dpo/beta_used': 0.015493694692850113, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.299335241317749, 'logits/rejected': -0.966693639755249, 'epoch': 0.31}
 31%|███████████████████████████████████▌                                                                             | 214/681 [15:32<27:47,  3.57s/it] 32%|███████████████████████████████████▋                                                                             | 215/681 [15:35<26:40,  3.44s/it]                                                                                                                                                        {'loss': 0.7435, 'grad_norm': 21.278892517089844, 'learning_rate': 4.3388522485142885e-07, 'beta_dpo/gap_mean': 14.976900100708008, 'beta_dpo/gap_std': 16.408676147460938, 'beta_dpo/beta_used_raw': 0.07507734000682831, 'beta_dpo/beta_used': 0.07507734000682831, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.205472707748413, 'logits/rejected': -0.8757593035697937, 'epoch': 0.32}
 32%|███████████████████████████████████▋                                                                             | 215/681 [15:35<26:40,  3.44s/it] 32%|███████████████████████████████████▊                                                                             | 216/681 [15:38<25:45,  3.32s/it]                                                                                                                                                        {'loss': 1.0693, 'grad_norm': 13.734975814819336, 'learning_rate': 4.330133748510036e-07, 'beta_dpo/gap_mean': 14.79420280456543, 'beta_dpo/gap_std': 16.09663200378418, 'beta_dpo/beta_used_raw': -0.06867353618144989, 'beta_dpo/beta_used': 0.03626835718750954, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.366228699684143, 'logits/rejected': -1.189439058303833, 'epoch': 0.32}
 32%|███████████████████████████████████▊                                                                             | 216/681 [15:38<25:45,  3.32s/it] 32%|████████████████████████████████████                                                                             | 217/681 [15:41<24:40,  3.19s/it]                                                                                                                                                        {'loss': 1.0775, 'grad_norm': 25.16986083984375, 'learning_rate': 4.3213670227794757e-07, 'beta_dpo/gap_mean': 14.434456825256348, 'beta_dpo/gap_std': 15.98811149597168, 'beta_dpo/beta_used_raw': -0.07117318361997604, 'beta_dpo/beta_used': 0.04537259042263031, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8399202823638916, 'logits/rejected': -1.6952290534973145, 'epoch': 0.32}
 32%|████████████████████████████████████                                                                             | 217/681 [15:41<24:40,  3.19s/it] 32%|████████████████████████████████████▏                                                                            | 218/681 [15:44<24:01,  3.11s/it]                                                                                                                                                        {'loss': 0.843, 'grad_norm': 19.83509063720703, 'learning_rate': 4.3125523023339815e-07, 'beta_dpo/gap_mean': 14.49212646484375, 'beta_dpo/gap_std': 16.23577117919922, 'beta_dpo/beta_used_raw': 0.053243957459926605, 'beta_dpo/beta_used': 0.08779692649841309, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.025547981262207, 'logits/rejected': -0.8068137764930725, 'epoch': 0.32}
 32%|████████████████████████████████████▏                                                                            | 218/681 [15:44<24:01,  3.11s/it] 32%|████████████████████████████████████▎                                                                            | 219/681 [15:47<23:41,  3.08s/it]                                                                                                                                                        {'loss': 1.0343, 'grad_norm': 15.10183334350586, 'learning_rate': 4.303689819449636e-07, 'beta_dpo/gap_mean': 14.216641426086426, 'beta_dpo/gap_std': 16.70601463317871, 'beta_dpo/beta_used_raw': 0.03714650496840477, 'beta_dpo/beta_used': 0.038829490542411804, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.3892719745635986, 'logits/rejected': -1.0883077383041382, 'epoch': 0.32}
 32%|████████████████████████████████████▎                                                                            | 219/681 [15:47<23:41,  3.08s/it] 32%|████████████████████████████████████▌                                                                            | 220/681 [15:50<23:23,  3.04s/it]                                                                                                                                                        {'loss': 1.1295, 'grad_norm': 10.92718505859375, 'learning_rate': 4.2947798076611047e-07, 'beta_dpo/gap_mean': 14.02775764465332, 'beta_dpo/gap_std': 16.341564178466797, 'beta_dpo/beta_used_raw': 0.022933853790163994, 'beta_dpo/beta_used': 0.022933853790163994, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.247340202331543, 'logits/rejected': -1.210787296295166, 'epoch': 0.32}
 32%|████████████████████████████████████▌                                                                            | 220/681 [15:50<23:23,  3.04s/it] 32%|████████████████████████████████████▋                                                                            | 221/681 [15:53<23:16,  3.04s/it]                                                                                                                                                        {'loss': 0.3889, 'grad_norm': 35.193336486816406, 'learning_rate': 4.285822501755485e-07, 'beta_dpo/gap_mean': 14.438077926635742, 'beta_dpo/gap_std': 15.995098114013672, 'beta_dpo/beta_used_raw': 0.253589391708374, 'beta_dpo/beta_used': 0.253589391708374, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.5756672024726868, 'logits/rejected': -0.727837324142456, 'epoch': 0.32}
 32%|████████████████████████████████████▋                                                                            | 221/681 [15:53<23:16,  3.04s/it] 33%|████████████████████████████████████▊                                                                            | 222/681 [15:56<22:55,  3.00s/it]                                                                                                                                                        {'loss': 0.5451, 'grad_norm': 48.97563552856445, 'learning_rate': 4.276818137766118e-07, 'beta_dpo/gap_mean': 14.80112361907959, 'beta_dpo/gap_std': 16.69683837890625, 'beta_dpo/beta_used_raw': 0.1512635350227356, 'beta_dpo/beta_used': 0.1512635350227356, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5134377479553223, 'logits/rejected': -1.0653544664382935, 'epoch': 0.33}
 33%|████████████████████████████████████▊                                                                            | 222/681 [15:56<22:55,  3.00s/it] 33%|█████████████████████████████████████                                                                            | 223/681 [15:58<21:56,  2.87s/it]                                                                                                                                                        {'loss': 1.3738, 'grad_norm': 0.5194804072380066, 'learning_rate': 4.2677669529663686e-07, 'beta_dpo/gap_mean': 14.758966445922852, 'beta_dpo/gap_std': 17.08310317993164, 'beta_dpo/beta_used_raw': -0.025954080745577812, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5161755084991455, 'logits/rejected': -1.2484257221221924, 'epoch': 0.33}
 33%|█████████████████████████████████████                                                                            | 223/681 [15:58<21:56,  2.87s/it] 33%|█████████████████████████████████████▏                                                                           | 224/681 [16:01<20:54,  2.74s/it]                                                                                                                                                        {'loss': 0.9883, 'grad_norm': 45.95803451538086, 'learning_rate': 4.2586691858633747e-07, 'beta_dpo/gap_mean': 14.644186019897461, 'beta_dpo/gap_std': 17.055156707763672, 'beta_dpo/beta_used_raw': -0.0033410415053367615, 'beta_dpo/beta_used': 0.09249898791313171, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.6961524486541748, 'logits/rejected': -1.0969496965408325, 'epoch': 0.33}
 33%|█████████████████████████████████████▏                                                                           | 224/681 [16:01<20:54,  2.74s/it] 33%|█████████████████████████████████████▎                                                                           | 225/681 [16:03<20:34,  2.71s/it]                                                                                                                                                        {'loss': 0.4851, 'grad_norm': 43.80759048461914, 'learning_rate': 4.249525076191759e-07, 'beta_dpo/gap_mean': 15.002262115478516, 'beta_dpo/gap_std': 17.485044479370117, 'beta_dpo/beta_used_raw': 0.21849367022514343, 'beta_dpo/beta_used': 0.21849367022514343, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.022803783416748, 'logits/rejected': -1.1923706531524658, 'epoch': 0.33}
 33%|█████████████████████████████████████▎                                                                           | 225/681 [16:03<20:34,  2.71s/it] 33%|█████████████████████████████████████▌                                                                           | 226/681 [16:06<21:11,  2.80s/it]                                                                                                                                                        {'loss': 0.9455, 'grad_norm': 30.993896484375, 'learning_rate': 4.2403348649073167e-07, 'beta_dpo/gap_mean': 15.346711158752441, 'beta_dpo/gap_std': 17.219505310058594, 'beta_dpo/beta_used_raw': 0.06650637090206146, 'beta_dpo/beta_used': 0.07541501522064209, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.4473025798797607, 'logits/rejected': -0.7017968893051147, 'epoch': 0.33}
 33%|█████████████████████████████████████▌                                                                           | 226/681 [16:06<21:11,  2.80s/it] 33%|█████████████████████████████████████▋                                                                           | 227/681 [16:09<20:47,  2.75s/it]                                                                                                                                                        {'loss': 1.1573, 'grad_norm': 55.5523796081543, 'learning_rate': 4.2310987941806615e-07, 'beta_dpo/gap_mean': 15.228629112243652, 'beta_dpo/gap_std': 17.45088005065918, 'beta_dpo/beta_used_raw': 0.09833408892154694, 'beta_dpo/beta_used': 0.14083002507686615, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.8681109547615051, 'logits/rejected': -0.7855240106582642, 'epoch': 0.33}
 33%|█████████████████████████████████████▋                                                                           | 227/681 [16:09<20:47,  2.75s/it] 33%|█████████████████████████████████████▊                                                                           | 228/681 [16:12<21:13,  2.81s/it]                                                                                                                                                        {'loss': 0.972, 'grad_norm': 19.148212432861328, 'learning_rate': 4.2218171073908463e-07, 'beta_dpo/gap_mean': 14.790523529052734, 'beta_dpo/gap_std': 16.98739242553711, 'beta_dpo/beta_used_raw': 0.046257004141807556, 'beta_dpo/beta_used': 0.046257004141807556, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7377731800079346, 'logits/rejected': -1.401872158050537, 'epoch': 0.33}
 33%|█████████████████████████████████████▊                                                                           | 228/681 [16:12<21:13,  2.81s/it] 34%|█████████████████████████████████████▉                                                                           | 229/681 [16:15<21:22,  2.84s/it]                                                                                                                                                        {'loss': 0.8929, 'grad_norm': 41.02910232543945, 'learning_rate': 4.212490049118951e-07, 'beta_dpo/gap_mean': 15.433286666870117, 'beta_dpo/gap_std': 17.089149475097656, 'beta_dpo/beta_used_raw': 0.10478197783231735, 'beta_dpo/beta_used': 0.10670603811740875, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8957240581512451, 'logits/rejected': -0.95273357629776, 'epoch': 0.34}
 34%|█████████████████████████████████████▉                                                                           | 229/681 [16:15<21:22,  2.84s/it] 34%|██████████████████████████████████████▏                                                                          | 230/681 [16:18<20:58,  2.79s/it]                                                                                                                                                        {'loss': 0.3956, 'grad_norm': 47.157413482666016, 'learning_rate': 4.203117865141635e-07, 'beta_dpo/gap_mean': 16.245468139648438, 'beta_dpo/gap_std': 17.074111938476562, 'beta_dpo/beta_used_raw': 0.23959508538246155, 'beta_dpo/beta_used': 0.23959508538246155, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.0739693641662598, 'logits/rejected': -1.6560773849487305, 'epoch': 0.34}
 34%|██████████████████████████████████████▏                                                                          | 230/681 [16:18<20:58,  2.79s/it] 34%|██████████████████████████████████████▎                                                                          | 231/681 [16:21<21:36,  2.88s/it]                                                                                                                                                        {'loss': 1.3735, 'grad_norm': 0.5642727613449097, 'learning_rate': 4.1937008024246625e-07, 'beta_dpo/gap_mean': 16.15087127685547, 'beta_dpo/gap_std': 16.743568420410156, 'beta_dpo/beta_used_raw': -0.10665209591388702, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -2.107431411743164, 'logits/rejected': -1.350379467010498, 'epoch': 0.34}
 34%|██████████████████████████████████████▎                                                                          | 231/681 [16:21<21:36,  2.88s/it] 34%|██████████████████████████████████████▍                                                                          | 232/681 [16:24<21:42,  2.90s/it]                                                                                                                                                        {'loss': 1.1455, 'grad_norm': 10.909036636352539, 'learning_rate': 4.1842391091163933e-07, 'beta_dpo/gap_mean': 15.72067928314209, 'beta_dpo/gap_std': 16.699817657470703, 'beta_dpo/beta_used_raw': -0.013602446764707565, 'beta_dpo/beta_used': 0.022975584492087364, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -0.8957525491714478, 'logits/rejected': -0.3968271017074585, 'epoch': 0.34}
 34%|██████████████████████████████████████▍                                                                          | 232/681 [16:24<21:42,  2.90s/it] 34%|██████████████████████████████████████▋                                                                          | 233/681 [16:27<22:05,  2.96s/it]                                                                                                                                                        {'loss': 0.5632, 'grad_norm': 47.163082122802734, 'learning_rate': 4.174733034541245e-07, 'beta_dpo/gap_mean': 16.100704193115234, 'beta_dpo/gap_std': 16.955623626708984, 'beta_dpo/beta_used_raw': 0.19611503183841705, 'beta_dpo/beta_used': 0.19611503183841705, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.7504737973213196, 'logits/rejected': -0.7375265955924988, 'epoch': 0.34}
 34%|██████████████████████████████████████▋                                                                          | 233/681 [16:27<22:05,  2.96s/it] 34%|██████████████████████████████████████▊                                                                          | 234/681 [16:30<22:16,  2.99s/it]                                                                                                                                                        {'loss': 0.9703, 'grad_norm': 43.946189880371094, 'learning_rate': 4.165182829193126e-07, 'beta_dpo/gap_mean': 17.05381965637207, 'beta_dpo/gap_std': 17.666168212890625, 'beta_dpo/beta_used_raw': -0.004454091191291809, 'beta_dpo/beta_used': 0.11440300941467285, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.0023349523544312, 'logits/rejected': -0.7694397568702698, 'epoch': 0.34}
 34%|██████████████████████████████████████▊                                                                          | 234/681 [16:30<22:16,  2.99s/it] 35%|██████████████████████████████████████▉                                                                          | 235/681 [16:33<21:41,  2.92s/it]                                                                                                                                                        {'loss': 1.3728, 'grad_norm': 0.5770571827888489, 'learning_rate': 4.1555887447288255e-07, 'beta_dpo/gap_mean': 16.602458953857422, 'beta_dpo/gap_std': 17.500028610229492, 'beta_dpo/beta_used_raw': -0.08463907241821289, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.5492238402366638, 'logits/rejected': -0.09408207982778549, 'epoch': 0.35}
 35%|██████████████████████████████████████▉                                                                          | 235/681 [16:33<21:41,  2.92s/it] 35%|███████████████████████████████████████▏                                                                         | 236/681 [16:36<21:51,  2.95s/it]                                                                                                                                                        {'loss': 1.1522, 'grad_norm': 10.533134460449219, 'learning_rate': 4.1459510339613946e-07, 'beta_dpo/gap_mean': 16.79233741760254, 'beta_dpo/gap_std': 18.010557174682617, 'beta_dpo/beta_used_raw': -0.0335993617773056, 'beta_dpo/beta_used': 0.02071463130414486, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1379200220108032, 'logits/rejected': -1.1965206861495972, 'epoch': 0.35}
 35%|███████████████████████████████████████▏                                                                         | 236/681 [16:36<21:51,  2.95s/it] 35%|███████████████████████████████████████▎                                                                         | 237/681 [16:39<22:02,  2.98s/it]                                                                                                                                                        {'loss': 1.3739, 'grad_norm': 0.5797684788703918, 'learning_rate': 4.136269950853473e-07, 'beta_dpo/gap_mean': 16.931236267089844, 'beta_dpo/gap_std': 19.234132766723633, 'beta_dpo/beta_used_raw': -0.1416703164577484, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.082244873046875, 'logits/rejected': -0.766608715057373, 'epoch': 0.35}
 35%|███████████████████████████████████████▎                                                                         | 237/681 [16:39<22:02,  2.98s/it] 35%|███████████████████████████████████████▍                                                                         | 238/681 [16:42<22:29,  3.05s/it]                                                                                                                                                        {'loss': 0.9083, 'grad_norm': 15.43837833404541, 'learning_rate': 4.126545750510605e-07, 'beta_dpo/gap_mean': 16.68514060974121, 'beta_dpo/gap_std': 19.14327049255371, 'beta_dpo/beta_used_raw': 0.043054625391960144, 'beta_dpo/beta_used': 0.043054625391960144, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.263676404953003, 'logits/rejected': -1.2675501108169556, 'epoch': 0.35}
 35%|███████████████████████████████████████▍                                                                         | 238/681 [16:42<22:29,  3.05s/it] 35%|███████████████████████████████████████▋                                                                         | 239/681 [16:44<21:34,  2.93s/it]                                                                                                                                                        {'loss': 0.8536, 'grad_norm': 35.777400970458984, 'learning_rate': 4.116778689174514e-07, 'beta_dpo/gap_mean': 16.43265151977539, 'beta_dpo/gap_std': 18.66457748413086, 'beta_dpo/beta_used_raw': -0.05012969672679901, 'beta_dpo/beta_used': 0.10590211302042007, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.411913275718689, 'logits/rejected': -0.9554502964019775, 'epoch': 0.35}
 35%|███████████████████████████████████████▋                                                                         | 239/681 [16:45<21:34,  2.93s/it] 35%|███████████████████████████████████████▊                                                                         | 240/681 [16:47<21:31,  2.93s/it]                                                                                                                                                        {'loss': 1.3676, 'grad_norm': 0.7293118238449097, 'learning_rate': 4.106969024216348e-07, 'beta_dpo/gap_mean': 15.894089698791504, 'beta_dpo/gap_std': 18.250343322753906, 'beta_dpo/beta_used_raw': -0.018202736973762512, 'beta_dpo/beta_used': 0.0013544057728722692, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.32597017288208, 'logits/rejected': -1.1729243993759155, 'epoch': 0.35}
 35%|███████████████████████████████████████▊                                                                         | 240/681 [16:47<21:31,  2.93s/it] 35%|███████████████████████████████████████▉                                                                         | 241/681 [16:50<21:06,  2.88s/it]                                                                                                                                                        {'loss': 0.4013, 'grad_norm': 67.17617797851562, 'learning_rate': 4.097117014129903e-07, 'beta_dpo/gap_mean': 16.478500366210938, 'beta_dpo/gap_std': 18.057748794555664, 'beta_dpo/beta_used_raw': 0.260785311460495, 'beta_dpo/beta_used': 0.260785311460495, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8056962490081787, 'logits/rejected': -0.977647066116333, 'epoch': 0.35}
 35%|███████████████████████████████████████▉                                                                         | 241/681 [16:50<21:06,  2.88s/it] 36%|████████████████████████████████████████▏                                                                        | 242/681 [16:53<20:50,  2.85s/it]                                                                                                                                                        {'loss': 0.8685, 'grad_norm': 49.057254791259766, 'learning_rate': 4.087222918524807e-07, 'beta_dpo/gap_mean': 16.862356185913086, 'beta_dpo/gap_std': 18.165666580200195, 'beta_dpo/beta_used_raw': 0.13850098848342896, 'beta_dpo/beta_used': 0.14323639869689941, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.4334087371826172, 'logits/rejected': -1.16968834400177, 'epoch': 0.36}
 36%|████████████████████████████████████████▏                                                                        | 242/681 [16:53<20:50,  2.85s/it] 36%|████████████████████████████████████████▎                                                                        | 243/681 [16:56<20:48,  2.85s/it]                                                                                                                                                        {'loss': 0.4084, 'grad_norm': 26.01089859008789, 'learning_rate': 4.07728699811968e-07, 'beta_dpo/gap_mean': 16.813247680664062, 'beta_dpo/gap_std': 18.005495071411133, 'beta_dpo/beta_used_raw': 0.21399369835853577, 'beta_dpo/beta_used': 0.21399369835853577, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.286488652229309, 'logits/rejected': -0.5671318173408508, 'epoch': 0.36}
 36%|████████████████████████████████████████▎                                                                        | 243/681 [16:56<20:48,  2.85s/it] 36%|████████████████████████████████████████▍                                                                        | 244/681 [16:59<21:05,  2.90s/it]                                                                                                                                                        {'loss': 1.3722, 'grad_norm': 0.628965437412262, 'learning_rate': 4.067309514735267e-07, 'beta_dpo/gap_mean': 17.121925354003906, 'beta_dpo/gap_std': 18.0570068359375, 'beta_dpo/beta_used_raw': -0.07187733054161072, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.109622001647949, 'logits/rejected': -1.9282748699188232, 'epoch': 0.36}
 36%|████████████████████████████████████████▍                                                                        | 244/681 [16:59<21:05,  2.90s/it] 36%|████████████████████████████████████████▋                                                                        | 245/681 [17:02<21:15,  2.93s/it]                                                                                                                                                        {'loss': 0.8853, 'grad_norm': 23.871013641357422, 'learning_rate': 4.057290731287531e-07, 'beta_dpo/gap_mean': 17.39687728881836, 'beta_dpo/gap_std': 18.113006591796875, 'beta_dpo/beta_used_raw': 0.008601933717727661, 'beta_dpo/beta_used': 0.06885449588298798, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9358984231948853, 'logits/rejected': -0.6926010847091675, 'epoch': 0.36}
 36%|████████████████████████████████████████▋                                                                        | 245/681 [17:02<21:15,  2.93s/it] 36%|████████████████████████████████████████▊                                                                        | 246/681 [17:05<21:21,  2.95s/it]                                                                                                                                                        {'loss': 1.0859, 'grad_norm': 11.873096466064453, 'learning_rate': 4.047230911780736e-07, 'beta_dpo/gap_mean': 17.159767150878906, 'beta_dpo/gap_std': 17.97473907470703, 'beta_dpo/beta_used_raw': -0.1078411415219307, 'beta_dpo/beta_used': 0.02485613524913788, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.774381399154663, 'logits/rejected': -1.4926104545593262, 'epoch': 0.36}
 36%|████████████████████████████████████████▊                                                                        | 246/681 [17:05<21:21,  2.95s/it] 36%|████████████████████████████████████████▉                                                                        | 247/681 [17:08<21:02,  2.91s/it]                                                                                                                                                        {'loss': 0.8472, 'grad_norm': 16.94463348388672, 'learning_rate': 4.0371303213004814e-07, 'beta_dpo/gap_mean': 17.497295379638672, 'beta_dpo/gap_std': 18.711734771728516, 'beta_dpo/beta_used_raw': 0.05106119439005852, 'beta_dpo/beta_used': 0.09282705932855606, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -2.484321117401123, 'logits/rejected': -1.9094198942184448, 'epoch': 0.36}
 36%|████████████████████████████████████████▉                                                                        | 247/681 [17:08<21:02,  2.91s/it] 36%|█████████████████████████████████████████▏                                                                       | 248/681 [17:11<20:59,  2.91s/it]                                                                                                                                                        {'loss': 1.3736, 'grad_norm': 0.5134167075157166, 'learning_rate': 4.0269892260067197e-07, 'beta_dpo/gap_mean': 17.24135971069336, 'beta_dpo/gap_std': 18.60338020324707, 'beta_dpo/beta_used_raw': -0.16252590715885162, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.9478964805603027, 'logits/rejected': -1.7901415824890137, 'epoch': 0.36}
 36%|█████████████████████████████████████████▏                                                                       | 248/681 [17:11<20:59,  2.91s/it] 37%|█████████████████████████████████████████▎                                                                       | 249/681 [17:13<20:30,  2.85s/it]                                                                                                                                                        {'loss': 1.3735, 'grad_norm': 0.5049749612808228, 'learning_rate': 4.0168078931267426e-07, 'beta_dpo/gap_mean': 16.688066482543945, 'beta_dpo/gap_std': 18.753692626953125, 'beta_dpo/beta_used_raw': -0.08990784734487534, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.6443979740142822, 'logits/rejected': -1.204066514968872, 'epoch': 0.37}
 37%|█████████████████████████████████████████▎                                                                       | 249/681 [17:13<20:30,  2.85s/it] 37%|█████████████████████████████████████████▍                                                                       | 250/681 [17:16<20:13,  2.82s/it]                                                                                                                                                        {'loss': 1.1315, 'grad_norm': 69.31681823730469, 'learning_rate': 4.006586590948141e-07, 'beta_dpo/gap_mean': 16.183063507080078, 'beta_dpo/gap_std': 18.758853912353516, 'beta_dpo/beta_used_raw': 0.11648933589458466, 'beta_dpo/beta_used': 0.12853886187076569, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.9143394231796265, 'logits/rejected': -1.0378131866455078, 'epoch': 0.37}
 37%|█████████████████████████████████████████▍                                                                       | 250/681 [17:16<20:13,  2.82s/it] 37%|█████████████████████████████████████████▋                                                                       | 251/681 [17:19<20:08,  2.81s/it]                                                                                                                                                        {'loss': 0.9538, 'grad_norm': 38.703819274902344, 'learning_rate': 3.9963255888117325e-07, 'beta_dpo/gap_mean': 15.786233901977539, 'beta_dpo/gap_std': 18.349742889404297, 'beta_dpo/beta_used_raw': -0.040085241198539734, 'beta_dpo/beta_used': 0.12471996992826462, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.8796600103378296, 'logits/rejected': -0.8574713468551636, 'epoch': 0.37}
 37%|█████████████████████████████████████████▋                                                                       | 251/681 [17:19<20:08,  2.81s/it] 37%|█████████████████████████████████████████▊                                                                       | 252/681 [17:22<20:28,  2.86s/it]                                                                                                                                                        {'loss': 1.1108, 'grad_norm': 16.276369094848633, 'learning_rate': 3.9860251571044666e-07, 'beta_dpo/gap_mean': 15.278026580810547, 'beta_dpo/gap_std': 17.97142219543457, 'beta_dpo/beta_used_raw': 0.030149439349770546, 'beta_dpo/beta_used': 0.03168496862053871, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1928433179855347, 'logits/rejected': -0.7398958802223206, 'epoch': 0.37}
 37%|█████████████████████████████████████████▊                                                                       | 252/681 [17:22<20:28,  2.86s/it] 37%|█████████████████████████████████████████▉                                                                       | 253/681 [17:25<20:45,  2.91s/it]                                                                                                                                                        {'loss': 0.8353, 'grad_norm': 44.42042541503906, 'learning_rate': 3.9756855672522986e-07, 'beta_dpo/gap_mean': 14.929329872131348, 'beta_dpo/gap_std': 17.659282684326172, 'beta_dpo/beta_used_raw': 0.09505901485681534, 'beta_dpo/beta_used': 0.16947996616363525, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2876951694488525, 'logits/rejected': -0.822074830532074, 'epoch': 0.37}
 37%|█████████████████████████████████████████▉                                                                       | 253/681 [17:25<20:45,  2.91s/it] 37%|██████████████████████████████████████████▏                                                                      | 254/681 [17:28<21:14,  2.98s/it]                                                                                                                                                        {'loss': 0.9635, 'grad_norm': 29.85235595703125, 'learning_rate': 3.965307091713037e-07, 'beta_dpo/gap_mean': 15.008431434631348, 'beta_dpo/gap_std': 17.31850814819336, 'beta_dpo/beta_used_raw': 0.0370587520301342, 'beta_dpo/beta_used': 0.07628422975540161, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.848065972328186, 'logits/rejected': -0.8653386831283569, 'epoch': 0.37}
 37%|██████████████████████████████████████████▏                                                                      | 254/681 [17:28<21:14,  2.98s/it] 37%|██████████████████████████████████████████▎                                                                      | 255/681 [17:31<20:43,  2.92s/it]                                                                                                                                                        {'loss': 0.6151, 'grad_norm': 71.72965240478516, 'learning_rate': 3.954890003969163e-07, 'beta_dpo/gap_mean': 14.993793487548828, 'beta_dpo/gap_std': 17.258270263671875, 'beta_dpo/beta_used_raw': 0.2053917944431305, 'beta_dpo/beta_used': 0.2053917944431305, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6960498094558716, 'logits/rejected': -1.232972264289856, 'epoch': 0.37}
 37%|██████████████████████████████████████████▎                                                                      | 255/681 [17:31<20:43,  2.92s/it] 38%|██████████████████████████████████████████▍                                                                      | 256/681 [17:33<20:24,  2.88s/it]                                                                                                                                                        {'loss': 0.4976, 'grad_norm': 71.81951904296875, 'learning_rate': 3.944434578520628e-07, 'beta_dpo/gap_mean': 15.53835391998291, 'beta_dpo/gap_std': 17.70315170288086, 'beta_dpo/beta_used_raw': 0.24883843958377838, 'beta_dpo/beta_used': 0.24883843958377838, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5790761709213257, 'logits/rejected': -1.3537611961364746, 'epoch': 0.38}
 38%|██████████████████████████████████████████▍                                                                      | 256/681 [17:34<20:24,  2.88s/it] 38%|██████████████████████████████████████████▋                                                                      | 257/681 [17:36<20:36,  2.92s/it]                                                                                                                                                        {'loss': 1.0018, 'grad_norm': 42.911102294921875, 'learning_rate': 3.933941090877615e-07, 'beta_dpo/gap_mean': 16.239253997802734, 'beta_dpo/gap_std': 18.342966079711914, 'beta_dpo/beta_used_raw': 0.02169763669371605, 'beta_dpo/beta_used': 0.06511445343494415, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5112509727478027, 'logits/rejected': -0.863937497138977, 'epoch': 0.38}
 38%|██████████████████████████████████████████▋                                                                      | 257/681 [17:37<20:36,  2.92s/it] 38%|██████████████████████████████████████████▊                                                                      | 258/681 [17:39<19:52,  2.82s/it]                                                                                                                                                        {'loss': 0.4068, 'grad_norm': 47.87943649291992, 'learning_rate': 3.923409817553284e-07, 'beta_dpo/gap_mean': 16.093191146850586, 'beta_dpo/gap_std': 17.990446090698242, 'beta_dpo/beta_used_raw': 0.2228226512670517, 'beta_dpo/beta_used': 0.2228226512670517, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.145803451538086, 'logits/rejected': -1.6822357177734375, 'epoch': 0.38}
 38%|██████████████████████████████████████████▊                                                                      | 258/681 [17:39<19:52,  2.82s/it] 38%|██████████████████████████████████████████▉                                                                      | 259/681 [17:42<20:12,  2.87s/it]                                                                                                                                                        {'loss': 1.1857, 'grad_norm': 9.490212440490723, 'learning_rate': 3.9128410360564793e-07, 'beta_dpo/gap_mean': 16.06846046447754, 'beta_dpo/gap_std': 18.156803131103516, 'beta_dpo/beta_used_raw': -0.009284183382987976, 'beta_dpo/beta_used': 0.016522977501153946, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.6225954294204712, 'logits/rejected': 0.12847939133644104, 'epoch': 0.38}
 38%|██████████████████████████████████████████▉                                                                      | 259/681 [17:42<20:12,  2.87s/it] 38%|███████████████████████████████████████████▏                                                                     | 260/681 [17:45<20:32,  2.93s/it]                                                                                                                                                        {'loss': 0.9837, 'grad_norm': 24.094758987426758, 'learning_rate': 3.9022350248844246e-07, 'beta_dpo/gap_mean': 15.638516426086426, 'beta_dpo/gap_std': 18.49860382080078, 'beta_dpo/beta_used_raw': 0.05389215424656868, 'beta_dpo/beta_used': 0.05389215424656868, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7264130711555481, 'logits/rejected': -0.6564480066299438, 'epoch': 0.38}
 38%|███████████████████████████████████████████▏                                                                     | 260/681 [17:45<20:32,  2.93s/it] 38%|███████████████████████████████████████████▎                                                                     | 261/681 [17:48<19:34,  2.80s/it]                                                                                                                                                        {'loss': 0.958, 'grad_norm': 28.612140655517578, 'learning_rate': 3.891592063515376e-07, 'beta_dpo/gap_mean': 15.851795196533203, 'beta_dpo/gap_std': 18.720157623291016, 'beta_dpo/beta_used_raw': 0.06343812495470047, 'beta_dpo/beta_used': 0.07325537502765656, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.4056403636932373, 'logits/rejected': -2.0737316608428955, 'epoch': 0.38}
 38%|███████████████████████████████████████████▎                                                                     | 261/681 [17:48<19:34,  2.80s/it] 38%|███████████████████████████████████████████▍                                                                     | 262/681 [17:50<19:38,  2.81s/it]                                                                                                                                                        {'loss': 0.8197, 'grad_norm': 30.337125778198242, 'learning_rate': 3.880912432401264e-07, 'beta_dpo/gap_mean': 15.816585540771484, 'beta_dpo/gap_std': 18.276844024658203, 'beta_dpo/beta_used_raw': 0.07019668817520142, 'beta_dpo/beta_used': 0.1220453754067421, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.315596580505371, 'logits/rejected': -0.7939830422401428, 'epoch': 0.38}
 38%|███████████████████████████████████████████▍                                                                     | 262/681 [17:51<19:38,  2.81s/it] 39%|███████████████████████████████████████████▋                                                                     | 263/681 [17:53<19:33,  2.81s/it]                                                                                                                                                        {'loss': 0.6229, 'grad_norm': 81.57725524902344, 'learning_rate': 3.870196412960302e-07, 'beta_dpo/gap_mean': 16.783252716064453, 'beta_dpo/gap_std': 18.60260772705078, 'beta_dpo/beta_used_raw': 0.2112702876329422, 'beta_dpo/beta_used': 0.2112702876329422, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.479870080947876, 'logits/rejected': -1.969857931137085, 'epoch': 0.39}
 39%|███████████████████████████████████████████▋                                                                     | 263/681 [17:53<19:33,  2.81s/it] 39%|███████████████████████████████████████████▊                                                                     | 264/681 [17:56<20:00,  2.88s/it]                                                                                                                                                        {'loss': 0.5789, 'grad_norm': 41.35186767578125, 'learning_rate': 3.8594442875695665e-07, 'beta_dpo/gap_mean': 17.149694442749023, 'beta_dpo/gap_std': 18.860740661621094, 'beta_dpo/beta_used_raw': 0.14798879623413086, 'beta_dpo/beta_used': 0.14798879623413086, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.416067600250244, 'logits/rejected': -1.8507721424102783, 'epoch': 0.39}
 39%|███████████████████████████████████████████▊                                                                     | 264/681 [17:56<20:00,  2.88s/it] 39%|███████████████████████████████████████████▉                                                                     | 265/681 [17:59<19:38,  2.83s/it]                                                                                                                                                        {'loss': 1.3732, 'grad_norm': 0.48281610012054443, 'learning_rate': 3.848656339557562e-07, 'beta_dpo/gap_mean': 17.3541259765625, 'beta_dpo/gap_std': 19.03475570678711, 'beta_dpo/beta_used_raw': -0.15261715650558472, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.9840517044067383, 'logits/rejected': -1.0997028350830078, 'epoch': 0.39}
 39%|███████████████████████████████████████████▉                                                                     | 265/681 [17:59<19:38,  2.83s/it] 39%|████████████████████████████████████████████▏                                                                    | 266/681 [18:02<19:33,  2.83s/it]                                                                                                                                                        {'loss': 1.1, 'grad_norm': 14.177918434143066, 'learning_rate': 3.8378328531967507e-07, 'beta_dpo/gap_mean': 16.781330108642578, 'beta_dpo/gap_std': 18.97824478149414, 'beta_dpo/beta_used_raw': 0.009278932586312294, 'beta_dpo/beta_used': 0.028951261192560196, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7325778007507324, 'logits/rejected': -0.572989821434021, 'epoch': 0.39}
 39%|████████████████████████████████████████████▏                                                                    | 266/681 [18:02<19:33,  2.83s/it] 39%|████████████████████████████████████████████▎                                                                    | 267/681 [18:05<19:55,  2.89s/it]                                                                                                                                                        {'loss': 0.7697, 'grad_norm': 28.271018981933594, 'learning_rate': 3.8269741136960646e-07, 'beta_dpo/gap_mean': 17.111412048339844, 'beta_dpo/gap_std': 18.73262596130371, 'beta_dpo/beta_used_raw': 0.08866294473409653, 'beta_dpo/beta_used': 0.08866294473409653, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.7354084253311157, 'logits/rejected': -1.1105022430419922, 'epoch': 0.39}
 39%|████████████████████████████████████████████▎                                                                    | 267/681 [18:05<19:55,  2.89s/it] 39%|████████████████████████████████████████████▍                                                                    | 268/681 [18:08<19:51,  2.89s/it]                                                                                                                                                        {'loss': 0.8855, 'grad_norm': 16.701509475708008, 'learning_rate': 3.8160804071933894e-07, 'beta_dpo/gap_mean': 17.12268829345703, 'beta_dpo/gap_std': 18.194721221923828, 'beta_dpo/beta_used_raw': 0.05076988786458969, 'beta_dpo/beta_used': 0.05076988786458969, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7248194217681885, 'logits/rejected': -0.3424651622772217, 'epoch': 0.39}
 39%|████████████████████████████████████████████▍                                                                    | 268/681 [18:08<19:51,  2.89s/it] 40%|████████████████████████████████████████████▋                                                                    | 269/681 [18:11<19:34,  2.85s/it]                                                                                                                                                        {'loss': 0.8166, 'grad_norm': 29.299842834472656, 'learning_rate': 3.8051520207480204e-07, 'beta_dpo/gap_mean': 17.397462844848633, 'beta_dpo/gap_std': 18.34782600402832, 'beta_dpo/beta_used_raw': 0.10103872418403625, 'beta_dpo/beta_used': 0.10103872418403625, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.2202186584472656, 'logits/rejected': -1.583660364151001, 'epoch': 0.4}
 40%|████████████████████████████████████████████▋                                                                    | 269/681 [18:11<19:34,  2.85s/it] 40%|████████████████████████████████████████████▊                                                                    | 270/681 [18:14<20:02,  2.93s/it]                                                                                                                                                        {'loss': 0.9573, 'grad_norm': 49.17156982421875, 'learning_rate': 3.794189242333106e-07, 'beta_dpo/gap_mean': 17.6357421875, 'beta_dpo/gap_std': 18.888328552246094, 'beta_dpo/beta_used_raw': 0.01920953392982483, 'beta_dpo/beta_used': 0.11783033609390259, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.5414323806762695, 'logits/rejected': -1.5535459518432617, 'epoch': 0.4}
 40%|████████████████████████████████████████████▊                                                                    | 270/681 [18:14<20:02,  2.93s/it] 40%|████████████████████████████████████████████▉                                                                    | 271/681 [18:16<19:34,  2.87s/it]                                                                                                                                                        {'loss': 0.2862, 'grad_norm': 39.75117492675781, 'learning_rate': 3.7831923608280514e-07, 'beta_dpo/gap_mean': 17.942276000976562, 'beta_dpo/gap_std': 19.22007179260254, 'beta_dpo/beta_used_raw': 0.2534657418727875, 'beta_dpo/beta_used': 0.2534657418727875, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.6566705703735352, 'logits/rejected': -0.9555039405822754, 'epoch': 0.4}
 40%|████████████████████████████████████████████▉                                                                    | 271/681 [18:16<19:34,  2.87s/it] 40%|█████████████████████████████████████████████▏                                                                   | 272/681 [18:19<19:45,  2.90s/it]                                                                                                                                                        {'loss': 0.9745, 'grad_norm': 23.56406021118164, 'learning_rate': 3.772161666010912e-07, 'beta_dpo/gap_mean': 18.281635284423828, 'beta_dpo/gap_std': 19.472030639648438, 'beta_dpo/beta_used_raw': 0.03210698813199997, 'beta_dpo/beta_used': 0.05589652433991432, 'beta_dpo/mask_keep_frac': 0.5, 'logits/chosen': -2.1835896968841553, 'logits/rejected': -2.0108699798583984, 'epoch': 0.4}
 40%|█████████████████████████████████████████████▏                                                                   | 272/681 [18:19<19:45,  2.90s/it] 40%|█████████████████████████████████████████████▎                                                                   | 273/681 [18:22<19:17,  2.84s/it]                                                                                                                                                        {'loss': 0.7957, 'grad_norm': 59.734561920166016, 'learning_rate': 3.761097448550755e-07, 'beta_dpo/gap_mean': 18.84831428527832, 'beta_dpo/gap_std': 19.925540924072266, 'beta_dpo/beta_used_raw': 0.1337103396654129, 'beta_dpo/beta_used': 0.1337103396654129, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.7125663757324219, 'logits/rejected': -1.1651277542114258, 'epoch': 0.4}
 40%|█████████████████████████████████████████████▎                                                                   | 273/681 [18:22<19:17,  2.84s/it] 40%|█████████████████████████████████████████████▍                                                                   | 274/681 [18:25<18:59,  2.80s/it]                                                                                                                                                        {'loss': 1.0872, 'grad_norm': 11.591614723205566, 'learning_rate': 3.75e-07, 'beta_dpo/gap_mean': 18.44357681274414, 'beta_dpo/gap_std': 19.366474151611328, 'beta_dpo/beta_used_raw': -0.06161361187696457, 'beta_dpo/beta_used': 0.024842973798513412, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2841222286224365, 'logits/rejected': -1.130070447921753, 'epoch': 0.4}
 40%|█████████████████████████████████████████████▍                                                                   | 274/681 [18:25<18:59,  2.80s/it] 40%|█████████████████████████████████████████████▋                                                                   | 275/681 [18:28<19:42,  2.91s/it]                                                                                                                                                        {'loss': 0.832, 'grad_norm': 72.93920135498047, 'learning_rate': 3.738869612786737e-07, 'beta_dpo/gap_mean': 17.91891860961914, 'beta_dpo/gap_std': 18.584510803222656, 'beta_dpo/beta_used_raw': 0.13920262455940247, 'beta_dpo/beta_used': 0.18502850830554962, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.4037299156188965, 'logits/rejected': -2.062166690826416, 'epoch': 0.4}
 40%|█████████████████████████████████████████████▋                                                                   | 275/681 [18:28<19:42,  2.91s/it] 41%|█████████████████████████████████████████████▊                                                                   | 276/681 [18:31<19:12,  2.85s/it]                                                                                                                                                        {'loss': 0.9701, 'grad_norm': 47.03031921386719, 'learning_rate': 3.7277065802070204e-07, 'beta_dpo/gap_mean': 17.996925354003906, 'beta_dpo/gap_std': 18.459285736083984, 'beta_dpo/beta_used_raw': -0.02612786740064621, 'beta_dpo/beta_used': 0.0947640910744667, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2630318403244019, 'logits/rejected': -1.0531865358352661, 'epoch': 0.41}
 41%|█████████████████████████████████████████████▊                                                                   | 276/681 [18:31<19:12,  2.85s/it] 41%|█████████████████████████████████████████████▉                                                                   | 277/681 [18:33<18:47,  2.79s/it]                                                                                                                                                        {'loss': 0.7939, 'grad_norm': 19.697120666503906, 'learning_rate': 3.71651119641714e-07, 'beta_dpo/gap_mean': 17.348060607910156, 'beta_dpo/gap_std': 17.54006576538086, 'beta_dpo/beta_used_raw': 0.12454156577587128, 'beta_dpo/beta_used': 0.12786605954170227, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6277648210525513, 'logits/rejected': -1.226701021194458, 'epoch': 0.41}
 41%|█████████████████████████████████████████████▉                                                                   | 277/681 [18:33<18:47,  2.79s/it] 41%|██████████████████████████████████████████████▏                                                                  | 278/681 [18:36<19:05,  2.84s/it]                                                                                                                                                        {'loss': 0.9127, 'grad_norm': 76.3206787109375, 'learning_rate': 3.705283756425872e-07, 'beta_dpo/gap_mean': 17.38713836669922, 'beta_dpo/gap_std': 17.585594177246094, 'beta_dpo/beta_used_raw': 0.12097430229187012, 'beta_dpo/beta_used': 0.19851908087730408, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.005500316619873, 'logits/rejected': -1.8199653625488281, 'epoch': 0.41}
 41%|██████████████████████████████████████████████▏                                                                  | 278/681 [18:36<19:05,  2.84s/it] 41%|██████████████████████████████████████████████▎                                                                  | 279/681 [18:39<19:03,  2.84s/it]                                                                                                                                                        {'loss': 1.3723, 'grad_norm': 0.5505157113075256, 'learning_rate': 3.6940245560867e-07, 'beta_dpo/gap_mean': 17.153640747070312, 'beta_dpo/gap_std': 17.83950424194336, 'beta_dpo/beta_used_raw': -0.11197362095117569, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.1522029638290405, 'logits/rejected': -0.8978596329689026, 'epoch': 0.41}
 41%|██████████████████████████████████████████████▎                                                                  | 279/681 [18:39<19:03,  2.84s/it] 41%|██████████████████████████████████████████████▍                                                                  | 280/681 [18:42<19:26,  2.91s/it]                                                                                                                                                        {'loss': 0.4076, 'grad_norm': 60.16712188720703, 'learning_rate': 3.6827338920900253e-07, 'beta_dpo/gap_mean': 17.42764663696289, 'beta_dpo/gap_std': 17.832962036132812, 'beta_dpo/beta_used_raw': 0.22522485256195068, 'beta_dpo/beta_used': 0.22522485256195068, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.581055164337158, 'logits/rejected': -2.898463487625122, 'epoch': 0.41}
 41%|██████████████████████████████████████████████▍                                                                  | 280/681 [18:42<19:26,  2.91s/it] 41%|██████████████████████████████████████████████▋                                                                  | 281/681 [18:45<19:31,  2.93s/it]                                                                                                                                                        {'loss': 0.4081, 'grad_norm': 35.21115493774414, 'learning_rate': 3.6714120619553435e-07, 'beta_dpo/gap_mean': 18.07257843017578, 'beta_dpo/gap_std': 18.202064514160156, 'beta_dpo/beta_used_raw': 0.17530831694602966, 'beta_dpo/beta_used': 0.17530831694602966, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.638143539428711, 'logits/rejected': -1.3213109970092773, 'epoch': 0.41}
 41%|██████████████████████████████████████████████▋                                                                  | 281/681 [18:45<19:31,  2.93s/it] 41%|██████████████████████████████████████████████▊                                                                  | 282/681 [18:48<19:18,  2.90s/it]                                                                                                                                                        {'loss': 0.8627, 'grad_norm': 33.21187973022461, 'learning_rate': 3.660059364023408e-07, 'beta_dpo/gap_mean': 18.907608032226562, 'beta_dpo/gap_std': 18.572853088378906, 'beta_dpo/beta_used_raw': 0.003689289093017578, 'beta_dpo/beta_used': 0.07618734985589981, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.9029979705810547, 'logits/rejected': -1.3287708759307861, 'epoch': 0.41}
 41%|██████████████████████████████████████████████▊                                                                  | 282/681 [18:48<19:18,  2.90s/it] 42%|██████████████████████████████████████████████▉                                                                  | 283/681 [18:51<19:22,  2.92s/it]                                                                                                                                                        {'loss': 1.0425, 'grad_norm': 13.139922142028809, 'learning_rate': 3.6486760974483685e-07, 'beta_dpo/gap_mean': 18.53631591796875, 'beta_dpo/gap_std': 18.78057861328125, 'beta_dpo/beta_used_raw': -0.004605751484632492, 'beta_dpo/beta_used': 0.030037278309464455, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0984127521514893, 'logits/rejected': -1.6443045139312744, 'epoch': 0.42}
 42%|██████████████████████████████████████████████▉                                                                  | 283/681 [18:51<19:22,  2.92s/it] 42%|███████████████████████████████████████████████                                                                  | 284/681 [18:54<19:42,  2.98s/it]                                                                                                                                                        {'loss': 0.8712, 'grad_norm': 14.876636505126953, 'learning_rate': 3.6372625621898863e-07, 'beta_dpo/gap_mean': 19.09128189086914, 'beta_dpo/gap_std': 19.074609756469727, 'beta_dpo/beta_used_raw': 0.03131512925028801, 'beta_dpo/beta_used': 0.06725043058395386, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.9047149419784546, 'logits/rejected': -1.4838480949401855, 'epoch': 0.42}
 42%|███████████████████████████████████████████████                                                                  | 284/681 [18:54<19:42,  2.98s/it] 42%|███████████████████████████████████████████████▎                                                                 | 285/681 [18:57<19:44,  2.99s/it]                                                                                                                                                        {'loss': 0.741, 'grad_norm': 15.111198425292969, 'learning_rate': 3.625819059005228e-07, 'beta_dpo/gap_mean': 18.893922805786133, 'beta_dpo/gap_std': 18.592544555664062, 'beta_dpo/beta_used_raw': 0.10372734069824219, 'beta_dpo/beta_used': 0.10819166898727417, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.871731162071228, 'logits/rejected': -2.0776164531707764, 'epoch': 0.42}
 42%|███████████████████████████████████████████████▎                                                                 | 285/681 [18:57<19:44,  2.99s/it] 42%|███████████████████████████████████████████████▍                                                                 | 286/681 [19:00<19:27,  2.96s/it]                                                                                                                                                        {'loss': 1.37, 'grad_norm': 0.6566715836524963, 'learning_rate': 3.614345889441346e-07, 'beta_dpo/gap_mean': 18.982357025146484, 'beta_dpo/gap_std': 18.396522521972656, 'beta_dpo/beta_used_raw': -0.033716779202222824, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -2.1930174827575684, 'logits/rejected': -1.613207459449768, 'epoch': 0.42}
 42%|███████████████████████████████████████████████▍                                                                 | 286/681 [19:00<19:27,  2.96s/it] 42%|███████████████████████████████████████████████▌                                                                 | 287/681 [19:02<18:34,  2.83s/it]                                                                                                                                                        {'loss': 0.859, 'grad_norm': 25.1693172454834, 'learning_rate': 3.6028433558269275e-07, 'beta_dpo/gap_mean': 18.03030014038086, 'beta_dpo/gap_std': 18.275131225585938, 'beta_dpo/beta_used_raw': -0.03323051333427429, 'beta_dpo/beta_used': 0.09730731695890427, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2699886560440063, 'logits/rejected': -0.5031905770301819, 'epoch': 0.42}
 42%|███████████████████████████████████████████████▌                                                                 | 287/681 [19:02<18:34,  2.83s/it] 42%|███████████████████████████████████████████████▊                                                                 | 288/681 [19:05<18:37,  2.84s/it]                                                                                                                                                        {'loss': 0.9294, 'grad_norm': 64.22969818115234, 'learning_rate': 3.5913117612644327e-07, 'beta_dpo/gap_mean': 18.27791976928711, 'beta_dpo/gap_std': 18.494709014892578, 'beta_dpo/beta_used_raw': 0.0743340253829956, 'beta_dpo/beta_used': 0.12815497815608978, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7721920013427734, 'logits/rejected': -1.6445941925048828, 'epoch': 0.42}
 42%|███████████████████████████████████████████████▊                                                                 | 288/681 [19:05<18:37,  2.84s/it] 42%|███████████████████████████████████████████████▉                                                                 | 289/681 [19:08<18:32,  2.84s/it]                                                                                                                                                        {'loss': 1.0116, 'grad_norm': 14.944448471069336, 'learning_rate': 3.5797514096221024e-07, 'beta_dpo/gap_mean': 18.72998046875, 'beta_dpo/gap_std': 19.468055725097656, 'beta_dpo/beta_used_raw': -0.15388831496238708, 'beta_dpo/beta_used': 0.041309650987386703, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7737936973571777, 'logits/rejected': -1.3258979320526123, 'epoch': 0.42}
 42%|███████████████████████████████████████████████▉                                                                 | 289/681 [19:08<18:32,  2.84s/it] 43%|████████████████████████████████████████████████                                                                 | 290/681 [19:11<18:33,  2.85s/it]                                                                                                                                                        {'loss': 1.3719, 'grad_norm': 0.564625084400177, 'learning_rate': 3.568162605525952e-07, 'beta_dpo/gap_mean': 19.377426147460938, 'beta_dpo/gap_std': 20.422447204589844, 'beta_dpo/beta_used_raw': -0.19734390079975128, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.156833529472351, 'logits/rejected': -1.211308479309082, 'epoch': 0.43}
 43%|████████████████████████████████████████████████                                                                 | 290/681 [19:11<18:33,  2.85s/it] 43%|████████████████████████████████████████████████▎                                                                | 291/681 [19:14<18:37,  2.87s/it]                                                                                                                                                        {'loss': 0.8817, 'grad_norm': 20.972444534301758, 'learning_rate': 3.5565456543517485e-07, 'beta_dpo/gap_mean': 19.186107635498047, 'beta_dpo/gap_std': 20.719282150268555, 'beta_dpo/beta_used_raw': 0.031241487711668015, 'beta_dpo/beta_used': 0.06650421768426895, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.7543714046478271, 'logits/rejected': -1.8473269939422607, 'epoch': 0.43}
 43%|████████████████████████████████████████████████▎                                                                | 291/681 [19:14<18:37,  2.87s/it] 43%|████████████████████████████████████████████████▍                                                                | 292/681 [19:17<18:15,  2.82s/it]                                                                                                                                                        {'loss': 0.4908, 'grad_norm': 48.049530029296875, 'learning_rate': 3.5449008622169583e-07, 'beta_dpo/gap_mean': 19.42520523071289, 'beta_dpo/gap_std': 19.865537643432617, 'beta_dpo/beta_used_raw': 0.1455276906490326, 'beta_dpo/beta_used': 0.1455276906490326, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8504797220230103, 'logits/rejected': -1.318284511566162, 'epoch': 0.43}
 43%|████████████████████████████████████████████████▍                                                                | 292/681 [19:17<18:15,  2.82s/it] 43%|████████████████████████████████████████████████▌                                                                | 293/681 [19:20<18:36,  2.88s/it]                                                                                                                                                        {'loss': 1.0056, 'grad_norm': 17.39205551147461, 'learning_rate': 3.5332285359726846e-07, 'beta_dpo/gap_mean': 18.744335174560547, 'beta_dpo/gap_std': 19.63604736328125, 'beta_dpo/beta_used_raw': -0.17275524139404297, 'beta_dpo/beta_used': 0.04769207909703255, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.9810543060302734, 'logits/rejected': -2.0150904655456543, 'epoch': 0.43}
 43%|████████████████████████████████████████████████▌                                                                | 293/681 [19:20<18:36,  2.88s/it] 43%|████████████████████████████████████████████████▊                                                                | 294/681 [19:22<18:26,  2.86s/it]                                                                                                                                                        {'loss': 1.3732, 'grad_norm': 0.4995046854019165, 'learning_rate': 3.5215289831955786e-07, 'beta_dpo/gap_mean': 18.067184448242188, 'beta_dpo/gap_std': 19.677724838256836, 'beta_dpo/beta_used_raw': -0.19172877073287964, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.750572681427002, 'logits/rejected': -1.3933688402175903, 'epoch': 0.43}
 43%|████████████████████████████████████████████████▊                                                                | 294/681 [19:23<18:26,  2.86s/it] 43%|████████████████████████████████████████████████▉                                                                | 295/681 [19:25<18:07,  2.82s/it]                                                                                                                                                        {'loss': 0.8559, 'grad_norm': 19.872262954711914, 'learning_rate': 3.509802512179737e-07, 'beta_dpo/gap_mean': 17.91991424560547, 'beta_dpo/gap_std': 19.704513549804688, 'beta_dpo/beta_used_raw': 0.015555135905742645, 'beta_dpo/beta_used': 0.07876399159431458, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.6054997444152832, 'logits/rejected': -1.2405972480773926, 'epoch': 0.43}
 43%|████████████████████████████████████████████████▉                                                                | 295/681 [19:25<18:07,  2.82s/it] 43%|█████████████████████████████████████████████████                                                                | 296/681 [19:28<17:59,  2.80s/it]                                                                                                                                                        {'loss': 0.9563, 'grad_norm': 12.911087989807129, 'learning_rate': 3.498049431928577e-07, 'beta_dpo/gap_mean': 18.38714599609375, 'beta_dpo/gap_std': 20.385866165161133, 'beta_dpo/beta_used_raw': 0.032191064208745956, 'beta_dpo/beta_used': 0.032191064208745956, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.647209882736206, 'logits/rejected': -2.0055761337280273, 'epoch': 0.43}
 43%|█████████████████████████████████████████████████                                                                | 296/681 [19:28<17:59,  2.80s/it] 44%|█████████████████████████████████████████████████▎                                                               | 297/681 [19:31<18:13,  2.85s/it]                                                                                                                                                        {'loss': 0.8408, 'grad_norm': 20.788816452026367, 'learning_rate': 3.486270052146694e-07, 'beta_dpo/gap_mean': 18.416446685791016, 'beta_dpo/gap_std': 20.195480346679688, 'beta_dpo/beta_used_raw': 0.07509875297546387, 'beta_dpo/beta_used': 0.08515140414237976, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.4445190131664276, 'logits/rejected': -0.14910635352134705, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▎                                                               | 297/681 [19:31<18:13,  2.85s/it] 44%|█████████████████████████████████████████████████▍                                                               | 298/681 [19:34<18:34,  2.91s/it]                                                                                                                                                        {'loss': 1.0073, 'grad_norm': 24.009151458740234, 'learning_rate': 3.474464683231698e-07, 'beta_dpo/gap_mean': 18.70124626159668, 'beta_dpo/gap_std': 20.339801788330078, 'beta_dpo/beta_used_raw': 0.0014029070734977722, 'beta_dpo/beta_used': 0.054413195699453354, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.56980562210083, 'logits/rejected': -2.0647857189178467, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▍                                                               | 298/681 [19:34<18:34,  2.91s/it] 44%|█████████████████████████████████████████████████▌                                                               | 299/681 [19:37<18:28,  2.90s/it]                                                                                                                                                        {'loss': 0.884, 'grad_norm': 46.7759895324707, 'learning_rate': 3.462633636266041e-07, 'beta_dpo/gap_mean': 19.192279815673828, 'beta_dpo/gap_std': 20.42599105834961, 'beta_dpo/beta_used_raw': 0.13273771107196808, 'beta_dpo/beta_used': 0.15039290487766266, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.3872895240783691, 'logits/rejected': -1.2783632278442383, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▌                                                               | 299/681 [19:37<18:28,  2.90s/it] 44%|█████████████████████████████████████████████████▊                                                               | 300/681 [19:40<18:37,  2.93s/it]                                                                                                                                                        {'loss': 0.6858, 'grad_norm': 28.43634796142578, 'learning_rate': 3.4507772230088147e-07, 'beta_dpo/gap_mean': 19.255733489990234, 'beta_dpo/gap_std': 20.56812286376953, 'beta_dpo/beta_used_raw': 0.08607316762208939, 'beta_dpo/beta_used': 0.08607316762208939, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5185415744781494, 'logits/rejected': -1.420533299446106, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▊                                                               | 300/681 [19:40<18:37,  2.93s/it][INFO|trainer.py:4307] 2026-04-24 02:11:28,266 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 02:11:28,266 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 02:11:28,266 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:21,  3.31it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:29,  2.35it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:33,  2.06it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:35,  1.93it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.82it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:35,  1.88it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:04<00:37,  1.74it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:37,  1.69it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.66it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:37,  1.67it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:37,  1.64it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:35,  1.68it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.65it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:35,  1.66it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.60it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.58it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:34,  1.57it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:11<00:34,  1.56it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:34,  1.55it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:33,  1.54it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:13<00:33,  1.53it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:32,  1.56it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.57it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.59it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:29,  1.59it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.77it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.72it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.74it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:24,  1.75it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.68it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:23,  1.72it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.73it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:20<00:22,  1.70it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:23,  1.63it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:22,  1.63it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.63it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:20,  1.71it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:20,  1.64it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.71it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:18,  1.67it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:17,  1.69it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.67it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.61it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.68it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.65it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.64it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.62it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:14,  1.64it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.61it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:31<00:13,  1.58it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:12,  1.55it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.65it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.64it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.68it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:09,  1.62it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:08,  1.67it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:07,  1.65it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.63it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:37<00:06,  1.65it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.74it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:38<00:05,  1.76it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.74it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:04,  1.66it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.70it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.67it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:41<00:02,  1.63it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.62it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.63it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:43<00:00,  1.63it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.6556317806243896, 'eval_runtime': 44.1723, 'eval_samples_per_second': 52.952, 'eval_steps_per_second': 1.675, 'eval_beta_dpo/gap_mean': 19.238937377929688, 'eval_beta_dpo/gap_std': 20.832778930664062, 'eval_beta_dpo/beta_used_raw': -0.20379017293453217, 'eval_beta_dpo/beta_used': 0.014630923978984356, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -1.4133440256118774, 'eval_logits/rejected': -1.1125527620315552, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▊                                                               | 300/681 [20:24<18:37,  2.93s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s][A
                                                                                                                                                        [A 44%|█████████████████████████████████████████████████                                                              | 301/681 [20:27<1:42:08, 16.13s/it]                                                                                                                                                        {'loss': 0.3912, 'grad_norm': 40.82109832763672, 'learning_rate': 3.4388957558875316e-07, 'beta_dpo/gap_mean': 19.706905364990234, 'beta_dpo/gap_std': 20.81890869140625, 'beta_dpo/beta_used_raw': 0.16168291866779327, 'beta_dpo/beta_used': 0.16168291866779327, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.3794118165969849, 'logits/rejected': -0.6710242033004761, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████                                                              | 301/681 [20:27<1:42:08, 16.13s/it] 44%|█████████████████████████████████████████████████▏                                                             | 302/681 [20:30<1:16:54, 12.18s/it]                                                                                                                                                        {'loss': 0.9427, 'grad_norm': 20.73455810546875, 'learning_rate': 3.426989547989902e-07, 'beta_dpo/gap_mean': 19.474781036376953, 'beta_dpo/gap_std': 20.766199111938477, 'beta_dpo/beta_used_raw': -0.05097521096467972, 'beta_dpo/beta_used': 0.04608767479658127, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.3489367961883545, 'logits/rejected': -1.0147000551223755, 'epoch': 0.44}
 44%|█████████████████████████████████████████████████▏                                                             | 302/681 [20:30<1:16:54, 12.18s/it] 44%|██████████████████████████████████████████████████▎                                                              | 303/681 [20:33<59:19,  9.42s/it]                                                                                                                                                        {'loss': 0.5521, 'grad_norm': 67.36486053466797, 'learning_rate': 3.4150589130555773e-07, 'beta_dpo/gap_mean': 19.43286895751953, 'beta_dpo/gap_std': 20.82029914855957, 'beta_dpo/beta_used_raw': 0.19274744391441345, 'beta_dpo/beta_used': 0.19274744391441345, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.1536281108856201, 'logits/rejected': -1.2038754224777222, 'epoch': 0.44}
 44%|██████████████████████████████████████████████████▎                                                              | 303/681 [20:33<59:19,  9.42s/it] 45%|██████████████████████████████████████████████████▍                                                              | 304/681 [20:36<47:11,  7.51s/it]                                                                                                                                                        {'loss': 0.4345, 'grad_norm': 40.49778366088867, 'learning_rate': 3.403104165467883e-07, 'beta_dpo/gap_mean': 19.48892593383789, 'beta_dpo/gap_std': 20.469839096069336, 'beta_dpo/beta_used_raw': 0.22337572276592255, 'beta_dpo/beta_used': 0.22337572276592255, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.9870970249176025, 'logits/rejected': -1.7439109086990356, 'epoch': 0.45}
 45%|██████████████████████████████████████████████████▍                                                              | 304/681 [20:36<47:11,  7.51s/it] 45%|██████████████████████████████████████████████████▌                                                              | 305/681 [20:39<38:54,  6.21s/it]                                                                                                                                                        {'loss': 0.8585, 'grad_norm': 46.85494613647461, 'learning_rate': 3.391125620245535e-07, 'beta_dpo/gap_mean': 19.861440658569336, 'beta_dpo/gap_std': 20.17599105834961, 'beta_dpo/beta_used_raw': 0.0920034795999527, 'beta_dpo/beta_used': 0.23246397078037262, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7749977111816406, 'logits/rejected': -0.8431670069694519, 'epoch': 0.45}
 45%|██████████████████████████████████████████████████▌                                                              | 305/681 [20:39<38:54,  6.21s/it] 45%|██████████████████████████████████████████████████▊                                                              | 306/681 [20:42<32:45,  5.24s/it]                                                                                                                                                        {'loss': 0.1871, 'grad_norm': 19.110017776489258, 'learning_rate': 3.3791235930343417e-07, 'beta_dpo/gap_mean': 20.399768829345703, 'beta_dpo/gap_std': 19.314353942871094, 'beta_dpo/beta_used_raw': 0.19380076229572296, 'beta_dpo/beta_used': 0.19380076229572296, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.5655086040496826, 'logits/rejected': -1.0931357145309448, 'epoch': 0.45}
 45%|██████████████████████████████████████████████████▊                                                              | 306/681 [20:42<32:45,  5.24s/it] 45%|██████████████████████████████████████████████████▉                                                              | 307/681 [20:45<28:40,  4.60s/it]                                                                                                                                                        {'loss': 0.7641, 'grad_norm': 41.54376220703125, 'learning_rate': 3.367098400098881e-07, 'beta_dpo/gap_mean': 20.135807037353516, 'beta_dpo/gap_std': 19.544708251953125, 'beta_dpo/beta_used_raw': 0.08654443174600601, 'beta_dpo/beta_used': 0.08654443174600601, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.68919038772583, 'logits/rejected': -1.4870936870574951, 'epoch': 0.45}
 45%|██████████████████████████████████████████████████▉                                                              | 307/681 [20:45<28:40,  4.60s/it] 45%|███████████████████████████████████████████████████                                                              | 308/681 [20:48<25:45,  4.14s/it]                                                                                                                                                        {'loss': 1.3695, 'grad_norm': 0.8234802484512329, 'learning_rate': 3.355050358314172e-07, 'beta_dpo/gap_mean': 19.679759979248047, 'beta_dpo/gap_std': 19.862483978271484, 'beta_dpo/beta_used_raw': -0.062202103435993195, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.5247477293014526, 'logits/rejected': -1.2153220176696777, 'epoch': 0.45}
 45%|███████████████████████████████████████████████████                                                              | 308/681 [20:48<25:45,  4.14s/it] 45%|███████████████████████████████████████████████████▎                                                             | 309/681 [20:51<23:39,  3.81s/it]                                                                                                                                                        {'loss': 0.7467, 'grad_norm': 36.94253158569336, 'learning_rate': 3.3429797851573183e-07, 'beta_dpo/gap_mean': 19.294086456298828, 'beta_dpo/gap_std': 19.56965446472168, 'beta_dpo/beta_used_raw': 0.10133226960897446, 'beta_dpo/beta_used': 0.10133226960897446, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8994240760803223, 'logits/rejected': -1.6872971057891846, 'epoch': 0.45}
 45%|███████████████████████████████████████████████████▎                                                             | 309/681 [20:51<23:39,  3.81s/it] 46%|███████████████████████████████████████████████████▍                                                             | 310/681 [20:54<22:09,  3.58s/it]                                                                                                                                                        {'loss': 0.9784, 'grad_norm': 29.535703659057617, 'learning_rate': 3.3308869986991487e-07, 'beta_dpo/gap_mean': 18.949199676513672, 'beta_dpo/gap_std': 19.642480850219727, 'beta_dpo/beta_used_raw': 0.0014588460326194763, 'beta_dpo/beta_used': 0.07378049194812775, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.4717403650283813, 'logits/rejected': -1.187292218208313, 'epoch': 0.46}
 46%|███████████████████████████████████████████████████▍                                                             | 310/681 [20:54<22:09,  3.58s/it] 46%|███████████████████████████████████████████████████▌                                                             | 311/681 [20:57<20:39,  3.35s/it]                                                                                                                                                        {'loss': 1.0601, 'grad_norm': 18.50994110107422, 'learning_rate': 3.3187723175958346e-07, 'beta_dpo/gap_mean': 19.039033889770508, 'beta_dpo/gap_std': 19.660785675048828, 'beta_dpo/beta_used_raw': -0.04914240911602974, 'beta_dpo/beta_used': 0.035632696002721786, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.74489426612854, 'logits/rejected': -0.8437553644180298, 'epoch': 0.46}
 46%|███████████████████████████████████████████████████▌                                                             | 311/681 [20:57<20:39,  3.35s/it] 46%|███████████████████████████████████████████████████▊                                                             | 312/681 [21:00<19:28,  3.17s/it]                                                                                                                                                        {'loss': 0.4036, 'grad_norm': 57.05311965942383, 'learning_rate': 3.306636061080487e-07, 'beta_dpo/gap_mean': 19.256107330322266, 'beta_dpo/gap_std': 19.863792419433594, 'beta_dpo/beta_used_raw': 0.26365670561790466, 'beta_dpo/beta_used': 0.26365670561790466, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.6745738983154297, 'logits/rejected': -1.0429904460906982, 'epoch': 0.46}
 46%|███████████████████████████████████████████████████▊                                                             | 312/681 [21:00<19:28,  3.17s/it] 46%|███████████████████████████████████████████████████▉                                                             | 313/681 [21:02<18:25,  3.00s/it]                                                                                                                                                        {'loss': 1.0697, 'grad_norm': 18.35624885559082, 'learning_rate': 3.2944785489547537e-07, 'beta_dpo/gap_mean': 19.125635147094727, 'beta_dpo/gap_std': 19.95581817626953, 'beta_dpo/beta_used_raw': 0.0052652303129434586, 'beta_dpo/beta_used': 0.027451997622847557, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.5230427980422974, 'logits/rejected': -1.2524843215942383, 'epoch': 0.46}
 46%|███████████████████████████████████████████████████▉                                                             | 313/681 [21:02<18:25,  3.00s/it] 46%|████████████████████████████████████████████████████                                                             | 314/681 [21:05<18:10,  2.97s/it]                                                                                                                                                        {'loss': 0.7265, 'grad_norm': 36.80620574951172, 'learning_rate': 3.2823001015803857e-07, 'beta_dpo/gap_mean': 19.45569610595703, 'beta_dpo/gap_std': 20.40787124633789, 'beta_dpo/beta_used_raw': 0.11080139130353928, 'beta_dpo/beta_used': 0.11080139130353928, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -3.1518020629882812, 'logits/rejected': -2.7199316024780273, 'epoch': 0.46}
 46%|████████████████████████████████████████████████████                                                             | 314/681 [21:05<18:10,  2.97s/it] 46%|████████████████████████████████████████████████████▎                                                            | 315/681 [21:08<17:50,  2.92s/it]                                                                                                                                                        {'loss': 0.9081, 'grad_norm': 33.03825378417969, 'learning_rate': 3.270101039870797e-07, 'beta_dpo/gap_mean': 19.23229217529297, 'beta_dpo/gap_std': 20.247135162353516, 'beta_dpo/beta_used_raw': 0.033276014029979706, 'beta_dpo/beta_used': 0.10506674647331238, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.4115521907806396, 'logits/rejected': -1.6197593212127686, 'epoch': 0.46}
 46%|████████████████████████████████████████████████████▎                                                            | 315/681 [21:08<17:50,  2.92s/it] 46%|████████████████████████████████████████████████████▍                                                            | 316/681 [21:11<17:57,  2.95s/it]                                                                                                                                                        {'loss': 1.0036, 'grad_norm': 23.41454315185547, 'learning_rate': 3.2578816852826086e-07, 'beta_dpo/gap_mean': 18.893306732177734, 'beta_dpo/gap_std': 20.267620086669922, 'beta_dpo/beta_used_raw': 0.01636468805372715, 'beta_dpo/beta_used': 0.04140298068523407, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0961880683898926, 'logits/rejected': -1.3026573657989502, 'epoch': 0.46}
 46%|████████████████████████████████████████████████████▍                                                            | 316/681 [21:11<17:57,  2.95s/it] 47%|████████████████████████████████████████████████████▌                                                            | 317/681 [21:14<17:56,  2.96s/it]                                                                                                                                                        {'loss': 0.6744, 'grad_norm': 48.166709899902344, 'learning_rate': 3.2456423598071783e-07, 'beta_dpo/gap_mean': 20.042945861816406, 'beta_dpo/gap_std': 20.478172302246094, 'beta_dpo/beta_used_raw': 0.19719788432121277, 'beta_dpo/beta_used': 0.19719788432121277, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.067380905151367, 'logits/rejected': -1.5481832027435303, 'epoch': 0.47}
 47%|████████████████████████████████████████████████████▌                                                            | 317/681 [21:14<17:56,  2.96s/it] 47%|████████████████████████████████████████████████████▊                                                            | 318/681 [21:17<17:30,  2.89s/it]                                                                                                                                                        {'loss': 0.5404, 'grad_norm': 22.07493019104004, 'learning_rate': 3.233383385962115e-07, 'beta_dpo/gap_mean': 20.607425689697266, 'beta_dpo/gap_std': 20.436546325683594, 'beta_dpo/beta_used_raw': 0.09255687892436981, 'beta_dpo/beta_used': 0.09255687892436981, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4881207942962646, 'logits/rejected': -1.3716187477111816, 'epoch': 0.47}
 47%|████████████████████████████████████████████████████▊                                                            | 318/681 [21:17<17:30,  2.89s/it] 47%|████████████████████████████████████████████████████▉                                                            | 319/681 [21:20<17:41,  2.93s/it]                                                                                                                                                        {'loss': 0.9557, 'grad_norm': 16.44093132019043, 'learning_rate': 3.2211050867827805e-07, 'beta_dpo/gap_mean': 20.835041046142578, 'beta_dpo/gap_std': 20.766437530517578, 'beta_dpo/beta_used_raw': 0.030920254066586494, 'beta_dpo/beta_used': 0.04406355693936348, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.8453693389892578, 'logits/rejected': -1.4117746353149414, 'epoch': 0.47}
 47%|████████████████████████████████████████████████████▉                                                            | 319/681 [21:20<17:41,  2.93s/it] 47%|█████████████████████████████████████████████████████                                                            | 320/681 [21:23<18:00,  2.99s/it]                                                                                                                                                        {'loss': 1.3674, 'grad_norm': 0.6617114543914795, 'learning_rate': 3.208807785813777e-07, 'beta_dpo/gap_mean': 20.911170959472656, 'beta_dpo/gap_std': 20.606945037841797, 'beta_dpo/beta_used_raw': -0.02245442382991314, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.3459713459014893, 'logits/rejected': -2.076826572418213, 'epoch': 0.47}
 47%|█████████████████████████████████████████████████████                                                            | 320/681 [21:23<18:00,  2.99s/it] 47%|█████████████████████████████████████████████████████▎                                                           | 321/681 [21:26<17:37,  2.94s/it]                                                                                                                                                        {'loss': 1.1559, 'grad_norm': 83.28850555419922, 'learning_rate': 3.1964918071004217e-07, 'beta_dpo/gap_mean': 21.156105041503906, 'beta_dpo/gap_std': 20.89751625061035, 'beta_dpo/beta_used_raw': 0.17031897604465485, 'beta_dpo/beta_used': 0.20259536802768707, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.2465331554412842, 'logits/rejected': -0.7227134704589844, 'epoch': 0.47}
 47%|█████████████████████████████████████████████████████▎                                                           | 321/681 [21:26<17:37,  2.94s/it] 47%|█████████████████████████████████████████████████████▍                                                           | 322/681 [21:29<17:39,  2.95s/it]                                                                                                                                                        {'loss': 0.894, 'grad_norm': 54.43437576293945, 'learning_rate': 3.184157475180207e-07, 'beta_dpo/gap_mean': 21.687091827392578, 'beta_dpo/gap_std': 21.04585075378418, 'beta_dpo/beta_used_raw': 0.1414235532283783, 'beta_dpo/beta_used': 0.16320009529590607, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.6666946411132812, 'logits/rejected': -1.5545620918273926, 'epoch': 0.47}
 47%|█████████████████████████████████████████████████████▍                                                           | 322/681 [21:29<17:39,  2.95s/it] 47%|█████████████████████████████████████████████████████▌                                                           | 323/681 [21:32<17:44,  2.97s/it]                                                                                                                                                        {'loss': 1.3672, 'grad_norm': 0.6268118619918823, 'learning_rate': 3.171805115074251e-07, 'beta_dpo/gap_mean': 21.5245361328125, 'beta_dpo/gap_std': 20.66463851928711, 'beta_dpo/beta_used_raw': -0.03169306740164757, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8980016708374023, 'logits/rejected': -1.7553255558013916, 'epoch': 0.47}
 47%|█████████████████████████████████████████████████████▌                                                           | 323/681 [21:32<17:44,  2.97s/it] 48%|█████████████████████████████████████████████████████▊                                                           | 324/681 [21:35<17:33,  2.95s/it]                                                                                                                                                        {'loss': 0.7511, 'grad_norm': 9.876269340515137, 'learning_rate': 3.1594350522787295e-07, 'beta_dpo/gap_mean': 21.520673751831055, 'beta_dpo/gap_std': 20.412513732910156, 'beta_dpo/beta_used_raw': 0.036237284541130066, 'beta_dpo/beta_used': 0.09208405017852783, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.019019365310669, 'logits/rejected': -1.5792837142944336, 'epoch': 0.48}
 48%|█████████████████████████████████████████████████████▊                                                           | 324/681 [21:35<17:33,  2.95s/it] 48%|█████████████████████████████████████████████████████▉                                                           | 325/681 [21:38<17:44,  2.99s/it]                                                                                                                                                        {'loss': 1.3667, 'grad_norm': 0.5373139977455139, 'learning_rate': 3.147047612756302e-07, 'beta_dpo/gap_mean': 21.458913803100586, 'beta_dpo/gap_std': 20.22439956665039, 'beta_dpo/beta_used_raw': -0.023323828354477882, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.8162975311279297, 'logits/rejected': -1.1010674238204956, 'epoch': 0.48}
 48%|█████████████████████████████████████████████████████▉                                                           | 325/681 [21:38<17:44,  2.99s/it] 48%|██████████████████████████████████████████████████████                                                           | 326/681 [21:41<17:34,  2.97s/it]                                                                                                                                                        {'loss': 1.3703, 'grad_norm': 0.5610789060592651, 'learning_rate': 3.134643122927519e-07, 'beta_dpo/gap_mean': 20.929393768310547, 'beta_dpo/gap_std': 19.83502197265625, 'beta_dpo/beta_used_raw': -0.14518536627292633, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.363149642944336, 'logits/rejected': -1.5660017728805542, 'epoch': 0.48}
 48%|██████████████████████████████████████████████████████                                                           | 326/681 [21:41<17:34,  2.97s/it] 48%|██████████████████████████████████████████████████████▎                                                          | 327/681 [21:44<17:40,  3.00s/it]                                                                                                                                                        {'loss': 0.9766, 'grad_norm': 44.85610580444336, 'learning_rate': 3.1222219096622264e-07, 'beta_dpo/gap_mean': 21.300310134887695, 'beta_dpo/gap_std': 20.118789672851562, 'beta_dpo/beta_used_raw': 0.07866226136684418, 'beta_dpo/beta_used': 0.08452271670103073, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.5472209453582764, 'logits/rejected': -2.0613203048706055, 'epoch': 0.48}
 48%|██████████████████████████████████████████████████████▎                                                          | 327/681 [21:44<17:40,  3.00s/it] 48%|██████████████████████████████████████████████████████▍                                                          | 328/681 [21:47<17:45,  3.02s/it]                                                                                                                                                        {'loss': 0.8666, 'grad_norm': 38.4698600769043, 'learning_rate': 3.1097843002709427e-07, 'beta_dpo/gap_mean': 21.73531150817871, 'beta_dpo/gap_std': 20.580921173095703, 'beta_dpo/beta_used_raw': 0.07303038239479065, 'beta_dpo/beta_used': 0.13179154694080353, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9203963875770569, 'logits/rejected': -0.6813238859176636, 'epoch': 0.48}
 48%|██████████████████████████████████████████████████████▍                                                          | 328/681 [21:47<17:45,  3.02s/it] 48%|██████████████████████████████████████████████████████▌                                                          | 329/681 [21:50<17:20,  2.96s/it]                                                                                                                                                        {'loss': 0.8328, 'grad_norm': 55.4683952331543, 'learning_rate': 3.0973306224962437e-07, 'beta_dpo/gap_mean': 22.007827758789062, 'beta_dpo/gap_std': 20.543258666992188, 'beta_dpo/beta_used_raw': 0.1339118927717209, 'beta_dpo/beta_used': 0.1431805044412613, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8243393898010254, 'logits/rejected': -1.4740062952041626, 'epoch': 0.48}
 48%|██████████████████████████████████████████████████████▌                                                          | 329/681 [21:50<17:20,  2.96s/it] 48%|██████████████████████████████████████████████████████▊                                                          | 330/681 [21:52<17:09,  2.93s/it]                                                                                                                                                        {'loss': 0.8165, 'grad_norm': 14.09010124206543, 'learning_rate': 3.084861204504122e-07, 'beta_dpo/gap_mean': 21.95925521850586, 'beta_dpo/gap_std': 20.08019256591797, 'beta_dpo/beta_used_raw': 0.05155743658542633, 'beta_dpo/beta_used': 0.06974449753761292, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7235432267189026, 'logits/rejected': -0.7327295541763306, 'epoch': 0.48}
 48%|██████████████████████████████████████████████████████▊                                                          | 330/681 [21:53<17:09,  2.93s/it] 49%|██████████████████████████████████████████████████████▉                                                          | 331/681 [21:55<16:54,  2.90s/it]                                                                                                                                                        {'loss': 0.8817, 'grad_norm': 49.20895767211914, 'learning_rate': 3.072376374875335e-07, 'beta_dpo/gap_mean': 22.12273406982422, 'beta_dpo/gap_std': 19.910371780395508, 'beta_dpo/beta_used_raw': 0.10686216503381729, 'beta_dpo/beta_used': 0.14360512793064117, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7908895015716553, 'logits/rejected': -1.774251937866211, 'epoch': 0.49}
 49%|██████████████████████████████████████████████████████▉                                                          | 331/681 [21:55<16:54,  2.90s/it] 49%|███████████████████████████████████████████████████████                                                          | 332/681 [21:58<16:51,  2.90s/it]                                                                                                                                                        {'loss': 1.3702, 'grad_norm': 0.5669689774513245, 'learning_rate': 3.059876462596758e-07, 'beta_dpo/gap_mean': 21.41480827331543, 'beta_dpo/gap_std': 19.71676254272461, 'beta_dpo/beta_used_raw': -0.21645134687423706, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -3.0013060569763184, 'logits/rejected': -2.7014455795288086, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████                                                          | 332/681 [21:58<16:51,  2.90s/it] 49%|███████████████████████████████████████████████████████▎                                                         | 333/681 [22:01<16:26,  2.84s/it]                                                                                                                                                        {'loss': 0.5863, 'grad_norm': 63.755741119384766, 'learning_rate': 3.0473617970527015e-07, 'beta_dpo/gap_mean': 21.477094650268555, 'beta_dpo/gap_std': 20.913185119628906, 'beta_dpo/beta_used_raw': 0.26773303747177124, 'beta_dpo/beta_used': 0.26773303747177124, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.101442575454712, 'logits/rejected': -1.8676471710205078, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████▎                                                         | 333/681 [22:01<16:26,  2.84s/it] 49%|███████████████████████████████████████████████████████▍                                                         | 334/681 [22:04<16:25,  2.84s/it]                                                                                                                                                        {'loss': 0.9373, 'grad_norm': 15.362908363342285, 'learning_rate': 3.034832708016243e-07, 'beta_dpo/gap_mean': 21.293357849121094, 'beta_dpo/gap_std': 21.081459045410156, 'beta_dpo/beta_used_raw': -0.0196581669151783, 'beta_dpo/beta_used': 0.03854161128401756, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1139665842056274, 'logits/rejected': -0.9013174772262573, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████▍                                                         | 334/681 [22:04<16:25,  2.84s/it] 49%|███████████████████████████████████████████████████████▌                                                         | 335/681 [22:07<16:26,  2.85s/it]                                                                                                                                                        {'loss': 1.2298, 'grad_norm': 6.62734842300415, 'learning_rate': 3.022289525640531e-07, 'beta_dpo/gap_mean': 20.568031311035156, 'beta_dpo/gap_std': 20.87885093688965, 'beta_dpo/beta_used_raw': -0.07118765264749527, 'beta_dpo/beta_used': 0.00933966413140297, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.6309964656829834, 'logits/rejected': -1.9602861404418945, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████▌                                                         | 335/681 [22:07<16:26,  2.85s/it] 49%|███████████████████████████████████████████████████████▊                                                         | 336/681 [22:10<16:44,  2.91s/it]                                                                                                                                                        {'loss': 0.8782, 'grad_norm': 31.968475341796875, 'learning_rate': 3.009732580450086e-07, 'beta_dpo/gap_mean': 20.350025177001953, 'beta_dpo/gap_std': 21.055912017822266, 'beta_dpo/beta_used_raw': 0.046571940183639526, 'beta_dpo/beta_used': 0.09196795523166656, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0544962882995605, 'logits/rejected': -1.6155023574829102, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████▊                                                         | 336/681 [22:10<16:44,  2.91s/it] 49%|███████████████████████████████████████████████████████▉                                                         | 337/681 [22:12<16:13,  2.83s/it]                                                                                                                                                        {'loss': 0.8887, 'grad_norm': 17.768884658813477, 'learning_rate': 2.9971622033320914e-07, 'beta_dpo/gap_mean': 20.489887237548828, 'beta_dpo/gap_std': 21.286602020263672, 'beta_dpo/beta_used_raw': 0.039065878838300705, 'beta_dpo/beta_used': 0.039065878838300705, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.2330615520477295, 'logits/rejected': -1.8793858289718628, 'epoch': 0.49}
 49%|███████████████████████████████████████████████████████▉                                                         | 337/681 [22:12<16:13,  2.83s/it] 50%|████████████████████████████████████████████████████████                                                         | 338/681 [22:15<16:16,  2.85s/it]                                                                                                                                                        {'loss': 1.3685, 'grad_norm': 0.6294784545898438, 'learning_rate': 2.984578725527675e-07, 'beta_dpo/gap_mean': 20.25599479675293, 'beta_dpo/gap_std': 20.72097396850586, 'beta_dpo/beta_used_raw': -0.03587936982512474, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.2754828929901123, 'logits/rejected': -1.6043195724487305, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████                                                         | 338/681 [22:15<16:16,  2.85s/it] 50%|████████████████████████████████████████████████████████▎                                                        | 339/681 [22:18<15:42,  2.75s/it]                                                                                                                                                        {'loss': 0.3035, 'grad_norm': 38.84512710571289, 'learning_rate': 2.9719824786231796e-07, 'beta_dpo/gap_mean': 20.265918731689453, 'beta_dpo/gap_std': 20.91079330444336, 'beta_dpo/beta_used_raw': 0.21255150437355042, 'beta_dpo/beta_used': 0.21255150437355042, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.450939178466797, 'logits/rejected': -1.6690856218338013, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████▎                                                        | 339/681 [22:18<15:42,  2.75s/it] 50%|████████████████████████████████████████████████████████▍                                                        | 340/681 [22:21<16:09,  2.84s/it]                                                                                                                                                        {'loss': 0.9428, 'grad_norm': 42.127742767333984, 'learning_rate': 2.959373794541426e-07, 'beta_dpo/gap_mean': 20.259986877441406, 'beta_dpo/gap_std': 20.784656524658203, 'beta_dpo/beta_used_raw': 0.05626142397522926, 'beta_dpo/beta_used': 0.0905815064907074, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.23517589271068573, 'logits/rejected': -0.11417008936405182, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████▍                                                        | 340/681 [22:21<16:09,  2.84s/it] 50%|████████████████████████████████████████████████████████▌                                                        | 341/681 [22:23<15:39,  2.76s/it]                                                                                                                                                        {'loss': 0.8317, 'grad_norm': 49.7312126159668, 'learning_rate': 2.946753005532965e-07, 'beta_dpo/gap_mean': 20.340232849121094, 'beta_dpo/gap_std': 20.545101165771484, 'beta_dpo/beta_used_raw': 0.1087593138217926, 'beta_dpo/beta_used': 0.14896519482135773, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1599042415618896, 'logits/rejected': -0.9632190465927124, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████▌                                                        | 341/681 [22:23<15:39,  2.76s/it] 50%|████████████████████████████████████████████████████████▋                                                        | 342/681 [22:26<16:02,  2.84s/it]                                                                                                                                                        {'loss': 0.3666, 'grad_norm': 77.49415588378906, 'learning_rate': 2.934120444167326e-07, 'beta_dpo/gap_mean': 21.331052780151367, 'beta_dpo/gap_std': 20.33488655090332, 'beta_dpo/beta_used_raw': 0.21445688605308533, 'beta_dpo/beta_used': 0.21445688605308533, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.7246596813201904, 'logits/rejected': -0.9319741129875183, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████▋                                                        | 342/681 [22:26<16:02,  2.84s/it] 50%|████████████████████████████████████████████████████████▉                                                        | 343/681 [22:29<15:52,  2.82s/it]                                                                                                                                                        {'loss': 0.6043, 'grad_norm': 30.1379451751709, 'learning_rate': 2.9214764433242476e-07, 'beta_dpo/gap_mean': 21.743297576904297, 'beta_dpo/gap_std': 19.88051986694336, 'beta_dpo/beta_used_raw': 0.1534561663866043, 'beta_dpo/beta_used': 0.1534561663866043, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0510997772216797, 'logits/rejected': -1.7147619724273682, 'epoch': 0.5}
 50%|████████████████████████████████████████████████████████▉                                                        | 343/681 [22:29<15:52,  2.82s/it] 51%|█████████████████████████████████████████████████████████                                                        | 344/681 [22:32<15:45,  2.80s/it]                                                                                                                                                        {'loss': 0.7821, 'grad_norm': 17.113056182861328, 'learning_rate': 2.9088213361849126e-07, 'beta_dpo/gap_mean': 22.24991226196289, 'beta_dpo/gap_std': 20.18541145324707, 'beta_dpo/beta_used_raw': 0.07776373624801636, 'beta_dpo/beta_used': 0.14332126080989838, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8417720794677734, 'logits/rejected': -1.6827924251556396, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████                                                        | 344/681 [22:32<15:45,  2.80s/it] 51%|█████████████████████████████████████████████████████████▏                                                       | 345/681 [22:35<16:05,  2.87s/it]                                                                                                                                                        {'loss': 1.3691, 'grad_norm': 0.6480767726898193, 'learning_rate': 2.896155456223163e-07, 'beta_dpo/gap_mean': 22.42481231689453, 'beta_dpo/gap_std': 20.958477020263672, 'beta_dpo/beta_used_raw': -0.19198331236839294, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.9061219692230225, 'logits/rejected': -1.5006232261657715, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████▏                                                       | 345/681 [22:35<16:05,  2.87s/it] 51%|█████████████████████████████████████████████████████████▍                                                       | 346/681 [22:38<15:52,  2.84s/it]                                                                                                                                                        {'loss': 1.367, 'grad_norm': 0.620153546333313, 'learning_rate': 2.883479137196714e-07, 'beta_dpo/gap_mean': 21.798906326293945, 'beta_dpo/gap_std': 21.57804298400879, 'beta_dpo/beta_used_raw': -0.06592794507741928, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.9283161163330078, 'logits/rejected': -1.6173841953277588, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████▍                                                       | 346/681 [22:38<15:52,  2.84s/it] 51%|█████████████████████████████████████████████████████████▌                                                       | 347/681 [22:40<15:21,  2.76s/it]                                                                                                                                                        {'loss': 1.3714, 'grad_norm': 0.632464587688446, 'learning_rate': 2.8707927131383614e-07, 'beta_dpo/gap_mean': 21.181474685668945, 'beta_dpo/gap_std': 21.699264526367188, 'beta_dpo/beta_used_raw': -0.30267396569252014, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.1111118793487549, 'logits/rejected': -0.6248849034309387, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████▌                                                       | 347/681 [22:40<15:21,  2.76s/it] 51%|█████████████████████████████████████████████████████████▋                                                       | 348/681 [22:43<15:02,  2.71s/it]                                                                                                                                                        {'loss': 0.9309, 'grad_norm': 90.56324768066406, 'learning_rate': 2.858096518347179e-07, 'beta_dpo/gap_mean': 20.678237915039062, 'beta_dpo/gap_std': 21.25815200805664, 'beta_dpo/beta_used_raw': 0.12307719141244888, 'beta_dpo/beta_used': 0.14382125437259674, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8461867570877075, 'logits/rejected': -1.9853928089141846, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████▋                                                       | 348/681 [22:43<15:02,  2.71s/it] 51%|█████████████████████████████████████████████████████████▉                                                       | 349/681 [22:46<15:23,  2.78s/it]                                                                                                                                                        {'loss': 0.887, 'grad_norm': 41.818668365478516, 'learning_rate': 2.845390887379706e-07, 'beta_dpo/gap_mean': 20.17742347717285, 'beta_dpo/gap_std': 21.435304641723633, 'beta_dpo/beta_used_raw': 0.019670851528644562, 'beta_dpo/beta_used': 0.1115606427192688, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.2712676525115967, 'logits/rejected': -2.359731674194336, 'epoch': 0.51}
 51%|█████████████████████████████████████████████████████████▉                                                       | 349/681 [22:46<15:23,  2.78s/it] 51%|██████████████████████████████████████████████████████████                                                       | 350/681 [22:49<15:40,  2.84s/it]                                                                                                                                                        {'loss': 0.9417, 'grad_norm': 18.32737159729004, 'learning_rate': 2.8326761550411346e-07, 'beta_dpo/gap_mean': 19.989093780517578, 'beta_dpo/gap_std': 20.79399299621582, 'beta_dpo/beta_used_raw': -0.012502066791057587, 'beta_dpo/beta_used': 0.04465498775243759, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5236661434173584, 'logits/rejected': -1.6363747119903564, 'epoch': 0.51}
 51%|██████████████████████████████████████████████████████████                                                       | 350/681 [22:49<15:40,  2.84s/it] 52%|██████████████████████████████████████████████████████████▏                                                      | 351/681 [22:52<15:59,  2.91s/it]                                                                                                                                                        {'loss': 0.5071, 'grad_norm': 72.1306381225586, 'learning_rate': 2.819952656376487e-07, 'beta_dpo/gap_mean': 20.557537078857422, 'beta_dpo/gap_std': 21.024560928344727, 'beta_dpo/beta_used_raw': 0.238266259431839, 'beta_dpo/beta_used': 0.238266259431839, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.2730485200881958, 'logits/rejected': -1.1638447046279907, 'epoch': 0.52}
 52%|██████████████████████████████████████████████████████████▏                                                      | 351/681 [22:52<15:59,  2.91s/it] 52%|██████████████████████████████████████████████████████████▍                                                      | 352/681 [22:55<15:58,  2.91s/it]                                                                                                                                                        {'loss': 0.967, 'grad_norm': 12.820404052734375, 'learning_rate': 2.8072207266617854e-07, 'beta_dpo/gap_mean': 20.560970306396484, 'beta_dpo/gap_std': 21.061851501464844, 'beta_dpo/beta_used_raw': -0.014997676014900208, 'beta_dpo/beta_used': 0.032640982419252396, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.1646246910095215, 'logits/rejected': -1.5866097211837769, 'epoch': 0.52}
 52%|██████████████████████████████████████████████████████████▍                                                      | 352/681 [22:55<15:58,  2.91s/it] 52%|██████████████████████████████████████████████████████████▌                                                      | 353/681 [22:58<15:53,  2.91s/it]                                                                                                                                                        {'loss': 1.3694, 'grad_norm': 0.5963950157165527, 'learning_rate': 2.794480701395219e-07, 'beta_dpo/gap_mean': 19.41574478149414, 'beta_dpo/gap_std': 20.40303611755371, 'beta_dpo/beta_used_raw': -0.03380546718835831, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.016444206237793, 'logits/rejected': -1.8473145961761475, 'epoch': 0.52}
 52%|██████████████████████████████████████████████████████████▌                                                      | 353/681 [22:58<15:53,  2.91s/it] 52%|██████████████████████████████████████████████████████████▋                                                      | 354/681 [23:01<16:03,  2.95s/it]                                                                                                                                                        {'loss': 1.1316, 'grad_norm': 10.177046775817871, 'learning_rate': 2.781732916288303e-07, 'beta_dpo/gap_mean': 19.44772720336914, 'beta_dpo/gap_std': 20.172094345092773, 'beta_dpo/beta_used_raw': 0.0027513625100255013, 'beta_dpo/beta_used': 0.01778414286673069, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.242934226989746, 'logits/rejected': -1.9050970077514648, 'epoch': 0.52}
 52%|██████████████████████████████████████████████████████████▋                                                      | 354/681 [23:01<16:03,  2.95s/it] 52%|██████████████████████████████████████████████████████████▉                                                      | 355/681 [23:04<15:47,  2.91s/it]                                                                                                                                                        {'loss': 1.0111, 'grad_norm': 18.826129913330078, 'learning_rate': 2.7689777072570284e-07, 'beta_dpo/gap_mean': 20.053104400634766, 'beta_dpo/gap_std': 20.282699584960938, 'beta_dpo/beta_used_raw': 0.02209782786667347, 'beta_dpo/beta_used': 0.04900088161230087, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.6832900047302246, 'logits/rejected': -2.443674087524414, 'epoch': 0.52}
 52%|██████████████████████████████████████████████████████████▉                                                      | 355/681 [23:04<15:47,  2.91s/it] 52%|███████████████████████████████████████████████████████████                                                      | 356/681 [23:07<16:02,  2.96s/it]                                                                                                                                                        {'loss': 1.2255, 'grad_norm': 7.324426651000977, 'learning_rate': 2.7562154104130176e-07, 'beta_dpo/gap_mean': 19.223495483398438, 'beta_dpo/gap_std': 20.17916488647461, 'beta_dpo/beta_used_raw': -0.09082677960395813, 'beta_dpo/beta_used': 0.011569945141673088, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -1.615821361541748, 'logits/rejected': -1.0635333061218262, 'epoch': 0.52}
 52%|███████████████████████████████████████████████████████████                                                      | 356/681 [23:07<16:02,  2.96s/it] 52%|███████████████████████████████████████████████████████████▏                                                     | 357/681 [23:10<16:05,  2.98s/it]                                                                                                                                                        {'loss': 0.2297, 'grad_norm': 41.16965103149414, 'learning_rate': 2.7434463620546594e-07, 'beta_dpo/gap_mean': 19.8756160736084, 'beta_dpo/gap_std': 20.011764526367188, 'beta_dpo/beta_used_raw': 0.33572131395339966, 'beta_dpo/beta_used': 0.33572131395339966, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.359694242477417, 'logits/rejected': -1.2512187957763672, 'epoch': 0.52}
 52%|███████████████████████████████████████████████████████████▏                                                     | 357/681 [23:10<16:05,  2.98s/it] 53%|███████████████████████████████████████████████████████████▍                                                     | 358/681 [23:13<16:30,  3.07s/it]                                                                                                                                                        {'loss': 1.3711, 'grad_norm': 0.6093282103538513, 'learning_rate': 2.730670898658255e-07, 'beta_dpo/gap_mean': 19.743938446044922, 'beta_dpo/gap_std': 20.232032775878906, 'beta_dpo/beta_used_raw': -0.13100573420524597, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.9155205488204956, 'logits/rejected': -1.704842209815979, 'epoch': 0.53}
 53%|███████████████████████████████████████████████████████████▍                                                     | 358/681 [23:13<16:30,  3.07s/it] 53%|███████████████████████████████████████████████████████████▌                                                     | 359/681 [23:16<16:10,  3.02s/it]                                                                                                                                                        {'loss': 1.1387, 'grad_norm': 13.17918872833252, 'learning_rate': 2.717889356869146e-07, 'beta_dpo/gap_mean': 19.536911010742188, 'beta_dpo/gap_std': 20.790668487548828, 'beta_dpo/beta_used_raw': -0.15173041820526123, 'beta_dpo/beta_used': 0.021278539672493935, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.165461540222168, 'logits/rejected': -0.9831835031509399, 'epoch': 0.53}
 53%|███████████████████████████████████████████████████████████▌                                                     | 359/681 [23:16<16:10,  3.02s/it] 53%|███████████████████████████████████████████████████████████▋                                                     | 360/681 [23:19<15:51,  2.96s/it]                                                                                                                                                        {'loss': 0.3159, 'grad_norm': 29.0384578704834, 'learning_rate': 2.7051020734928443e-07, 'beta_dpo/gap_mean': 18.98889923095703, 'beta_dpo/gap_std': 20.544391632080078, 'beta_dpo/beta_used_raw': 0.20132240653038025, 'beta_dpo/beta_used': 0.20132240653038025, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4908459186553955, 'logits/rejected': -1.3189365863800049, 'epoch': 0.53}
 53%|███████████████████████████████████████████████████████████▋                                                     | 360/681 [23:19<15:51,  2.96s/it] 53%|███████████████████████████████████████████████████████████▉                                                     | 361/681 [23:22<15:55,  2.99s/it]                                                                                                                                                        {'loss': 1.0874, 'grad_norm': 15.58735466003418, 'learning_rate': 2.6923093854861593e-07, 'beta_dpo/gap_mean': 19.088459014892578, 'beta_dpo/gap_std': 20.403377532958984, 'beta_dpo/beta_used_raw': -0.03345338627696037, 'beta_dpo/beta_used': 0.0302118007093668, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.501673936843872, 'logits/rejected': -0.7541710138320923, 'epoch': 0.53}
 53%|███████████████████████████████████████████████████████████▉                                                     | 361/681 [23:22<15:55,  2.99s/it] 53%|████████████████████████████████████████████████████████████                                                     | 362/681 [23:24<15:20,  2.88s/it]                                                                                                                                                        {'loss': 0.3577, 'grad_norm': 54.79500198364258, 'learning_rate': 2.679511629948319e-07, 'beta_dpo/gap_mean': 20.01319122314453, 'beta_dpo/gap_std': 21.248180389404297, 'beta_dpo/beta_used_raw': 0.3873189687728882, 'beta_dpo/beta_used': 0.3873189687728882, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.0194931030273438, 'logits/rejected': -0.6144936084747314, 'epoch': 0.53}
 53%|████████████████████████████████████████████████████████████                                                     | 362/681 [23:24<15:20,  2.88s/it] 53%|████████████████████████████████████████████████████████████▏                                                    | 363/681 [23:27<15:01,  2.84s/it]                                                                                                                                                        {'loss': 0.5138, 'grad_norm': 74.15052032470703, 'learning_rate': 2.6667091441120816e-07, 'beta_dpo/gap_mean': 20.988332748413086, 'beta_dpo/gap_std': 21.32819938659668, 'beta_dpo/beta_used_raw': 0.24340449273586273, 'beta_dpo/beta_used': 0.24340449273586273, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7819249629974365, 'logits/rejected': -1.423370122909546, 'epoch': 0.53}
 53%|████████████████████████████████████████████████████████████▏                                                    | 363/681 [23:27<15:01,  2.84s/it] 53%|████████████████████████████████████████████████████████████▍                                                    | 364/681 [23:30<15:09,  2.87s/it]                                                                                                                                                        {'loss': 0.7728, 'grad_norm': 32.2479248046875, 'learning_rate': 2.6539022653348575e-07, 'beta_dpo/gap_mean': 20.825626373291016, 'beta_dpo/gap_std': 20.912500381469727, 'beta_dpo/beta_used_raw': 0.04012212157249451, 'beta_dpo/beta_used': 0.2154492437839508, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.2419793605804443, 'logits/rejected': -1.2207051515579224, 'epoch': 0.53}
 53%|████████████████████████████████████████████████████████████▍                                                    | 364/681 [23:30<15:09,  2.87s/it] 54%|████████████████████████████████████████████████████████████▌                                                    | 365/681 [23:33<15:04,  2.86s/it]                                                                                                                                                        {'loss': 1.018, 'grad_norm': 28.152324676513672, 'learning_rate': 2.641091331089811e-07, 'beta_dpo/gap_mean': 21.15119171142578, 'beta_dpo/gap_std': 21.144515991210938, 'beta_dpo/beta_used_raw': 0.0367172546684742, 'beta_dpo/beta_used': 0.06870291382074356, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.8173648118972778, 'logits/rejected': -1.5551416873931885, 'epoch': 0.54}
 54%|████████████████████████████████████████████████████████████▌                                                    | 365/681 [23:33<15:04,  2.86s/it] 54%|████████████████████████████████████████████████████████████▋                                                    | 366/681 [23:36<15:07,  2.88s/it]                                                                                                                                                        {'loss': 1.3686, 'grad_norm': 0.6190149784088135, 'learning_rate': 2.6282766789569736e-07, 'beta_dpo/gap_mean': 21.803970336914062, 'beta_dpo/gap_std': 22.21269989013672, 'beta_dpo/beta_used_raw': -0.12697885930538177, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.9114937782287598, 'logits/rejected': -1.516441822052002, 'epoch': 0.54}
 54%|████████████████████████████████████████████████████████████▋                                                    | 366/681 [23:36<15:07,  2.88s/it] 54%|████████████████████████████████████████████████████████████▉                                                    | 367/681 [23:39<15:20,  2.93s/it]                                                                                                                                                        {'loss': 0.1925, 'grad_norm': 23.619152069091797, 'learning_rate': 2.615458646614349e-07, 'beta_dpo/gap_mean': 21.763540267944336, 'beta_dpo/gap_std': 21.840267181396484, 'beta_dpo/beta_used_raw': 0.187638521194458, 'beta_dpo/beta_used': 0.187638521194458, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.946923017501831, 'logits/rejected': -0.6229996681213379, 'epoch': 0.54}
 54%|████████████████████████████████████████████████████████████▉                                                    | 367/681 [23:39<15:20,  2.93s/it] 54%|█████████████████████████████████████████████████████████████                                                    | 368/681 [23:42<15:18,  2.93s/it]                                                                                                                                                        {'loss': 0.3787, 'grad_norm': 55.797672271728516, 'learning_rate': 2.6026375718290083e-07, 'beta_dpo/gap_mean': 21.924060821533203, 'beta_dpo/gap_std': 21.678436279296875, 'beta_dpo/beta_used_raw': 0.21771633625030518, 'beta_dpo/beta_used': 0.21771633625030518, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.2728760242462158, 'logits/rejected': -1.2920920848846436, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████████████████                                                    | 368/681 [23:42<15:18,  2.93s/it] 54%|█████████████████████████████████████████████████████████████▏                                                   | 369/681 [23:45<15:22,  2.96s/it]                                                                                                                                                        {'loss': 1.3669, 'grad_norm': 0.6155146360397339, 'learning_rate': 2.589813792448196e-07, 'beta_dpo/gap_mean': 21.91362953186035, 'beta_dpo/gap_std': 20.918893814086914, 'beta_dpo/beta_used_raw': -0.0573999285697937, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5803459882736206, 'logits/rejected': -1.3985533714294434, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████████████████▏                                                   | 369/681 [23:45<15:22,  2.96s/it] 54%|█████████████████████████████████████████████████████████████▍                                                   | 370/681 [23:48<15:32,  3.00s/it]                                                                                                                                                        {'loss': 0.8251, 'grad_norm': 20.048946380615234, 'learning_rate': 2.5769876463904263e-07, 'beta_dpo/gap_mean': 21.337799072265625, 'beta_dpo/gap_std': 20.956153869628906, 'beta_dpo/beta_used_raw': 0.05128272622823715, 'beta_dpo/beta_used': 0.05128272622823715, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6505661010742188, 'logits/rejected': -1.9167686700820923, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████████████████▍                                                   | 370/681 [23:48<15:32,  3.00s/it] 54%|█████████████████████████████████████████████████████████████▌                                                   | 371/681 [23:51<15:40,  3.03s/it]                                                                                                                                                        {'loss': 1.3694, 'grad_norm': 0.6783925294876099, 'learning_rate': 2.5641594716365744e-07, 'beta_dpo/gap_mean': 20.49684715270996, 'beta_dpo/gap_std': 21.171977996826172, 'beta_dpo/beta_used_raw': -0.1542610377073288, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2043266296386719, 'logits/rejected': -0.6036630868911743, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████████████████▌                                                   | 371/681 [23:51<15:40,  3.03s/it] 55%|█████████████████████████████████████████████████████████████▋                                                   | 372/681 [23:54<15:03,  2.92s/it]                                                                                                                                                        {'loss': 0.2941, 'grad_norm': 36.68511962890625, 'learning_rate': 2.551329606220976e-07, 'beta_dpo/gap_mean': 21.267375946044922, 'beta_dpo/gap_std': 20.91968536376953, 'beta_dpo/beta_used_raw': 0.2940911650657654, 'beta_dpo/beta_used': 0.2940911650657654, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1457383632659912, 'logits/rejected': -0.5475665330886841, 'epoch': 0.55}
 55%|█████████████████████████████████████████████████████████████▋                                                   | 372/681 [23:54<15:03,  2.92s/it] 55%|█████████████████████████████████████████████████████████████▉                                                   | 373/681 [23:57<14:51,  2.89s/it]                                                                                                                                                        {'loss': 0.8334, 'grad_norm': 69.20957946777344, 'learning_rate': 2.538498388222517e-07, 'beta_dpo/gap_mean': 21.611835479736328, 'beta_dpo/gap_std': 20.99405288696289, 'beta_dpo/beta_used_raw': 0.07870151102542877, 'beta_dpo/beta_used': 0.09652945399284363, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -1.8481800556182861, 'logits/rejected': -1.6795766353607178, 'epoch': 0.55}
 55%|█████████████████████████████████████████████████████████████▉                                                   | 373/681 [23:57<14:51,  2.89s/it] 55%|██████████████████████████████████████████████████████████████                                                   | 374/681 [24:00<15:14,  2.98s/it]                                                                                                                                                        {'loss': 0.8808, 'grad_norm': 20.165863037109375, 'learning_rate': 2.525666155755725e-07, 'beta_dpo/gap_mean': 21.991518020629883, 'beta_dpo/gap_std': 21.008726119995117, 'beta_dpo/beta_used_raw': 0.01571076363325119, 'beta_dpo/beta_used': 0.08411690592765808, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8438756465911865, 'logits/rejected': -1.745306372642517, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████████████████                                                   | 374/681 [24:00<15:14,  2.98s/it] 55%|██████████████████████████████████████████████████████████████▏                                                  | 375/681 [24:03<15:13,  2.99s/it]                                                                                                                                                        {'loss': 0.1809, 'grad_norm': 41.397769927978516, 'learning_rate': 2.512833246961859e-07, 'beta_dpo/gap_mean': 22.35379409790039, 'beta_dpo/gap_std': 21.22625732421875, 'beta_dpo/beta_used_raw': 0.24988201260566711, 'beta_dpo/beta_used': 0.24988201260566711, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.7292652130126953, 'logits/rejected': -1.7314016819000244, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████████████████▏                                                  | 375/681 [24:03<15:13,  2.99s/it] 55%|██████████████████████████████████████████████████████████████▍                                                  | 376/681 [24:06<15:16,  3.00s/it]                                                                                                                                                        {'loss': 0.3891, 'grad_norm': 28.154109954833984, 'learning_rate': 2.5e-07, 'beta_dpo/gap_mean': 22.917600631713867, 'beta_dpo/gap_std': 21.65682601928711, 'beta_dpo/beta_used_raw': 0.15126290917396545, 'beta_dpo/beta_used': 0.15126290917396545, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2041659355163574, 'logits/rejected': -0.8368335962295532, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████████████████▍                                                  | 376/681 [24:06<15:16,  3.00s/it] 55%|██████████████████████████████████████████████████████████████▌                                                  | 377/681 [24:09<14:56,  2.95s/it]                                                                                                                                                        {'loss': 0.3235, 'grad_norm': 53.93498611450195, 'learning_rate': 2.487166753038141e-07, 'beta_dpo/gap_mean': 23.89520835876465, 'beta_dpo/gap_std': 22.11446762084961, 'beta_dpo/beta_used_raw': 0.22889791429042816, 'beta_dpo/beta_used': 0.22889791429042816, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.858637809753418, 'logits/rejected': -1.1286814212799072, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████████████████▌                                                  | 377/681 [24:09<14:56,  2.95s/it] 56%|██████████████████████████████████████████████████████████████▋                                                  | 378/681 [24:11<14:18,  2.83s/it]                                                                                                                                                        {'loss': 0.8802, 'grad_norm': 32.8420295715332, 'learning_rate': 2.4743338442442754e-07, 'beta_dpo/gap_mean': 23.858905792236328, 'beta_dpo/gap_std': 22.27143096923828, 'beta_dpo/beta_used_raw': 0.08371762186288834, 'beta_dpo/beta_used': 0.12794490158557892, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.9058127403259277, 'logits/rejected': -1.4075047969818115, 'epoch': 0.56}
 56%|██████████████████████████████████████████████████████████████▋                                                  | 378/681 [24:11<14:18,  2.83s/it] 56%|██████████████████████████████████████████████████████████████▉                                                  | 379/681 [24:14<14:11,  2.82s/it]                                                                                                                                                        {'loss': 1.366, 'grad_norm': 0.849181056022644, 'learning_rate': 2.461501611777483e-07, 'beta_dpo/gap_mean': 23.98584747314453, 'beta_dpo/gap_std': 22.97738265991211, 'beta_dpo/beta_used_raw': -0.12115731835365295, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.5830283164978027, 'logits/rejected': -2.1841976642608643, 'epoch': 0.56}
 56%|██████████████████████████████████████████████████████████████▉                                                  | 379/681 [24:14<14:11,  2.82s/it] 56%|███████████████████████████████████████████████████████████████                                                  | 380/681 [24:17<13:54,  2.77s/it]                                                                                                                                                        {'loss': 1.342, 'grad_norm': 1.6928387880325317, 'learning_rate': 2.4486703937790243e-07, 'beta_dpo/gap_mean': 24.015705108642578, 'beta_dpo/gap_std': 24.113147735595703, 'beta_dpo/beta_used_raw': -0.006974679417908192, 'beta_dpo/beta_used': 0.0020707196090370417, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7757701873779297, 'logits/rejected': -1.3707565069198608, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████████████████                                                  | 380/681 [24:17<13:54,  2.77s/it] 56%|███████████████████████████████████████████████████████████████▏                                                 | 381/681 [24:19<13:59,  2.80s/it]                                                                                                                                                        {'loss': 1.3669, 'grad_norm': 0.5873382687568665, 'learning_rate': 2.435840528363426e-07, 'beta_dpo/gap_mean': 23.626941680908203, 'beta_dpo/gap_std': 24.207130432128906, 'beta_dpo/beta_used_raw': -0.14553116261959076, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7703765630722046, 'logits/rejected': -1.2845559120178223, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████████████████▏                                                 | 381/681 [24:19<13:59,  2.80s/it] 56%|███████████████████████████████████████████████████████████████▍                                                 | 382/681 [24:22<14:20,  2.88s/it]                                                                                                                                                        {'loss': 0.4738, 'grad_norm': 47.54448699951172, 'learning_rate': 2.4230123536095745e-07, 'beta_dpo/gap_mean': 23.6456356048584, 'beta_dpo/gap_std': 24.189830780029297, 'beta_dpo/beta_used_raw': 0.13747642934322357, 'beta_dpo/beta_used': 0.13747642934322357, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.9117825031280518, 'logits/rejected': -1.4356023073196411, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████████████████▍                                                 | 382/681 [24:23<14:20,  2.88s/it] 56%|███████████████████████████████████████████████████████████████▌                                                 | 383/681 [24:25<14:21,  2.89s/it]                                                                                                                                                        {'loss': 0.93, 'grad_norm': 20.330209732055664, 'learning_rate': 2.4101862075518037e-07, 'beta_dpo/gap_mean': 23.24592399597168, 'beta_dpo/gap_std': 23.784160614013672, 'beta_dpo/beta_used_raw': -0.07105323672294617, 'beta_dpo/beta_used': 0.053510311990976334, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.630809783935547, 'logits/rejected': -2.082855701446533, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████████████████▌                                                 | 383/681 [24:25<14:21,  2.89s/it] 56%|███████████████████████████████████████████████████████████████▋                                                 | 384/681 [24:28<14:19,  2.89s/it]                                                                                                                                                        {'loss': 0.821, 'grad_norm': 36.63646697998047, 'learning_rate': 2.397362428170992e-07, 'beta_dpo/gap_mean': 22.61440086364746, 'beta_dpo/gap_std': 23.486896514892578, 'beta_dpo/beta_used_raw': 0.10570378601551056, 'beta_dpo/beta_used': 0.1253817230463028, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.096801519393921, 'logits/rejected': -2.136882781982422, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████████████████▋                                                 | 384/681 [24:28<14:19,  2.89s/it] 57%|███████████████████████████████████████████████████████████████▉                                                 | 385/681 [24:31<14:08,  2.87s/it]                                                                                                                                                        {'loss': 1.0586, 'grad_norm': 72.39258575439453, 'learning_rate': 2.3845413533856514e-07, 'beta_dpo/gap_mean': 23.04998207092285, 'beta_dpo/gap_std': 23.0758056640625, 'beta_dpo/beta_used_raw': 0.0754595696926117, 'beta_dpo/beta_used': 0.1230027824640274, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.6184840202331543, 'logits/rejected': -1.7057888507843018, 'epoch': 0.57}
 57%|███████████████████████████████████████████████████████████████▉                                                 | 385/681 [24:31<14:08,  2.87s/it] 57%|████████████████████████████████████████████████████████████████                                                 | 386/681 [24:34<14:22,  2.92s/it]                                                                                                                                                        {'loss': 1.3653, 'grad_norm': 0.6479215025901794, 'learning_rate': 2.3717233210430254e-07, 'beta_dpo/gap_mean': 22.54529571533203, 'beta_dpo/gap_std': 22.520282745361328, 'beta_dpo/beta_used_raw': -0.005410731304436922, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.6671037673950195, 'logits/rejected': -1.5030872821807861, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████                                                 | 386/681 [24:34<14:22,  2.92s/it] 57%|████████████████████████████████████████████████████████████████▏                                                | 387/681 [24:37<14:09,  2.89s/it]                                                                                                                                                        {'loss': 1.3652, 'grad_norm': 0.6571717262268066, 'learning_rate': 2.3589086689101889e-07, 'beta_dpo/gap_mean': 22.327953338623047, 'beta_dpo/gap_std': 22.604331970214844, 'beta_dpo/beta_used_raw': -0.009181392379105091, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.0239405632019043, 'logits/rejected': -1.2882328033447266, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████▏                                                | 387/681 [24:37<14:09,  2.89s/it] 57%|████████████████████████████████████████████████████████████████▍                                                | 388/681 [24:40<13:46,  2.82s/it]                                                                                                                                                        {'loss': 0.4685, 'grad_norm': 84.97122955322266, 'learning_rate': 2.3460977346651428e-07, 'beta_dpo/gap_mean': 22.91834831237793, 'beta_dpo/gap_std': 22.365230560302734, 'beta_dpo/beta_used_raw': 0.3050941526889801, 'beta_dpo/beta_used': 0.3050941526889801, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.9105610847473145, 'logits/rejected': -1.5583992004394531, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████▍                                                | 388/681 [24:40<13:46,  2.82s/it] 57%|████████████████████████████████████████████████████████████████▌                                                | 389/681 [24:43<13:53,  2.85s/it]                                                                                                                                                        {'loss': 0.9438, 'grad_norm': 22.67323875427246, 'learning_rate': 2.3332908558879177e-07, 'beta_dpo/gap_mean': 22.8848819732666, 'beta_dpo/gap_std': 22.791643142700195, 'beta_dpo/beta_used_raw': 0.050996627658605576, 'beta_dpo/beta_used': 0.061634305864572525, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.6809544563293457, 'logits/rejected': -1.4034664630889893, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████▌                                                | 389/681 [24:43<13:53,  2.85s/it] 57%|████████████████████████████████████████████████████████████████▋                                                | 390/681 [24:45<13:48,  2.85s/it]                                                                                                                                                        {'loss': 1.3691, 'grad_norm': 0.605733335018158, 'learning_rate': 2.320488370051681e-07, 'beta_dpo/gap_mean': 22.924835205078125, 'beta_dpo/gap_std': 23.773258209228516, 'beta_dpo/beta_used_raw': -0.2398403286933899, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8637104034423828, 'logits/rejected': -1.792722225189209, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████▋                                                | 390/681 [24:45<13:48,  2.85s/it] 57%|████████████████████████████████████████████████████████████████▉                                                | 391/681 [24:48<13:36,  2.82s/it]                                                                                                                                                        {'loss': 1.0463, 'grad_norm': 10.959379196166992, 'learning_rate': 2.3076906145138405e-07, 'beta_dpo/gap_mean': 22.331531524658203, 'beta_dpo/gap_std': 23.542163848876953, 'beta_dpo/beta_used_raw': 0.01907052844762802, 'beta_dpo/beta_used': 0.025480810552835464, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.0537145137786865, 'logits/rejected': -1.7673195600509644, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████████████████▉                                                | 391/681 [24:48<13:36,  2.82s/it] 58%|█████████████████████████████████████████████████████████████████                                                | 392/681 [24:51<13:54,  2.89s/it]                                                                                                                                                        {'loss': 0.7929, 'grad_norm': 94.24765014648438, 'learning_rate': 2.294897926507156e-07, 'beta_dpo/gap_mean': 22.344764709472656, 'beta_dpo/gap_std': 23.590797424316406, 'beta_dpo/beta_used_raw': 0.267634779214859, 'beta_dpo/beta_used': 0.30475738644599915, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.280344247817993, 'logits/rejected': -1.6492552757263184, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████                                                | 392/681 [24:51<13:54,  2.89s/it] 58%|█████████████████████████████████████████████████████████████████▏                                               | 393/681 [24:54<13:38,  2.84s/it]                                                                                                                                                        {'loss': 0.8893, 'grad_norm': 46.94270706176758, 'learning_rate': 2.2821106431308543e-07, 'beta_dpo/gap_mean': 22.918624877929688, 'beta_dpo/gap_std': 23.211952209472656, 'beta_dpo/beta_used_raw': 0.015524506568908691, 'beta_dpo/beta_used': 0.10215222090482712, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.895100474357605, 'logits/rejected': -1.7161359786987305, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████▏                                               | 393/681 [24:54<13:38,  2.84s/it] 58%|█████████████████████████████████████████████████████████████████▍                                               | 394/681 [24:57<13:55,  2.91s/it]                                                                                                                                                        {'loss': 0.821, 'grad_norm': 41.98773193359375, 'learning_rate': 2.2693291013417452e-07, 'beta_dpo/gap_mean': 23.259998321533203, 'beta_dpo/gap_std': 22.927837371826172, 'beta_dpo/beta_used_raw': 0.09863930195569992, 'beta_dpo/beta_used': 0.09863930195569992, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.9885823726654053, 'logits/rejected': -1.2636914253234863, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████▍                                               | 394/681 [24:57<13:55,  2.91s/it] 58%|█████████████████████████████████████████████████████████████████▌                                               | 395/681 [25:00<13:31,  2.84s/it]                                                                                                                                                        {'loss': 1.3662, 'grad_norm': 0.6184390187263489, 'learning_rate': 2.2565536379453404e-07, 'beta_dpo/gap_mean': 23.46683120727539, 'beta_dpo/gap_std': 23.799558639526367, 'beta_dpo/beta_used_raw': -0.06710291653871536, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.3219876289367676, 'logits/rejected': -1.794336199760437, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████▌                                               | 395/681 [25:00<13:31,  2.84s/it] 58%|█████████████████████████████████████████████████████████████████▋                                               | 396/681 [25:03<13:35,  2.86s/it]                                                                                                                                                        {'loss': 1.37, 'grad_norm': 0.5957443714141846, 'learning_rate': 2.2437845895869825e-07, 'beta_dpo/gap_mean': 22.49011993408203, 'beta_dpo/gap_std': 23.999927520751953, 'beta_dpo/beta_used_raw': -0.26747581362724304, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.0833539962768555, 'logits/rejected': -1.9447077512741089, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████▋                                               | 396/681 [25:03<13:35,  2.86s/it] 58%|█████████████████████████████████████████████████████████████████▉                                               | 397/681 [25:06<13:42,  2.89s/it]                                                                                                                                                        {'loss': 0.9259, 'grad_norm': 43.53438186645508, 'learning_rate': 2.2310222927429716e-07, 'beta_dpo/gap_mean': 23.13333511352539, 'beta_dpo/gap_std': 24.469520568847656, 'beta_dpo/beta_used_raw': 0.08920581638813019, 'beta_dpo/beta_used': 0.08920581638813019, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.4863579273223877, 'logits/rejected': -1.5815786123275757, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████████████████▉                                               | 397/681 [25:06<13:42,  2.89s/it] 58%|██████████████████████████████████████████████████████████████████                                               | 398/681 [25:08<13:15,  2.81s/it]                                                                                                                                                        {'loss': 0.8225, 'grad_norm': 109.95307159423828, 'learning_rate': 2.2182670837116972e-07, 'beta_dpo/gap_mean': 23.732725143432617, 'beta_dpo/gap_std': 25.253231048583984, 'beta_dpo/beta_used_raw': 0.24258211255073547, 'beta_dpo/beta_used': 0.24258211255073547, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8581675291061401, 'logits/rejected': -1.4040751457214355, 'epoch': 0.58}
 58%|██████████████████████████████████████████████████████████████████                                               | 398/681 [25:08<13:15,  2.81s/it] 59%|██████████████████████████████████████████████████████████████████▏                                              | 399/681 [25:11<12:54,  2.74s/it]                                                                                                                                                        {'loss': 0.6451, 'grad_norm': 92.55284881591797, 'learning_rate': 2.2055192986047804e-07, 'beta_dpo/gap_mean': 24.469818115234375, 'beta_dpo/gap_std': 24.760602951049805, 'beta_dpo/beta_used_raw': 0.23558039963245392, 'beta_dpo/beta_used': 0.23558039963245392, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -3.1604866981506348, 'logits/rejected': -1.5631942749023438, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████████████████▏                                              | 399/681 [25:11<12:54,  2.74s/it] 59%|██████████████████████████████████████████████████████████████████▎                                              | 400/681 [25:14<12:59,  2.78s/it]                                                                                                                                                        {'loss': 0.7246, 'grad_norm': 42.9210205078125, 'learning_rate': 2.192779273338215e-07, 'beta_dpo/gap_mean': 25.53512954711914, 'beta_dpo/gap_std': 25.147260665893555, 'beta_dpo/beta_used_raw': 0.10073019564151764, 'beta_dpo/beta_used': 0.10073019564151764, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.9547784328460693, 'logits/rejected': -2.0937581062316895, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████████████████▎                                              | 400/681 [25:14<12:59,  2.78s/it][INFO|trainer.py:4307] 2026-04-24 02:17:02,021 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 02:17:02,021 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 02:17:02,021 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:21,  3.33it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:29,  2.35it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:33,  2.06it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:35,  1.93it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.82it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:35,  1.88it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:04<00:37,  1.75it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:37,  1.69it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.67it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:37,  1.68it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:37,  1.65it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:35,  1.68it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.66it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:34,  1.66it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.60it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.58it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:35,  1.57it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:11<00:34,  1.56it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:34,  1.54it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:33,  1.54it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:13<00:33,  1.53it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:32,  1.56it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.57it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.59it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:29,  1.59it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.76it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.71it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.73it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:24,  1.75it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:25,  1.68it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:23,  1.71it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.73it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:20<00:22,  1.70it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:23,  1.63it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:22,  1.64it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.63it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:20,  1.71it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:20,  1.64it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.71it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:18,  1.67it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:17,  1.69it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.68it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.61it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.68it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.65it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.64it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.62it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:14,  1.64it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.62it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:31<00:13,  1.58it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:12,  1.55it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.65it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:11,  1.63it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.68it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:09,  1.62it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:08,  1.68it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:07,  1.65it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.64it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:37<00:06,  1.66it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.75it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:38<00:05,  1.77it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.74it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:04,  1.68it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.71it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.67it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:41<00:02,  1.63it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.62it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.63it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:43<00:00,  1.63it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.76it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.6605032086372375, 'eval_runtime': 44.1498, 'eval_samples_per_second': 52.979, 'eval_steps_per_second': 1.676, 'eval_beta_dpo/gap_mean': 25.619625091552734, 'eval_beta_dpo/gap_std': 25.05843734741211, 'eval_beta_dpo/beta_used_raw': -0.36535316705703735, 'eval_beta_dpo/beta_used': 0.009405079297721386, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -1.569831132888794, 'eval_logits/rejected': -1.2495183944702148, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████████████████▎                                              | 400/681 [25:58<12:59,  2.78s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.76it/s][A
                                                                                                                                                        [A[INFO|trainer.py:3984] 2026-04-24 02:18:00,731 >> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400
[INFO|configuration_utils.py:419] 2026-04-24 02:18:00,736 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400/config.json
[INFO|configuration_utils.py:911] 2026-04-24 02:18:00,739 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-24 02:18:40,540 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-24 02:18:40,545 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-24 02:18:40,549 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400/special_tokens_map.json
 59%|█████████████████████████████████████████████████████████████████▎                                             | 401/681 [29:54<6:42:00, 86.15s/it]                                                                                                                                                        {'loss': 1.3688, 'grad_norm': 0.6196178793907166, 'learning_rate': 2.1800473436235136e-07, 'beta_dpo/gap_mean': 25.12491226196289, 'beta_dpo/gap_std': 25.90760040283203, 'beta_dpo/beta_used_raw': -0.3439871668815613, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1647582054138184, 'logits/rejected': -0.9064052104949951, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████████████████▎                                             | 401/681 [29:54<6:42:00, 86.15s/it] 59%|█████████████████████████████████████████████████████████████████▌                                             | 402/681 [29:57<4:44:03, 61.09s/it]                                                                                                                                                        {'loss': 0.2296, 'grad_norm': 32.324867248535156, 'learning_rate': 2.1673238449588665e-07, 'beta_dpo/gap_mean': 25.792510986328125, 'beta_dpo/gap_std': 25.570724487304688, 'beta_dpo/beta_used_raw': 0.273027241230011, 'beta_dpo/beta_used': 0.273027241230011, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0468878746032715, 'logits/rejected': -1.7435054779052734, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████████████████▌                                             | 402/681 [29:57<4:44:03, 61.09s/it] 59%|█████████████████████████████████████████████████████████████████▋                                             | 403/681 [30:00<3:22:02, 43.61s/it]                                                                                                                                                        {'loss': 0.7774, 'grad_norm': 40.2495002746582, 'learning_rate': 2.154609112620295e-07, 'beta_dpo/gap_mean': 26.102928161621094, 'beta_dpo/gap_std': 25.163429260253906, 'beta_dpo/beta_used_raw': 0.09610848873853683, 'beta_dpo/beta_used': 0.16802377998828888, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.2095389366149902, 'logits/rejected': -1.726819634437561, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████████████████▋                                             | 403/681 [30:00<3:22:02, 43.61s/it] 59%|█████████████████████████████████████████████████████████████████▊                                             | 404/681 [30:03<2:25:07, 31.43s/it]                                                                                                                                                        {'loss': 0.8812, 'grad_norm': 20.02524185180664, 'learning_rate': 2.1419034816528218e-07, 'beta_dpo/gap_mean': 26.120956420898438, 'beta_dpo/gap_std': 25.64906883239746, 'beta_dpo/beta_used_raw': 0.03125058859586716, 'beta_dpo/beta_used': 0.06464260816574097, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.186288356781006, 'logits/rejected': -1.8319518566131592, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████████████████▊                                             | 404/681 [30:03<2:25:07, 31.43s/it] 59%|██████████████████████████████████████████████████████████████████                                             | 405/681 [30:05<1:44:55, 22.81s/it]                                                                                                                                                        {'loss': 0.9047, 'grad_norm': 49.19369888305664, 'learning_rate': 2.129207286861638e-07, 'beta_dpo/gap_mean': 25.158933639526367, 'beta_dpo/gap_std': 24.917097091674805, 'beta_dpo/beta_used_raw': -0.009302124381065369, 'beta_dpo/beta_used': 0.08662373572587967, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.164164662361145, 'logits/rejected': -0.8499673008918762, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████████████████                                             | 405/681 [30:05<1:44:55, 22.81s/it] 60%|██████████████████████████████████████████████████████████████████▏                                            | 406/681 [30:08<1:16:55, 16.78s/it]                                                                                                                                                        {'loss': 0.7806, 'grad_norm': 12.233301162719727, 'learning_rate': 2.1165208628032861e-07, 'beta_dpo/gap_mean': 24.574819564819336, 'beta_dpo/gap_std': 24.394176483154297, 'beta_dpo/beta_used_raw': 0.056421127170324326, 'beta_dpo/beta_used': 0.0923011526465416, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.419933795928955, 'logits/rejected': -2.014167547225952, 'epoch': 0.6}
 60%|██████████████████████████████████████████████████████████████████▏                                            | 406/681 [30:08<1:16:55, 16.78s/it] 60%|███████████████████████████████████████████████████████████████████▌                                             | 407/681 [30:11<57:36, 12.61s/it]                                                                                                                                                        {'loss': 1.3682, 'grad_norm': 0.6539500951766968, 'learning_rate': 2.1038445437768375e-07, 'beta_dpo/gap_mean': 24.153892517089844, 'beta_dpo/gap_std': 24.29613494873047, 'beta_dpo/beta_used_raw': -0.18378406763076782, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -2.9986298084259033, 'logits/rejected': -2.2421011924743652, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████████████████▌                                             | 407/681 [30:11<57:36, 12.61s/it] 60%|███████████████████████████████████████████████████████████████████▋                                             | 408/681 [30:14<44:14,  9.72s/it]                                                                                                                                                        {'loss': 1.3671, 'grad_norm': 0.710385799407959, 'learning_rate': 2.0911786638150872e-07, 'beta_dpo/gap_mean': 23.59590721130371, 'beta_dpo/gap_std': 24.68634605407715, 'beta_dpo/beta_used_raw': -0.1888156533241272, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2492729425430298, 'logits/rejected': -0.6833850145339966, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████████████████▋                                             | 408/681 [30:14<44:14,  9.72s/it] 60%|███████████████████████████████████████████████████████████████████▊                                             | 409/681 [30:17<35:08,  7.75s/it]                                                                                                                                                        {'loss': 1.3662, 'grad_norm': 0.7162730097770691, 'learning_rate': 2.0785235566757517e-07, 'beta_dpo/gap_mean': 22.793479919433594, 'beta_dpo/gap_std': 24.770523071289062, 'beta_dpo/beta_used_raw': -0.07780434191226959, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8896914720535278, 'logits/rejected': -1.1642524003982544, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████████████████▊                                             | 409/681 [30:17<35:08,  7.75s/it] 60%|████████████████████████████████████████████████████████████████████                                             | 410/681 [30:20<28:29,  6.31s/it]                                                                                                                                                        {'loss': 1.3679, 'grad_norm': 0.6539977192878723, 'learning_rate': 2.065879555832674e-07, 'beta_dpo/gap_mean': 22.16793441772461, 'beta_dpo/gap_std': 24.20937728881836, 'beta_dpo/beta_used_raw': -0.12291724234819412, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.9637231826782227, 'logits/rejected': -1.8833253383636475, 'epoch': 0.6}
 60%|████████████████████████████████████████████████████████████████████                                             | 410/681 [30:20<28:29,  6.31s/it] 60%|████████████████████████████████████████████████████████████████████▏                                            | 411/681 [30:23<23:19,  5.18s/it]                                                                                                                                                        {'loss': 1.1001, 'grad_norm': 57.7232666015625, 'learning_rate': 2.0532469944670343e-07, 'beta_dpo/gap_mean': 22.44048309326172, 'beta_dpo/gap_std': 24.338491439819336, 'beta_dpo/beta_used_raw': 0.05118773877620697, 'beta_dpo/beta_used': 0.09384816139936447, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.1327853202819824, 'logits/rejected': -2.2029080390930176, 'epoch': 0.6}
 60%|████████████████████████████████████████████████████████████████████▏                                            | 411/681 [30:23<23:19,  5.18s/it] 60%|████████████████████████████████████████████████████████████████████▎                                            | 412/681 [30:25<20:01,  4.47s/it]                                                                                                                                                        {'loss': 1.0068, 'grad_norm': 17.349088668823242, 'learning_rate': 2.0406262054585738e-07, 'beta_dpo/gap_mean': 22.416568756103516, 'beta_dpo/gap_std': 24.20757293701172, 'beta_dpo/beta_used_raw': -0.07972878217697144, 'beta_dpo/beta_used': 0.03725043311715126, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.886979103088379, 'logits/rejected': -1.8534328937530518, 'epoch': 0.6}
 60%|████████████████████████████████████████████████████████████████████▎                                            | 412/681 [30:26<20:01,  4.47s/it] 61%|████████████████████████████████████████████████████████████████████▌                                            | 413/681 [30:28<17:52,  4.00s/it]                                                                                                                                                        {'loss': 0.3748, 'grad_norm': 35.187564849853516, 'learning_rate': 2.0280175213768205e-07, 'beta_dpo/gap_mean': 22.269824981689453, 'beta_dpo/gap_std': 24.325923919677734, 'beta_dpo/beta_used_raw': 0.15613144636154175, 'beta_dpo/beta_used': 0.15613144636154175, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7825952172279358, 'logits/rejected': -0.36407551169395447, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████████████████▌                                            | 413/681 [30:28<17:52,  4.00s/it] 61%|████████████████████████████████████████████████████████████████████▋                                            | 414/681 [30:31<16:25,  3.69s/it]                                                                                                                                                        {'loss': 0.8325, 'grad_norm': 45.86546325683594, 'learning_rate': 2.0154212744723247e-07, 'beta_dpo/gap_mean': 22.121807098388672, 'beta_dpo/gap_std': 24.83641815185547, 'beta_dpo/beta_used_raw': 0.008257351815700531, 'beta_dpo/beta_used': 0.08755208551883698, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.5157737731933594, 'logits/rejected': -1.974806785583496, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████████████████▋                                            | 414/681 [30:31<16:25,  3.69s/it] 61%|████████████████████████████████████████████████████████████████████▊                                            | 415/681 [30:35<15:41,  3.54s/it]                                                                                                                                                        {'loss': 1.1056, 'grad_norm': 44.08209228515625, 'learning_rate': 2.002837796667909e-07, 'beta_dpo/gap_mean': 22.35672378540039, 'beta_dpo/gap_std': 25.50603485107422, 'beta_dpo/beta_used_raw': -0.01721137762069702, 'beta_dpo/beta_used': 0.06630411744117737, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.761643886566162, 'logits/rejected': -1.2777553796768188, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████████████████▊                                            | 415/681 [30:35<15:41,  3.54s/it] 61%|█████████████████████████████████████████████████████████████████████                                            | 416/681 [30:37<14:46,  3.35s/it]                                                                                                                                                        {'loss': 0.5203, 'grad_norm': 92.45121002197266, 'learning_rate': 1.990267419549914e-07, 'beta_dpo/gap_mean': 22.946575164794922, 'beta_dpo/gap_std': 25.25613021850586, 'beta_dpo/beta_used_raw': 0.3845203220844269, 'beta_dpo/beta_used': 0.3845203220844269, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.2547457218170166, 'logits/rejected': -1.6286828517913818, 'epoch': 0.61}
 61%|█████████████████████████████████████████████████████████████████████                                            | 416/681 [30:37<14:46,  3.35s/it] 61%|█████████████████████████████████████████████████████████████████████▏                                           | 417/681 [30:40<14:02,  3.19s/it]                                                                                                                                                        {'loss': 0.2669, 'grad_norm': 55.1314811706543, 'learning_rate': 1.9777104743594686e-07, 'beta_dpo/gap_mean': 23.813949584960938, 'beta_dpo/gap_std': 24.991924285888672, 'beta_dpo/beta_used_raw': 0.37170472741127014, 'beta_dpo/beta_used': 0.37170472741127014, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.4560434818267822, 'logits/rejected': -1.0010004043579102, 'epoch': 0.61}
 61%|█████████████████████████████████████████████████████████████████████▏                                           | 417/681 [30:40<14:02,  3.19s/it] 61%|█████████████████████████████████████████████████████████████████████▎                                           | 418/681 [30:43<13:40,  3.12s/it]                                                                                                                                                        {'loss': 0.8709, 'grad_norm': 92.97559356689453, 'learning_rate': 1.965167291983757e-07, 'beta_dpo/gap_mean': 24.798458099365234, 'beta_dpo/gap_std': 25.08316421508789, 'beta_dpo/beta_used_raw': 0.22797717154026031, 'beta_dpo/beta_used': 0.33069807291030884, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.13330078125, 'logits/rejected': -1.9335625171661377, 'epoch': 0.61}
 61%|█████████████████████████████████████████████████████████████████████▎                                           | 418/681 [30:43<13:40,  3.12s/it] 62%|█████████████████████████████████████████████████████████████████████▌                                           | 419/681 [30:46<13:30,  3.09s/it]                                                                                                                                                        {'loss': 0.9016, 'grad_norm': 64.4251480102539, 'learning_rate': 1.9526382029472988e-07, 'beta_dpo/gap_mean': 25.586071014404297, 'beta_dpo/gap_std': 25.69367790222168, 'beta_dpo/beta_used_raw': 0.026439383625984192, 'beta_dpo/beta_used': 0.15325038135051727, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5011570453643799, 'logits/rejected': -1.302954912185669, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████████████████▌                                           | 419/681 [30:46<13:30,  3.09s/it] 62%|█████████████████████████████████████████████████████████████████████▋                                           | 420/681 [30:49<13:11,  3.03s/it]                                                                                                                                                        {'loss': 0.3069, 'grad_norm': 53.652259826660156, 'learning_rate': 1.9401235374032425e-07, 'beta_dpo/gap_mean': 25.320785522460938, 'beta_dpo/gap_std': 25.962156295776367, 'beta_dpo/beta_used_raw': 0.25911739468574524, 'beta_dpo/beta_used': 0.25911739468574524, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.263819694519043, 'logits/rejected': -1.8596880435943604, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████████████████▋                                           | 420/681 [30:49<13:11,  3.03s/it] 62%|█████████████████████████████████████████████████████████████████████▊                                           | 421/681 [30:52<13:06,  3.02s/it]                                                                                                                                                        {'loss': 0.7272, 'grad_norm': 46.267398834228516, 'learning_rate': 1.9276236251246653e-07, 'beta_dpo/gap_mean': 25.586990356445312, 'beta_dpo/gap_std': 26.067787170410156, 'beta_dpo/beta_used_raw': 0.12224863469600677, 'beta_dpo/beta_used': 0.12224863469600677, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.5814555883407593, 'logits/rejected': -1.524078607559204, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████████████████▊                                           | 421/681 [30:52<13:06,  3.02s/it] 62%|██████████████████████████████████████████████████████████████████████                                           | 422/681 [30:55<12:52,  2.98s/it]                                                                                                                                                        {'loss': 0.9912, 'grad_norm': 12.181634902954102, 'learning_rate': 1.9151387954958792e-07, 'beta_dpo/gap_mean': 24.974611282348633, 'beta_dpo/gap_std': 25.582592010498047, 'beta_dpo/beta_used_raw': -0.14375457167625427, 'beta_dpo/beta_used': 0.025601375848054886, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.5378003120422363, 'logits/rejected': -2.0938880443573, 'epoch': 0.62}
 62%|██████████████████████████████████████████████████████████████████████                                           | 422/681 [30:55<12:52,  2.98s/it] 62%|██████████████████████████████████████████████████████████████████████▏                                          | 423/681 [30:58<12:30,  2.91s/it]                                                                                                                                                        {'loss': 0.4962, 'grad_norm': 47.32422637939453, 'learning_rate': 1.902669377503756e-07, 'beta_dpo/gap_mean': 24.909393310546875, 'beta_dpo/gap_std': 25.882190704345703, 'beta_dpo/beta_used_raw': 0.13401761651039124, 'beta_dpo/beta_used': 0.13401761651039124, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5475959777832031, 'logits/rejected': -1.6587059497833252, 'epoch': 0.62}
 62%|██████████████████████████████████████████████████████████████████████▏                                          | 423/681 [30:58<12:30,  2.91s/it] 62%|██████████████████████████████████████████████████████████████████████▎                                          | 424/681 [31:01<12:38,  2.95s/it]                                                                                                                                                        {'loss': 1.3642, 'grad_norm': 0.7027908563613892, 'learning_rate': 1.890215699729057e-07, 'beta_dpo/gap_mean': 24.600170135498047, 'beta_dpo/gap_std': 26.172245025634766, 'beta_dpo/beta_used_raw': -0.034625787287950516, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.8585600852966309, 'logits/rejected': -1.1137242317199707, 'epoch': 0.62}
 62%|██████████████████████████████████████████████████████████████████████▎                                          | 424/681 [31:01<12:38,  2.95s/it] 62%|██████████████████████████████████████████████████████████████████████▌                                          | 425/681 [31:04<12:29,  2.93s/it]                                                                                                                                                        {'loss': 1.0747, 'grad_norm': 26.48809051513672, 'learning_rate': 1.8777780903377732e-07, 'beta_dpo/gap_mean': 23.97371482849121, 'beta_dpo/gap_std': 26.5534610748291, 'beta_dpo/beta_used_raw': -0.03845195099711418, 'beta_dpo/beta_used': 0.05164389684796333, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.3856022357940674, 'logits/rejected': -2.2705893516540527, 'epoch': 0.62}
 62%|██████████████████████████████████████████████████████████████████████▌                                          | 425/681 [31:04<12:29,  2.93s/it] 63%|██████████████████████████████████████████████████████████████████████▋                                          | 426/681 [31:07<12:37,  2.97s/it]                                                                                                                                                        {'loss': 0.6657, 'grad_norm': 37.8873176574707, 'learning_rate': 1.8653568770724803e-07, 'beta_dpo/gap_mean': 23.90325927734375, 'beta_dpo/gap_std': 25.989383697509766, 'beta_dpo/beta_used_raw': 0.15089742839336395, 'beta_dpo/beta_used': 0.15089742839336395, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.274775505065918, 'logits/rejected': -1.6316537857055664, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████████████████▋                                          | 426/681 [31:07<12:37,  2.97s/it] 63%|██████████████████████████████████████████████████████████████████████▊                                          | 427/681 [31:10<12:48,  3.03s/it]                                                                                                                                                        {'loss': 0.9504, 'grad_norm': 13.970566749572754, 'learning_rate': 1.8529523872436977e-07, 'beta_dpo/gap_mean': 23.831756591796875, 'beta_dpo/gap_std': 25.224937438964844, 'beta_dpo/beta_used_raw': 0.016834238544106483, 'beta_dpo/beta_used': 0.03543705865740776, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8503241539001465, 'logits/rejected': -1.3610749244689941, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████████████████▊                                          | 427/681 [31:10<12:48,  3.03s/it] 63%|███████████████████████████████████████████████████████████████████████                                          | 428/681 [31:13<12:50,  3.05s/it]                                                                                                                                                        {'loss': 1.3672, 'grad_norm': 0.6985291242599487, 'learning_rate': 1.8405649477212697e-07, 'beta_dpo/gap_mean': 23.303905487060547, 'beta_dpo/gap_std': 25.156648635864258, 'beta_dpo/beta_used_raw': -0.1355256587266922, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.3080241680145264, 'logits/rejected': -1.3926000595092773, 'epoch': 0.63}
 63%|███████████████████████████████████████████████████████████████████████                                          | 428/681 [31:13<12:50,  3.05s/it] 63%|███████████████████████████████████████████████████████████████████████▏                                         | 429/681 [31:16<12:45,  3.04s/it]                                                                                                                                                        {'loss': 0.5392, 'grad_norm': 65.67558288574219, 'learning_rate': 1.828194884925749e-07, 'beta_dpo/gap_mean': 22.89441680908203, 'beta_dpo/gap_std': 25.40219497680664, 'beta_dpo/beta_used_raw': 0.20610594749450684, 'beta_dpo/beta_used': 0.20610594749450684, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0998034477233887, 'logits/rejected': -1.4335576295852661, 'epoch': 0.63}
 63%|███████████████████████████████████████████████████████████████████████▏                                         | 429/681 [31:16<12:45,  3.04s/it] 63%|███████████████████████████████████████████████████████████████████████▎                                         | 430/681 [31:19<12:41,  3.04s/it]                                                                                                                                                        {'loss': 0.3402, 'grad_norm': 49.91692352294922, 'learning_rate': 1.8158425248197928e-07, 'beta_dpo/gap_mean': 23.49513816833496, 'beta_dpo/gap_std': 25.55303382873535, 'beta_dpo/beta_used_raw': 0.1917858123779297, 'beta_dpo/beta_used': 0.1917858123779297, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1634879112243652, 'logits/rejected': -1.3685014247894287, 'epoch': 0.63}
 63%|███████████████████████████████████████████████████████████████████████▎                                         | 430/681 [31:19<12:41,  3.04s/it] 63%|███████████████████████████████████████████████████████████████████████▌                                         | 431/681 [31:22<12:36,  3.02s/it]                                                                                                                                                        {'loss': 0.6399, 'grad_norm': 36.18718338012695, 'learning_rate': 1.8035081928995788e-07, 'beta_dpo/gap_mean': 23.721134185791016, 'beta_dpo/gap_std': 25.834186553955078, 'beta_dpo/beta_used_raw': 0.09054918587207794, 'beta_dpo/beta_used': 0.09054918587207794, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.5709052085876465, 'logits/rejected': -2.3715858459472656, 'epoch': 0.63}
 63%|███████████████████████████████████████████████████████████████████████▌                                         | 431/681 [31:22<12:36,  3.02s/it] 63%|███████████████████████████████████████████████████████████████████████▋                                         | 432/681 [31:25<12:46,  3.08s/it]                                                                                                                                                        {'loss': 0.6583, 'grad_norm': 79.0599365234375, 'learning_rate': 1.791192214186223e-07, 'beta_dpo/gap_mean': 23.902099609375, 'beta_dpo/gap_std': 25.986339569091797, 'beta_dpo/beta_used_raw': 0.1696254163980484, 'beta_dpo/beta_used': 0.1696254163980484, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.4236735105514526, 'logits/rejected': -0.7997815608978271, 'epoch': 0.63}
 63%|███████████████████████████████████████████████████████████████████████▋                                         | 432/681 [31:25<12:46,  3.08s/it] 64%|███████████████████████████████████████████████████████████████████████▊                                         | 433/681 [31:28<12:34,  3.04s/it]                                                                                                                                                        {'loss': 0.846, 'grad_norm': 42.03449249267578, 'learning_rate': 1.7788949132172193e-07, 'beta_dpo/gap_mean': 23.92194366455078, 'beta_dpo/gap_std': 26.365129470825195, 'beta_dpo/beta_used_raw': 0.10000326484441757, 'beta_dpo/beta_used': 0.11669200658798218, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4471304416656494, 'logits/rejected': -0.8094350695610046, 'epoch': 0.64}
 64%|███████████████████████████████████████████████████████████████████████▊                                         | 433/681 [31:28<12:34,  3.04s/it] 64%|████████████████████████████████████████████████████████████████████████                                         | 434/681 [31:31<12:33,  3.05s/it]                                                                                                                                                        {'loss': 0.8154, 'grad_norm': 19.04947853088379, 'learning_rate': 1.7666166140378853e-07, 'beta_dpo/gap_mean': 23.78887176513672, 'beta_dpo/gap_std': 27.037960052490234, 'beta_dpo/beta_used_raw': 0.03278639167547226, 'beta_dpo/beta_used': 0.1338217407464981, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.431135654449463, 'logits/rejected': -1.7750380039215088, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████                                         | 434/681 [31:31<12:33,  3.05s/it] 64%|████████████████████████████████████████████████████████████████████████▏                                        | 435/681 [31:34<11:55,  2.91s/it]                                                                                                                                                        {'loss': 1.0371, 'grad_norm': 43.388587951660156, 'learning_rate': 1.7543576401928218e-07, 'beta_dpo/gap_mean': 23.712087631225586, 'beta_dpo/gap_std': 26.80076026916504, 'beta_dpo/beta_used_raw': 0.038825489580631256, 'beta_dpo/beta_used': 0.06533200293779373, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.072295665740967, 'logits/rejected': -1.6574585437774658, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████▏                                        | 435/681 [31:34<11:55,  2.91s/it] 64%|████████████████████████████████████████████████████████████████████████▎                                        | 436/681 [31:37<12:02,  2.95s/it]                                                                                                                                                        {'loss': 0.5509, 'grad_norm': 46.741336822509766, 'learning_rate': 1.742118314717391e-07, 'beta_dpo/gap_mean': 24.322784423828125, 'beta_dpo/gap_std': 26.062278747558594, 'beta_dpo/beta_used_raw': 0.13881349563598633, 'beta_dpo/beta_used': 0.13881349563598633, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5973613262176514, 'logits/rejected': -0.5990985631942749, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████▎                                        | 436/681 [31:37<12:02,  2.95s/it] 64%|████████████████████████████████████████████████████████████████████████▌                                        | 437/681 [31:40<12:12,  3.00s/it]                                                                                                                                                        {'loss': 1.3667, 'grad_norm': 0.6110405325889587, 'learning_rate': 1.7298989601292036e-07, 'beta_dpo/gap_mean': 23.640636444091797, 'beta_dpo/gap_std': 25.07185935974121, 'beta_dpo/beta_used_raw': -0.12126322090625763, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.5639896392822266, 'logits/rejected': -2.3195319175720215, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████▌                                        | 437/681 [31:40<12:12,  3.00s/it] 64%|████████████████████████████████████████████████████████████████████████▋                                        | 438/681 [31:43<11:50,  2.92s/it]                                                                                                                                                        {'loss': 1.1463, 'grad_norm': 9.355488777160645, 'learning_rate': 1.7176998984196144e-07, 'beta_dpo/gap_mean': 23.29519271850586, 'beta_dpo/gap_std': 24.44326400756836, 'beta_dpo/beta_used_raw': -0.01920161023736, 'beta_dpo/beta_used': 0.01529831625521183, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.1953420639038086, 'logits/rejected': -1.6790311336517334, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████▋                                        | 438/681 [31:43<11:50,  2.92s/it] 64%|████████████████████████████████████████████████████████████████████████▊                                        | 439/681 [31:46<11:36,  2.88s/it]                                                                                                                                                        {'loss': 0.9209, 'grad_norm': 25.170711517333984, 'learning_rate': 1.7055214510452458e-07, 'beta_dpo/gap_mean': 23.02737045288086, 'beta_dpo/gap_std': 24.17821502685547, 'beta_dpo/beta_used_raw': -0.004124250262975693, 'beta_dpo/beta_used': 0.05295996740460396, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.6655948162078857, 'logits/rejected': -1.1508713960647583, 'epoch': 0.64}
 64%|████████████████████████████████████████████████████████████████████████▊                                        | 439/681 [31:46<11:36,  2.88s/it] 65%|█████████████████████████████████████████████████████████████████████████                                        | 440/681 [31:48<11:36,  2.89s/it]                                                                                                                                                        {'loss': 1.441, 'grad_norm': 114.68986511230469, 'learning_rate': 1.6933639389195134e-07, 'beta_dpo/gap_mean': 22.635499954223633, 'beta_dpo/gap_std': 24.43799591064453, 'beta_dpo/beta_used_raw': 0.16911785304546356, 'beta_dpo/beta_used': 0.17924237251281738, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.1340644359588623, 'logits/rejected': -1.0800987482070923, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████                                        | 440/681 [31:48<11:36,  2.89s/it] 65%|█████████████████████████████████████████████████████████████████████████▏                                       | 441/681 [31:51<11:44,  2.93s/it]                                                                                                                                                        {'loss': 1.342, 'grad_norm': 1.4207937717437744, 'learning_rate': 1.681227682404166e-07, 'beta_dpo/gap_mean': 23.210651397705078, 'beta_dpo/gap_std': 24.7412109375, 'beta_dpo/beta_used_raw': -0.037166256457567215, 'beta_dpo/beta_used': 0.002155003370717168, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8811532258987427, 'logits/rejected': -0.946062445640564, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████▏                                       | 441/681 [31:52<11:44,  2.93s/it] 65%|█████████████████████████████████████████████████████████████████████████▎                                       | 442/681 [31:54<11:35,  2.91s/it]                                                                                                                                                        {'loss': 0.7944, 'grad_norm': 25.162975311279297, 'learning_rate': 1.669113001300851e-07, 'beta_dpo/gap_mean': 23.945392608642578, 'beta_dpo/gap_std': 24.70497703552246, 'beta_dpo/beta_used_raw': 0.07147623598575592, 'beta_dpo/beta_used': 0.07147623598575592, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.78822261095047, 'logits/rejected': -0.35674917697906494, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████▎                                       | 442/681 [31:54<11:35,  2.91s/it] 65%|█████████████████████████████████████████████████████████████████████████▌                                       | 443/681 [31:57<11:37,  2.93s/it]                                                                                                                                                        {'loss': 0.9393, 'grad_norm': 23.7645320892334, 'learning_rate': 1.6570202148426815e-07, 'beta_dpo/gap_mean': 24.038724899291992, 'beta_dpo/gap_std': 24.4070987701416, 'beta_dpo/beta_used_raw': 0.008691076189279556, 'beta_dpo/beta_used': 0.04567694664001465, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.9316351413726807, 'logits/rejected': -1.5170958042144775, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████▌                                       | 443/681 [31:57<11:37,  2.93s/it] 65%|█████████████████████████████████████████████████████████████████████████▋                                       | 444/681 [32:00<11:29,  2.91s/it]                                                                                                                                                        {'loss': 1.3673, 'grad_norm': 0.6778625249862671, 'learning_rate': 1.6449496416858282e-07, 'beta_dpo/gap_mean': 23.436275482177734, 'beta_dpo/gap_std': 24.264347076416016, 'beta_dpo/beta_used_raw': -0.14725573360919952, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.8322625160217285, 'logits/rejected': -2.147847890853882, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████▋                                       | 444/681 [32:00<11:29,  2.91s/it] 65%|█████████████████████████████████████████████████████████████████████████▊                                       | 445/681 [32:03<11:29,  2.92s/it]                                                                                                                                                        {'loss': 0.8241, 'grad_norm': 17.004131317138672, 'learning_rate': 1.6329015999011182e-07, 'beta_dpo/gap_mean': 23.653621673583984, 'beta_dpo/gap_std': 24.027339935302734, 'beta_dpo/beta_used_raw': 0.03618288040161133, 'beta_dpo/beta_used': 0.057776615023612976, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.289595127105713, 'logits/rejected': -2.0982038974761963, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████████████████████████████▊                                       | 445/681 [32:03<11:29,  2.92s/it] 65%|██████████████████████████████████████████████████████████████████████████                                       | 446/681 [32:06<11:31,  2.94s/it]                                                                                                                                                        {'loss': 0.9242, 'grad_norm': 45.588523864746094, 'learning_rate': 1.6208764069656578e-07, 'beta_dpo/gap_mean': 23.774471282958984, 'beta_dpo/gap_std': 24.207866668701172, 'beta_dpo/beta_used_raw': 0.04328737035393715, 'beta_dpo/beta_used': 0.10398882627487183, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.8566497564315796, 'logits/rejected': -0.7313945293426514, 'epoch': 0.65}
 65%|██████████████████████████████████████████████████████████████████████████                                       | 446/681 [32:06<11:31,  2.94s/it] 66%|██████████████████████████████████████████████████████████████████████████▏                                      | 447/681 [32:09<11:11,  2.87s/it]                                                                                                                                                        {'loss': 1.3683, 'grad_norm': 0.664543628692627, 'learning_rate': 1.608874379754465e-07, 'beta_dpo/gap_mean': 23.687850952148438, 'beta_dpo/gap_std': 25.157394409179688, 'beta_dpo/beta_used_raw': -0.21297773718833923, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.9025514125823975, 'logits/rejected': -1.9528214931488037, 'epoch': 0.66}
 66%|██████████████████████████████████████████████████████████████████████████▏                                      | 447/681 [32:09<11:11,  2.87s/it] 66%|██████████████████████████████████████████████████████████████████████████▎                                      | 448/681 [32:12<11:19,  2.92s/it]                                                                                                                                                        {'loss': 0.9718, 'grad_norm': 61.825439453125, 'learning_rate': 1.5968958345321177e-07, 'beta_dpo/gap_mean': 23.503799438476562, 'beta_dpo/gap_std': 24.869077682495117, 'beta_dpo/beta_used_raw': -0.042009443044662476, 'beta_dpo/beta_used': 0.11449765413999557, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6304960250854492, 'logits/rejected': -1.7240123748779297, 'epoch': 0.66}
 66%|██████████████████████████████████████████████████████████████████████████▎                                      | 448/681 [32:12<11:19,  2.92s/it] 66%|██████████████████████████████████████████████████████████████████████████▌                                      | 449/681 [32:15<11:14,  2.91s/it]                                                                                                                                                        {'loss': 0.9168, 'grad_norm': 31.599090576171875, 'learning_rate': 1.584941086944423e-07, 'beta_dpo/gap_mean': 24.079425811767578, 'beta_dpo/gap_std': 25.076366424560547, 'beta_dpo/beta_used_raw': 0.07867221534252167, 'beta_dpo/beta_used': 0.12202105671167374, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6092393398284912, 'logits/rejected': -1.0893751382827759, 'epoch': 0.66}
 66%|██████████████████████████████████████████████████████████████████████████▌                                      | 449/681 [32:15<11:14,  2.91s/it] 66%|██████████████████████████████████████████████████████████████████████████▋                                      | 450/681 [32:18<11:23,  2.96s/it]                                                                                                                                                        {'loss': 0.1979, 'grad_norm': 71.5322036743164, 'learning_rate': 1.573010452010098e-07, 'beta_dpo/gap_mean': 24.724367141723633, 'beta_dpo/gap_std': 24.448747634887695, 'beta_dpo/beta_used_raw': 0.3655173182487488, 'beta_dpo/beta_used': 0.3655173182487488, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.9565317630767822, 'logits/rejected': -2.4777119159698486, 'epoch': 0.66}
 66%|██████████████████████████████████████████████████████████████████████████▋                                      | 450/681 [32:18<11:23,  2.96s/it] 66%|██████████████████████████████████████████████████████████████████████████▊                                      | 451/681 [32:20<10:52,  2.84s/it]                                                                                                                                                        {'loss': 0.5711, 'grad_norm': 23.241680145263672, 'learning_rate': 1.5611042441124687e-07, 'beta_dpo/gap_mean': 24.306663513183594, 'beta_dpo/gap_std': 24.566997528076172, 'beta_dpo/beta_used_raw': 0.10620734095573425, 'beta_dpo/beta_used': 0.10620734095573425, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8549528121948242, 'logits/rejected': -1.3230280876159668, 'epoch': 0.66}
 66%|██████████████████████████████████████████████████████████████████████████▊                                      | 451/681 [32:20<10:52,  2.84s/it] 66%|███████████████████████████████████████████████████████████████████████████                                      | 452/681 [32:23<10:51,  2.84s/it]                                                                                                                                                        {'loss': 0.3483, 'grad_norm': 49.24470901489258, 'learning_rate': 1.549222776991186e-07, 'beta_dpo/gap_mean': 23.995746612548828, 'beta_dpo/gap_std': 23.87276840209961, 'beta_dpo/beta_used_raw': 0.16152921319007874, 'beta_dpo/beta_used': 0.16152921319007874, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -2.2875595092773438, 'logits/rejected': -2.118117094039917, 'epoch': 0.66}
 66%|███████████████████████████████████████████████████████████████████████████                                      | 452/681 [32:23<10:51,  2.84s/it] 67%|███████████████████████████████████████████████████████████████████████████▏                                     | 453/681 [32:26<10:37,  2.80s/it]                                                                                                                                                        {'loss': 1.2667, 'grad_norm': 4.06926155090332, 'learning_rate': 1.5373663637339584e-07, 'beta_dpo/gap_mean': 24.373931884765625, 'beta_dpo/gap_std': 24.05362319946289, 'beta_dpo/beta_used_raw': -0.07630041986703873, 'beta_dpo/beta_used': 0.005642706993967295, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.8347233533859253, 'logits/rejected': -1.5946714878082275, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▏                                     | 453/681 [32:26<10:37,  2.80s/it] 67%|███████████████████████████████████████████████████████████████████████████▎                                     | 454/681 [32:29<10:38,  2.81s/it]                                                                                                                                                        {'loss': 1.3672, 'grad_norm': 0.657343327999115, 'learning_rate': 1.5255353167683017e-07, 'beta_dpo/gap_mean': 24.122852325439453, 'beta_dpo/gap_std': 24.29592514038086, 'beta_dpo/beta_used_raw': -0.19752493500709534, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.046905040740967, 'logits/rejected': -1.7205897569656372, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▎                                     | 454/681 [32:29<10:38,  2.81s/it] 67%|███████████████████████████████████████████████████████████████████████████▍                                     | 455/681 [32:32<10:42,  2.84s/it]                                                                                                                                                        {'loss': 1.3673, 'grad_norm': 0.7729347348213196, 'learning_rate': 1.5137299478533064e-07, 'beta_dpo/gap_mean': 24.46869659423828, 'beta_dpo/gap_std': 24.696008682250977, 'beta_dpo/beta_used_raw': -0.1890154629945755, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -2.308173656463623, 'logits/rejected': -2.5527238845825195, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▍                                     | 455/681 [32:32<10:42,  2.84s/it] 67%|███████████████████████████████████████████████████████████████████████████▋                                     | 456/681 [32:35<10:50,  2.89s/it]                                                                                                                                                        {'loss': 0.8742, 'grad_norm': 42.247413635253906, 'learning_rate': 1.5019505680714232e-07, 'beta_dpo/gap_mean': 24.512104034423828, 'beta_dpo/gap_std': 24.691377639770508, 'beta_dpo/beta_used_raw': 0.03978702425956726, 'beta_dpo/beta_used': 0.10838553309440613, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8087551593780518, 'logits/rejected': -1.8514174222946167, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▋                                     | 456/681 [32:35<10:50,  2.89s/it] 67%|███████████████████████████████████████████████████████████████████████████▊                                     | 457/681 [32:38<10:51,  2.91s/it]                                                                                                                                                        {'loss': 0.6975, 'grad_norm': 4.883652210235596, 'learning_rate': 1.4901974878202627e-07, 'beta_dpo/gap_mean': 25.14911651611328, 'beta_dpo/gap_std': 24.04446029663086, 'beta_dpo/beta_used_raw': -0.02056203782558441, 'beta_dpo/beta_used': 0.13772788643836975, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.543813943862915, 'logits/rejected': -1.3994325399398804, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▊                                     | 457/681 [32:38<10:51,  2.91s/it] 67%|███████████████████████████████████████████████████████████████████████████▉                                     | 458/681 [32:41<10:51,  2.92s/it]                                                                                                                                                        {'loss': 1.0782, 'grad_norm': 9.62954044342041, 'learning_rate': 1.4784710168044212e-07, 'beta_dpo/gap_mean': 24.749656677246094, 'beta_dpo/gap_std': 24.605478286743164, 'beta_dpo/beta_used_raw': -0.2884172797203064, 'beta_dpo/beta_used': 0.018343646079301834, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2308340072631836, 'logits/rejected': -0.8876813650131226, 'epoch': 0.67}
 67%|███████████████████████████████████████████████████████████████████████████▉                                     | 458/681 [32:41<10:51,  2.92s/it] 67%|████████████████████████████████████████████████████████████████████████████▏                                    | 459/681 [32:44<10:51,  2.93s/it]                                                                                                                                                        {'loss': 0.7906, 'grad_norm': 31.03327751159668, 'learning_rate': 1.466771464027316e-07, 'beta_dpo/gap_mean': 24.73650360107422, 'beta_dpo/gap_std': 24.42650604248047, 'beta_dpo/beta_used_raw': 0.0319179967045784, 'beta_dpo/beta_used': 0.13343806564807892, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.679572105407715, 'logits/rejected': -2.30106520652771, 'epoch': 0.67}
 67%|████████████████████████████████████████████████████████████████████████████▏                                    | 459/681 [32:44<10:51,  2.93s/it] 68%|████████████████████████████████████████████████████████████████████████████▎                                    | 460/681 [32:47<10:56,  2.97s/it]                                                                                                                                                        {'loss': 1.1246, 'grad_norm': 9.91299057006836, 'learning_rate': 1.4550991377830423e-07, 'beta_dpo/gap_mean': 23.957611083984375, 'beta_dpo/gap_std': 23.70931625366211, 'beta_dpo/beta_used_raw': -0.03031376376748085, 'beta_dpo/beta_used': 0.014424387365579605, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.9293622970581055, 'logits/rejected': -1.8261902332305908, 'epoch': 0.68}
 68%|████████████████████████████████████████████████████████████████████████████▎                                    | 460/681 [32:47<10:56,  2.97s/it] 68%|████████████████████████████████████████████████████████████████████████████▍                                    | 461/681 [32:50<10:57,  2.99s/it]                                                                                                                                                        {'loss': 1.3695, 'grad_norm': 0.6803312301635742, 'learning_rate': 1.4434543456482518e-07, 'beta_dpo/gap_mean': 22.883316040039062, 'beta_dpo/gap_std': 23.486953735351562, 'beta_dpo/beta_used_raw': -0.28378790616989136, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.3033266067504883, 'logits/rejected': -1.0037317276000977, 'epoch': 0.68}
 68%|████████████████████████████████████████████████████████████████████████████▍                                    | 461/681 [32:50<10:57,  2.99s/it] 68%|████████████████████████████████████████████████████████████████████████████▋                                    | 462/681 [32:52<10:43,  2.94s/it]                                                                                                                                                        {'loss': 0.662, 'grad_norm': 38.22011947631836, 'learning_rate': 1.4318373944740484e-07, 'beta_dpo/gap_mean': 22.511737823486328, 'beta_dpo/gap_std': 22.973257064819336, 'beta_dpo/beta_used_raw': 0.1492975503206253, 'beta_dpo/beta_used': 0.1492975503206253, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.354351282119751, 'logits/rejected': -2.0672004222869873, 'epoch': 0.68}
 68%|████████████████████████████████████████████████████████████████████████████▋                                    | 462/681 [32:53<10:43,  2.94s/it] 68%|████████████████████████████████████████████████████████████████████████████▊                                    | 463/681 [32:55<10:31,  2.90s/it]                                                                                                                                                        {'loss': 0.4366, 'grad_norm': 74.08802032470703, 'learning_rate': 1.4202485903778976e-07, 'beta_dpo/gap_mean': 23.360401153564453, 'beta_dpo/gap_std': 23.381099700927734, 'beta_dpo/beta_used_raw': 0.3572339117527008, 'beta_dpo/beta_used': 0.3572339117527008, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.4058332443237305, 'logits/rejected': -2.0344924926757812, 'epoch': 0.68}
 68%|████████████████████████████████████████████████████████████████████████████▊                                    | 463/681 [32:55<10:31,  2.90s/it] 68%|████████████████████████████████████████████████████████████████████████████▉                                    | 464/681 [32:58<10:22,  2.87s/it]                                                                                                                                                        {'loss': 1.3652, 'grad_norm': 0.8541564345359802, 'learning_rate': 1.4086882387355658e-07, 'beta_dpo/gap_mean': 23.911937713623047, 'beta_dpo/gap_std': 23.886293411254883, 'beta_dpo/beta_used_raw': -0.06975067406892776, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.4215198755264282, 'logits/rejected': -1.7960498332977295, 'epoch': 0.68}
 68%|████████████████████████████████████████████████████████████████████████████▉                                    | 464/681 [32:58<10:22,  2.87s/it] 68%|█████████████████████████████████████████████████████████████████████████████▏                                   | 465/681 [33:01<10:31,  2.92s/it]                                                                                                                                                        {'loss': 1.0196, 'grad_norm': 16.16191864013672, 'learning_rate': 1.3971566441730714e-07, 'beta_dpo/gap_mean': 24.532211303710938, 'beta_dpo/gap_std': 23.919170379638672, 'beta_dpo/beta_used_raw': 0.019971748813986778, 'beta_dpo/beta_used': 0.028192659839987755, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.4708728790283203, 'logits/rejected': -1.1633594036102295, 'epoch': 0.68}
 68%|█████████████████████████████████████████████████████████████████████████████▏                                   | 465/681 [33:01<10:31,  2.92s/it] 68%|█████████████████████████████████████████████████████████████████████████████▎                                   | 466/681 [33:04<10:32,  2.94s/it]                                                                                                                                                        {'loss': 1.3635, 'grad_norm': 0.6992933750152588, 'learning_rate': 1.3856541105586545e-07, 'beta_dpo/gap_mean': 25.499624252319336, 'beta_dpo/gap_std': 24.219432830810547, 'beta_dpo/beta_used_raw': -0.04159821569919586, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.7571964263916016, 'logits/rejected': -0.9470900893211365, 'epoch': 0.68}
 68%|█████████████████████████████████████████████████████████████████████████████▎                                   | 466/681 [33:04<10:32,  2.94s/it] 69%|█████████████████████████████████████████████████████████████████████████████▍                                   | 467/681 [33:07<10:25,  2.92s/it]                                                                                                                                                        {'loss': 0.7054, 'grad_norm': 96.3606185913086, 'learning_rate': 1.3741809409947729e-07, 'beta_dpo/gap_mean': 26.462804794311523, 'beta_dpo/gap_std': 25.145883560180664, 'beta_dpo/beta_used_raw': 0.22183255851268768, 'beta_dpo/beta_used': 0.22183255851268768, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2724277973175049, 'logits/rejected': -0.8243029117584229, 'epoch': 0.69}
 69%|█████████████████████████████████████████████████████████████████████████████▍                                   | 467/681 [33:07<10:25,  2.92s/it] 69%|█████████████████████████████████████████████████████████████████████████████▋                                   | 468/681 [33:10<10:31,  2.97s/it]                                                                                                                                                        {'loss': 1.3656, 'grad_norm': 0.6921370625495911, 'learning_rate': 1.362737437810114e-07, 'beta_dpo/gap_mean': 25.78664779663086, 'beta_dpo/gap_std': 25.59890365600586, 'beta_dpo/beta_used_raw': -0.17463745176792145, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.6112632751464844, 'logits/rejected': -1.4802091121673584, 'epoch': 0.69}
 69%|█████████████████████████████████████████████████████████████████████████████▋                                   | 468/681 [33:10<10:31,  2.97s/it] 69%|█████████████████████████████████████████████████████████████████████████████▊                                   | 469/681 [33:13<10:30,  2.98s/it]                                                                                                                                                        {'loss': 1.0234, 'grad_norm': 25.594966888427734, 'learning_rate': 1.351323902551631e-07, 'beta_dpo/gap_mean': 25.817581176757812, 'beta_dpo/gap_std': 25.734947204589844, 'beta_dpo/beta_used_raw': -0.01731177791953087, 'beta_dpo/beta_used': 0.047440025955438614, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0756289958953857, 'logits/rejected': -1.1045548915863037, 'epoch': 0.69}
 69%|█████████████████████████████████████████████████████████████████████████████▊                                   | 469/681 [33:13<10:30,  2.98s/it] 69%|█████████████████████████████████████████████████████████████████████████████▉                                   | 470/681 [33:16<10:11,  2.90s/it]                                                                                                                                                        {'loss': 1.0523, 'grad_norm': 9.844660758972168, 'learning_rate': 1.339940635976592e-07, 'beta_dpo/gap_mean': 25.85068702697754, 'beta_dpo/gap_std': 25.390472412109375, 'beta_dpo/beta_used_raw': -0.1629122942686081, 'beta_dpo/beta_used': 0.021085133776068687, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.3108842372894287, 'logits/rejected': -0.6206603050231934, 'epoch': 0.69}
 69%|█████████████████████████████████████████████████████████████████████████████▉                                   | 470/681 [33:16<10:11,  2.90s/it] 69%|██████████████████████████████████████████████████████████████████████████████▏                                  | 471/681 [33:18<09:54,  2.83s/it]                                                                                                                                                        {'loss': 1.3646, 'grad_norm': 0.6610987186431885, 'learning_rate': 1.3285879380446563e-07, 'beta_dpo/gap_mean': 25.482086181640625, 'beta_dpo/gap_std': 24.27267837524414, 'beta_dpo/beta_used_raw': -0.1044345274567604, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.423391342163086, 'logits/rejected': -1.448016881942749, 'epoch': 0.69}
 69%|██████████████████████████████████████████████████████████████████████████████▏                                  | 471/681 [33:18<09:54,  2.83s/it] 69%|██████████████████████████████████████████████████████████████████████████████▎                                  | 472/681 [33:22<10:19,  2.96s/it]                                                                                                                                                        {'loss': 0.7033, 'grad_norm': 42.54352951049805, 'learning_rate': 1.317266107909975e-07, 'beta_dpo/gap_mean': 25.83689308166504, 'beta_dpo/gap_std': 24.579055786132812, 'beta_dpo/beta_used_raw': 0.20053143799304962, 'beta_dpo/beta_used': 0.2060602307319641, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8569872379302979, 'logits/rejected': -0.8077524900436401, 'epoch': 0.69}
 69%|██████████████████████████████████████████████████████████████████████████████▎                                  | 472/681 [33:22<10:19,  2.96s/it] 69%|██████████████████████████████████████████████████████████████████████████████▍                                  | 473/681 [33:25<10:34,  3.05s/it]                                                                                                                                                        {'loss': 1.366, 'grad_norm': 0.6892096996307373, 'learning_rate': 1.3059754439133002e-07, 'beta_dpo/gap_mean': 25.466594696044922, 'beta_dpo/gap_std': 24.39486312866211, 'beta_dpo/beta_used_raw': -0.18200881779193878, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5234148502349854, 'logits/rejected': -1.2367827892303467, 'epoch': 0.69}
 69%|██████████████████████████████████████████████████████████████████████████████▍                                  | 473/681 [33:25<10:34,  3.05s/it] 70%|██████████████████████████████████████████████████████████████████████████████▋                                  | 474/681 [33:28<10:32,  3.06s/it]                                                                                                                                                        {'loss': 0.8605, 'grad_norm': 64.44613647460938, 'learning_rate': 1.2947162435741277e-07, 'beta_dpo/gap_mean': 24.003257751464844, 'beta_dpo/gap_std': 24.40390396118164, 'beta_dpo/beta_used_raw': 0.041917115449905396, 'beta_dpo/beta_used': 0.2482704520225525, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.6847041845321655, 'logits/rejected': -1.9953196048736572, 'epoch': 0.7}
 70%|██████████████████████████████████████████████████████████████████████████████▋                                  | 474/681 [33:28<10:32,  3.06s/it] 70%|██████████████████████████████████████████████████████████████████████████████▊                                  | 475/681 [33:31<10:12,  2.98s/it]                                                                                                                                                        {'loss': 1.0405, 'grad_norm': 64.81230926513672, 'learning_rate': 1.2834888035828596e-07, 'beta_dpo/gap_mean': 23.967273712158203, 'beta_dpo/gap_std': 25.094600677490234, 'beta_dpo/beta_used_raw': -0.021716512739658356, 'beta_dpo/beta_used': 0.08866570144891739, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.347712993621826, 'logits/rejected': -2.292513847351074, 'epoch': 0.7}
 70%|██████████████████████████████████████████████████████████████████████████████▊                                  | 475/681 [33:31<10:12,  2.98s/it] 70%|██████████████████████████████████████████████████████████████████████████████▉                                  | 476/681 [33:34<10:04,  2.95s/it]                                                                                                                                                        {'loss': 1.0054, 'grad_norm': 40.68457794189453, 'learning_rate': 1.2722934197929802e-07, 'beta_dpo/gap_mean': 24.103946685791016, 'beta_dpo/gap_std': 25.448429107666016, 'beta_dpo/beta_used_raw': 0.06551661342382431, 'beta_dpo/beta_used': 0.09056875109672546, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -3.05594539642334, 'logits/rejected': -2.536451816558838, 'epoch': 0.7}
 70%|██████████████████████████████████████████████████████████████████████████████▉                                  | 476/681 [33:34<10:04,  2.95s/it] 70%|███████████████████████████████████████████████████████████████████████████████▏                                 | 477/681 [33:37<09:58,  2.93s/it]                                                                                                                                                        {'loss': 1.0475, 'grad_norm': 85.09745025634766, 'learning_rate': 1.2611303872132631e-07, 'beta_dpo/gap_mean': 24.300308227539062, 'beta_dpo/gap_std': 24.919261932373047, 'beta_dpo/beta_used_raw': 0.12678027153015137, 'beta_dpo/beta_used': 0.1769174486398697, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -3.4631779193878174, 'logits/rejected': -2.302935838699341, 'epoch': 0.7}
 70%|███████████████████████████████████████████████████████████████████████████████▏                                 | 477/681 [33:37<09:58,  2.93s/it] 70%|███████████████████████████████████████████████████████████████████████████████▎                                 | 478/681 [33:40<10:04,  2.98s/it]                                                                                                                                                        {'loss': 0.7357, 'grad_norm': 9.503323554992676, 'learning_rate': 1.2500000000000005e-07, 'beta_dpo/gap_mean': 24.570049285888672, 'beta_dpo/gap_std': 24.76816177368164, 'beta_dpo/beta_used_raw': 0.06331229954957962, 'beta_dpo/beta_used': 0.07639861106872559, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.6086479425430298, 'logits/rejected': -1.4580334424972534, 'epoch': 0.7}
 70%|███████████████████████████████████████████████████████████████████████████████▎                                 | 478/681 [33:40<10:04,  2.98s/it] 70%|███████████████████████████████████████████████████████████████████████████████▍                                 | 479/681 [33:43<09:55,  2.95s/it]                                                                                                                                                        {'loss': 1.0451, 'grad_norm': 17.492374420166016, 'learning_rate': 1.2389025514492456e-07, 'beta_dpo/gap_mean': 23.97896385192871, 'beta_dpo/gap_std': 24.565216064453125, 'beta_dpo/beta_used_raw': -0.0354989692568779, 'beta_dpo/beta_used': 0.027390312403440475, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.1278550624847412, 'logits/rejected': -1.251664400100708, 'epoch': 0.7}
 70%|███████████████████████████████████████████████████████████████████████████████▍                                 | 479/681 [33:43<09:55,  2.95s/it] 70%|███████████████████████████████████████████████████████████████████████████████▋                                 | 480/681 [33:45<09:49,  2.93s/it]                                                                                                                                                        {'loss': 0.5926, 'grad_norm': 37.384212493896484, 'learning_rate': 1.227838333989088e-07, 'beta_dpo/gap_mean': 24.32904624938965, 'beta_dpo/gap_std': 24.614551544189453, 'beta_dpo/beta_used_raw': 0.14048559963703156, 'beta_dpo/beta_used': 0.14048559963703156, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.9816099405288696, 'logits/rejected': -0.38579627871513367, 'epoch': 0.7}
 70%|███████████████████████████████████████████████████████████████████████████████▋                                 | 480/681 [33:45<09:49,  2.93s/it] 71%|███████████████████████████████████████████████████████████████████████████████▊                                 | 481/681 [33:48<09:40,  2.90s/it]                                                                                                                                                        {'loss': 0.754, 'grad_norm': 69.83039855957031, 'learning_rate': 1.2168076391719489e-07, 'beta_dpo/gap_mean': 24.815683364868164, 'beta_dpo/gap_std': 24.725587844848633, 'beta_dpo/beta_used_raw': 0.24488958716392517, 'beta_dpo/beta_used': 0.2901894152164459, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.7151495218276978, 'logits/rejected': -1.237488031387329, 'epoch': 0.71}
 71%|███████████████████████████████████████████████████████████████████████████████▊                                 | 481/681 [33:48<09:40,  2.90s/it] 71%|███████████████████████████████████████████████████████████████████████████████▉                                 | 482/681 [33:51<09:42,  2.93s/it]                                                                                                                                                        {'loss': 0.3995, 'grad_norm': 72.19092559814453, 'learning_rate': 1.2058107576668938e-07, 'beta_dpo/gap_mean': 24.80794334411621, 'beta_dpo/gap_std': 24.68585777282715, 'beta_dpo/beta_used_raw': 0.2500970959663391, 'beta_dpo/beta_used': 0.2500970959663391, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7398509979248047, 'logits/rejected': -1.5857124328613281, 'epoch': 0.71}
 71%|███████████████████████████████████████████████████████████████████████████████▉                                 | 482/681 [33:51<09:42,  2.93s/it] 71%|████████████████████████████████████████████████████████████████████████████████▏                                | 483/681 [33:54<09:35,  2.91s/it]                                                                                                                                                        {'loss': 1.3641, 'grad_norm': 0.6664114594459534, 'learning_rate': 1.194847979251979e-07, 'beta_dpo/gap_mean': 24.991384506225586, 'beta_dpo/gap_std': 24.81667137145996, 'beta_dpo/beta_used_raw': -0.05012429505586624, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.6922659873962402, 'logits/rejected': -2.0293326377868652, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████████████████████▏                                | 483/681 [33:54<09:35,  2.91s/it] 71%|████████████████████████████████████████████████████████████████████████████████▎                                | 484/681 [33:57<09:16,  2.82s/it]                                                                                                                                                        {'loss': 1.0274, 'grad_norm': 24.220054626464844, 'learning_rate': 1.1839195928066101e-07, 'beta_dpo/gap_mean': 25.618431091308594, 'beta_dpo/gap_std': 24.99521255493164, 'beta_dpo/beta_used_raw': -0.043017227202653885, 'beta_dpo/beta_used': 0.05779772624373436, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.480839729309082, 'logits/rejected': -1.7270921468734741, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████████████████████▎                                | 484/681 [33:57<09:16,  2.82s/it] 71%|████████████████████████████████████████████████████████████████████████████████▍                                | 485/681 [34:00<09:15,  2.83s/it]                                                                                                                                                        {'loss': 0.5049, 'grad_norm': 204.2612762451172, 'learning_rate': 1.1730258863039347e-07, 'beta_dpo/gap_mean': 26.87214469909668, 'beta_dpo/gap_std': 25.37643051147461, 'beta_dpo/beta_used_raw': 0.4556177258491516, 'beta_dpo/beta_used': 0.4556177258491516, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.7958972454071045, 'logits/rejected': -1.4648010730743408, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████████████████████▍                                | 485/681 [34:00<09:15,  2.83s/it] 71%|████████████████████████████████████████████████████████████████████████████████▋                                | 486/681 [34:02<08:45,  2.70s/it]                                                                                                                                                        {'loss': 1.0155, 'grad_norm': 54.36297607421875, 'learning_rate': 1.1621671468032493e-07, 'beta_dpo/gap_mean': 27.25442886352539, 'beta_dpo/gap_std': 25.22077178955078, 'beta_dpo/beta_used_raw': -0.0033923983573913574, 'beta_dpo/beta_used': 0.10207835584878922, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.51706862449646, 'logits/rejected': -0.514898419380188, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████████████████████▋                                | 486/681 [34:02<08:45,  2.70s/it] 72%|████████████████████████████████████████████████████████████████████████████████▊                                | 487/681 [34:05<09:08,  2.83s/it]                                                                                                                                                        {'loss': 0.8498, 'grad_norm': 15.441408157348633, 'learning_rate': 1.1513436604424378e-07, 'beta_dpo/gap_mean': 27.748754501342773, 'beta_dpo/gap_std': 25.296875, 'beta_dpo/beta_used_raw': -0.09983708709478378, 'beta_dpo/beta_used': 0.04191367328166962, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.518860340118408, 'logits/rejected': -2.168724536895752, 'epoch': 0.72}
 72%|████████████████████████████████████████████████████████████████████████████████▊                                | 487/681 [34:05<09:08,  2.83s/it] 72%|████████████████████████████████████████████████████████████████████████████████▉                                | 488/681 [34:08<09:23,  2.92s/it]                                                                                                                                                        {'loss': 0.8823, 'grad_norm': 15.30657958984375, 'learning_rate': 1.1405557124304335e-07, 'beta_dpo/gap_mean': 27.471683502197266, 'beta_dpo/gap_std': 25.476192474365234, 'beta_dpo/beta_used_raw': -0.12155961990356445, 'beta_dpo/beta_used': 0.04545029625296593, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.4583563804626465, 'logits/rejected': -1.155217170715332, 'epoch': 0.72}
 72%|████████████████████████████████████████████████████████████████████████████████▉                                | 488/681 [34:08<09:23,  2.92s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▏                               | 489/681 [34:11<09:14,  2.89s/it]                                                                                                                                                        {'loss': 0.8221, 'grad_norm': 16.644136428833008, 'learning_rate': 1.1298035870396985e-07, 'beta_dpo/gap_mean': 26.843271255493164, 'beta_dpo/gap_std': 25.29082489013672, 'beta_dpo/beta_used_raw': -0.1422080397605896, 'beta_dpo/beta_used': 0.06218419224023819, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4313712120056152, 'logits/rejected': -0.8691326379776001, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████████████████████▏                               | 489/681 [34:11<09:14,  2.89s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▎                               | 490/681 [34:14<09:23,  2.95s/it]                                                                                                                                                        {'loss': 0.7618, 'grad_norm': 53.396732330322266, 'learning_rate': 1.1190875675987355e-07, 'beta_dpo/gap_mean': 26.245960235595703, 'beta_dpo/gap_std': 25.95622444152832, 'beta_dpo/beta_used_raw': 0.18236497044563293, 'beta_dpo/beta_used': 0.20237208902835846, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -3.046250104904175, 'logits/rejected': -3.4327287673950195, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████████████████████▎                               | 490/681 [34:14<09:23,  2.95s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▍                               | 491/681 [34:17<09:11,  2.90s/it]                                                                                                                                                        {'loss': 1.1114, 'grad_norm': 84.63758087158203, 'learning_rate': 1.1084079364846241e-07, 'beta_dpo/gap_mean': 26.14499855041504, 'beta_dpo/gap_std': 26.140344619750977, 'beta_dpo/beta_used_raw': 0.11552975326776505, 'beta_dpo/beta_used': 0.1410069763660431, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.0656046867370605, 'logits/rejected': -1.3837230205535889, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████████████████████▍                               | 491/681 [34:17<09:11,  2.90s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▋                               | 492/681 [34:20<09:10,  2.91s/it]                                                                                                                                                        {'loss': 0.8304, 'grad_norm': 48.452571868896484, 'learning_rate': 1.097764975115576e-07, 'beta_dpo/gap_mean': 25.744234085083008, 'beta_dpo/gap_std': 26.764545440673828, 'beta_dpo/beta_used_raw': 0.14474520087242126, 'beta_dpo/beta_used': 0.14474520087242126, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.1017768383026123, 'logits/rejected': -1.7172629833221436, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████████████████████▋                               | 492/681 [34:20<09:10,  2.91s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▊                               | 493/681 [34:23<09:16,  2.96s/it]                                                                                                                                                        {'loss': 1.3647, 'grad_norm': 0.626876950263977, 'learning_rate': 1.0871589639435203e-07, 'beta_dpo/gap_mean': 25.308929443359375, 'beta_dpo/gap_std': 25.760934829711914, 'beta_dpo/beta_used_raw': -0.0884954184293747, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3586655855178833, 'logits/rejected': -1.147123098373413, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████████████████████▊                               | 493/681 [34:23<09:16,  2.96s/it] 73%|█████████████████████████████████████████████████████████████████████████████████▉                               | 494/681 [34:26<08:51,  2.84s/it]                                                                                                                                                        {'loss': 0.9824, 'grad_norm': 94.02973175048828, 'learning_rate': 1.0765901824467166e-07, 'beta_dpo/gap_mean': 25.867393493652344, 'beta_dpo/gap_std': 25.818172454833984, 'beta_dpo/beta_used_raw': 0.3110436797142029, 'beta_dpo/beta_used': 0.32471179962158203, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.9558006525039673, 'logits/rejected': -0.8172507286071777, 'epoch': 0.73}
 73%|█████████████████████████████████████████████████████████████████████████████████▉                               | 494/681 [34:26<08:51,  2.84s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▏                              | 495/681 [34:29<09:09,  2.96s/it]                                                                                                                                                        {'loss': 0.9694, 'grad_norm': 42.371150970458984, 'learning_rate': 1.0660589091223854e-07, 'beta_dpo/gap_mean': 25.145401000976562, 'beta_dpo/gap_std': 26.142412185668945, 'beta_dpo/beta_used_raw': -0.03144054859876633, 'beta_dpo/beta_used': 0.07395792752504349, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -2.23215651512146, 'logits/rejected': -1.574699878692627, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▏                              | 495/681 [34:29<09:09,  2.96s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▎                              | 496/681 [34:32<09:10,  2.98s/it]                                                                                                                                                        {'loss': 0.2468, 'grad_norm': 45.06632995605469, 'learning_rate': 1.0555654214793722e-07, 'beta_dpo/gap_mean': 24.547943115234375, 'beta_dpo/gap_std': 25.825014114379883, 'beta_dpo/beta_used_raw': 0.2092335820198059, 'beta_dpo/beta_used': 0.2092335820198059, 'beta_dpo/mask_keep_frac': 0.4375, 'logits/chosen': -2.4776511192321777, 'logits/rejected': -2.3953630924224854, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▎                              | 496/681 [34:32<09:10,  2.98s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▍                              | 497/681 [34:35<09:06,  2.97s/it]                                                                                                                                                        {'loss': 1.0408, 'grad_norm': 10.57982063293457, 'learning_rate': 1.0451099960308374e-07, 'beta_dpo/gap_mean': 24.095136642456055, 'beta_dpo/gap_std': 25.3642578125, 'beta_dpo/beta_used_raw': -0.23946470022201538, 'beta_dpo/beta_used': 0.021729838103055954, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.4335005283355713, 'logits/rejected': -0.9387121200561523, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▍                              | 497/681 [34:35<09:06,  2.97s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▋                              | 498/681 [34:38<09:03,  2.97s/it]                                                                                                                                                        {'loss': 0.9679, 'grad_norm': 36.32901382446289, 'learning_rate': 1.0346929082869641e-07, 'beta_dpo/gap_mean': 23.83123779296875, 'beta_dpo/gap_std': 25.33839225769043, 'beta_dpo/beta_used_raw': 0.03154543787240982, 'beta_dpo/beta_used': 0.09472735226154327, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.6869301795959473, 'logits/rejected': -0.898349940776825, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▋                              | 498/681 [34:38<09:03,  2.97s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▊                              | 499/681 [34:41<08:55,  2.94s/it]                                                                                                                                                        {'loss': 1.0755, 'grad_norm': 64.64530181884766, 'learning_rate': 1.0243144327477013e-07, 'beta_dpo/gap_mean': 24.075727462768555, 'beta_dpo/gap_std': 25.831310272216797, 'beta_dpo/beta_used_raw': 0.12113827466964722, 'beta_dpo/beta_used': 0.16567786037921906, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.4007351398468018, 'logits/rejected': -1.5927693843841553, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▊                              | 499/681 [34:41<08:55,  2.94s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▉                              | 500/681 [34:43<08:44,  2.90s/it]                                                                                                                                                        {'loss': 0.9705, 'grad_norm': 19.999631881713867, 'learning_rate': 1.0139748428955333e-07, 'beta_dpo/gap_mean': 24.272212982177734, 'beta_dpo/gap_std': 26.225910186767578, 'beta_dpo/beta_used_raw': -0.2836288809776306, 'beta_dpo/beta_used': 0.03878691792488098, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.7180049419403076, 'logits/rejected': -2.44711971282959, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▉                              | 500/681 [34:43<08:44,  2.90s/it][INFO|trainer.py:4307] 2026-04-24 02:26:31,786 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 02:26:31,786 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 02:26:31,786 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:21,  3.32it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:29,  2.35it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:33,  2.06it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:35,  1.93it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.82it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:35,  1.88it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:04<00:37,  1.75it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:37,  1.69it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.66it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:37,  1.67it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:37,  1.65it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:35,  1.68it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.66it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:34,  1.66it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.60it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.59it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:34,  1.57it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:11<00:34,  1.56it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:34,  1.54it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:33,  1.54it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:13<00:33,  1.53it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:31,  1.56it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.57it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.59it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:29,  1.59it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.76it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.71it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.73it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:24,  1.75it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.68it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:23,  1.71it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.73it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:20<00:22,  1.70it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:23,  1.63it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:22,  1.63it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.63it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:20,  1.71it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:20,  1.64it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.71it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:18,  1.67it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:17,  1.69it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.67it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.61it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.68it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.65it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.64it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.62it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:14,  1.64it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.61it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:31<00:13,  1.58it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:12,  1.55it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.65it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:11,  1.63it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.67it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:09,  1.61it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:08,  1.67it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:07,  1.64it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.63it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:37<00:06,  1.65it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.74it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:38<00:05,  1.76it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.74it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:04,  1.67it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.70it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.67it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:41<00:02,  1.63it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.62it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.63it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:43<00:00,  1.63it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.6340479254722595, 'eval_runtime': 44.171, 'eval_samples_per_second': 52.953, 'eval_steps_per_second': 1.675, 'eval_beta_dpo/gap_mean': 24.03917694091797, 'eval_beta_dpo/gap_std': 26.52628517150879, 'eval_beta_dpo/beta_used_raw': -0.17833033204078674, 'eval_beta_dpo/beta_used': 0.03219933807849884, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -1.7312169075012207, 'eval_logits/rejected': -1.4078279733657837, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████████████████████▉                              | 500/681 [35:28<08:44,  2.90s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s][A
                                                                                                                                                        [A 74%|███████████████████████████████████████████████████████████████████████████████████▏                             | 501/681 [35:30<48:24, 16.14s/it]                                                                                                                                                        {'loss': 1.1053, 'grad_norm': 90.26338195800781, 'learning_rate': 1.0036744111882672e-07, 'beta_dpo/gap_mean': 24.187057495117188, 'beta_dpo/gap_std': 27.05206298828125, 'beta_dpo/beta_used_raw': 0.013247430324554443, 'beta_dpo/beta_used': 0.10995148867368698, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.1896305084228516, 'logits/rejected': -1.6922519207000732, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▏                             | 501/681 [35:30<48:24, 16.14s/it] 74%|███████████████████████████████████████████████████████████████████████████████████▎                             | 502/681 [35:34<36:32, 12.25s/it]                                                                                                                                                        {'loss': 0.9276, 'grad_norm': 44.8062858581543, 'learning_rate': 9.934134090518592e-08, 'beta_dpo/gap_mean': 23.625625610351562, 'beta_dpo/gap_std': 26.485179901123047, 'beta_dpo/beta_used_raw': -0.03644367307424545, 'beta_dpo/beta_used': 0.11361445486545563, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3716320991516113, 'logits/rejected': -0.4437238276004791, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▎                             | 502/681 [35:34<36:32, 12.25s/it] 74%|███████████████████████████████████████████████████████████████████████████████████▍                             | 503/681 [35:37<28:13,  9.51s/it]                                                                                                                                                        {'loss': 0.9624, 'grad_norm': 52.749027252197266, 'learning_rate': 9.831921068732571e-08, 'beta_dpo/gap_mean': 23.886451721191406, 'beta_dpo/gap_std': 26.337364196777344, 'beta_dpo/beta_used_raw': 0.05120537430047989, 'beta_dpo/beta_used': 0.12637387216091156, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.1856811046600342, 'logits/rejected': -0.5425550937652588, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▍                             | 503/681 [35:37<28:13,  9.51s/it] 74%|███████████████████████████████████████████████████████████████████████████████████▋                             | 504/681 [35:40<22:16,  7.55s/it]                                                                                                                                                        {'loss': 0.4629, 'grad_norm': 22.412988662719727, 'learning_rate': 9.730107739932805e-08, 'beta_dpo/gap_mean': 24.439533233642578, 'beta_dpo/gap_std': 26.03683853149414, 'beta_dpo/beta_used_raw': 0.14221353828907013, 'beta_dpo/beta_used': 0.14221353828907013, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.424509048461914, 'logits/rejected': -1.730525255203247, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▋                             | 504/681 [35:40<22:16,  7.55s/it] 74%|███████████████████████████████████████████████████████████████████████████████████▊                             | 505/681 [35:43<18:04,  6.16s/it]                                                                                                                                                        {'loss': 1.1082, 'grad_norm': 16.965612411499023, 'learning_rate': 9.628696786995188e-08, 'beta_dpo/gap_mean': 24.782123565673828, 'beta_dpo/gap_std': 25.870738983154297, 'beta_dpo/beta_used_raw': -0.029433485120534897, 'beta_dpo/beta_used': 0.01897226832807064, 'beta_dpo/mask_keep_frac': 0.5, 'logits/chosen': -2.425438404083252, 'logits/rejected': -1.7937641143798828, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▊                             | 505/681 [35:43<18:04,  6.16s/it] 74%|███████████████████████████████████████████████████████████████████████████████████▉                             | 506/681 [35:45<14:58,  5.13s/it]                                                                                                                                                        {'loss': 0.8848, 'grad_norm': 33.604942321777344, 'learning_rate': 9.527690882192635e-08, 'beta_dpo/gap_mean': 24.745590209960938, 'beta_dpo/gap_std': 25.26523780822754, 'beta_dpo/beta_used_raw': -0.059955500066280365, 'beta_dpo/beta_used': 0.061722710728645325, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.8098220825195312, 'logits/rejected': -2.106682300567627, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████████████████████▉                             | 506/681 [35:45<14:58,  5.13s/it] 74%|████████████████████████████████████████████████████████████████████████████████████▏                            | 507/681 [35:48<12:52,  4.44s/it]                                                                                                                                                        {'loss': 0.7663, 'grad_norm': 68.09627532958984, 'learning_rate': 9.427092687124691e-08, 'beta_dpo/gap_mean': 24.21612548828125, 'beta_dpo/gap_std': 25.324092864990234, 'beta_dpo/beta_used_raw': 0.043975263833999634, 'beta_dpo/beta_used': 0.19439199566841125, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.1560895442962646, 'logits/rejected': -1.386178731918335, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████████████████████▏                            | 507/681 [35:48<12:52,  4.44s/it] 75%|████████████████████████████████████████████████████████████████████████████████████▎                            | 508/681 [35:51<11:33,  4.01s/it]                                                                                                                                                        {'loss': 2.9516, 'grad_norm': 182.68023681640625, 'learning_rate': 9.326904852647344e-08, 'beta_dpo/gap_mean': 24.648590087890625, 'beta_dpo/gap_std': 26.04003143310547, 'beta_dpo/beta_used_raw': 0.14820647239685059, 'beta_dpo/beta_used': 0.25187134742736816, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.7161022424697876, 'logits/rejected': -1.4046952724456787, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████████████████████▎                            | 508/681 [35:51<11:33,  4.01s/it] 75%|████████████████████████████████████████████████████████████████████████████████████▍                            | 509/681 [35:54<10:37,  3.71s/it]                                                                                                                                                        {'loss': 0.8712, 'grad_norm': 18.679121017456055, 'learning_rate': 9.227130018803195e-08, 'beta_dpo/gap_mean': 24.13115119934082, 'beta_dpo/gap_std': 26.21490478515625, 'beta_dpo/beta_used_raw': -0.038649074733257294, 'beta_dpo/beta_used': 0.09821511805057526, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.3101774454116821, 'logits/rejected': -0.8527284264564514, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████████████████████▍                            | 509/681 [35:54<10:37,  3.71s/it] 75%|████████████████████████████████████████████████████████████████████████████████████▋                            | 510/681 [35:57<10:06,  3.55s/it]                                                                                                                                                        {'loss': 0.6115, 'grad_norm': 79.88699340820312, 'learning_rate': 9.127770814751932e-08, 'beta_dpo/gap_mean': 24.463417053222656, 'beta_dpo/gap_std': 26.568939208984375, 'beta_dpo/beta_used_raw': 0.30942094326019287, 'beta_dpo/beta_used': 0.30942094326019287, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.267930030822754, 'logits/rejected': -1.8385182619094849, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████████████████████▋                            | 510/681 [35:57<10:06,  3.55s/it] 75%|████████████████████████████████████████████████████████████████████████████████████▊                            | 511/681 [36:00<09:38,  3.40s/it]                                                                                                                                                        {'loss': 1.3643, 'grad_norm': 0.6812777519226074, 'learning_rate': 9.028829858700973e-08, 'beta_dpo/gap_mean': 24.398059844970703, 'beta_dpo/gap_std': 26.453224182128906, 'beta_dpo/beta_used_raw': -0.04102417826652527, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.034882068634033, 'logits/rejected': -1.846768856048584, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████████████████████▊                            | 511/681 [36:00<09:38,  3.40s/it] 75%|████████████████████████████████████████████████████████████████████████████████████▉                            | 512/681 [36:03<08:51,  3.15s/it]                                                                                                                                                        {'loss': 0.9018, 'grad_norm': 31.43082046508789, 'learning_rate': 8.930309757836516e-08, 'beta_dpo/gap_mean': 24.210956573486328, 'beta_dpo/gap_std': 26.983474731445312, 'beta_dpo/beta_used_raw': 0.03792363032698631, 'beta_dpo/beta_used': 0.07764732837677002, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.611680030822754, 'logits/rejected': -2.0863518714904785, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████████████████████▉                            | 512/681 [36:03<08:51,  3.15s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████                            | 513/681 [36:06<08:34,  3.07s/it]                                                                                                                                                        {'loss': 0.8024, 'grad_norm': 24.38973617553711, 'learning_rate': 8.832213108254863e-08, 'beta_dpo/gap_mean': 24.388751983642578, 'beta_dpo/gap_std': 26.420513153076172, 'beta_dpo/beta_used_raw': 0.03322139382362366, 'beta_dpo/beta_used': 0.1845654845237732, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.388493537902832, 'logits/rejected': -2.022644281387329, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████████████████████                            | 513/681 [36:06<08:34,  3.07s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████▎                           | 514/681 [36:09<08:32,  3.07s/it]                                                                                                                                                        {'loss': 1.4285, 'grad_norm': 78.80061340332031, 'learning_rate': 8.734542494893954e-08, 'beta_dpo/gap_mean': 23.975135803222656, 'beta_dpo/gap_std': 26.291915893554688, 'beta_dpo/beta_used_raw': 0.06263618916273117, 'beta_dpo/beta_used': 0.1264495700597763, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.2603392601013184, 'logits/rejected': -1.7184593677520752, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████████████████████▎                           | 514/681 [36:09<08:32,  3.07s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████▍                           | 515/681 [36:12<08:23,  3.03s/it]                                                                                                                                                        {'loss': 0.9247, 'grad_norm': 18.761693954467773, 'learning_rate': 8.637300491465272e-08, 'beta_dpo/gap_mean': 23.374832153320312, 'beta_dpo/gap_std': 26.226722717285156, 'beta_dpo/beta_used_raw': -0.0024248547852039337, 'beta_dpo/beta_used': 0.041680097579956055, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.198162317276001, 'logits/rejected': -1.1071486473083496, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████████████████████▍                           | 515/681 [36:12<08:23,  3.03s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████▌                           | 516/681 [36:14<07:54,  2.87s/it]                                                                                                                                                        {'loss': 1.3689, 'grad_norm': 0.6352587938308716, 'learning_rate': 8.540489660386064e-08, 'beta_dpo/gap_mean': 23.667404174804688, 'beta_dpo/gap_std': 27.000638961791992, 'beta_dpo/beta_used_raw': -0.16223004460334778, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.1877317428588867, 'logits/rejected': -1.726811170578003, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████████████████████▌                           | 516/681 [36:14<07:54,  2.87s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████▊                           | 517/681 [36:17<07:49,  2.86s/it]                                                                                                                                                        {'loss': 0.6856, 'grad_norm': 37.68376922607422, 'learning_rate': 8.444112552711752e-08, 'beta_dpo/gap_mean': 24.49957847595215, 'beta_dpo/gap_std': 26.765764236450195, 'beta_dpo/beta_used_raw': 0.19271814823150635, 'beta_dpo/beta_used': 0.19271814823150635, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.6701611280441284, 'logits/rejected': -1.4171370267868042, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████████████████████▊                           | 517/681 [36:17<07:49,  2.86s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████▉                           | 518/681 [36:21<08:09,  3.00s/it]                                                                                                                                                        {'loss': 1.0054, 'grad_norm': 23.860557556152344, 'learning_rate': 8.348171708068747e-08, 'beta_dpo/gap_mean': 23.66852569580078, 'beta_dpo/gap_std': 26.297685623168945, 'beta_dpo/beta_used_raw': -0.09706801176071167, 'beta_dpo/beta_used': 0.0481136217713356, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3623682260513306, 'logits/rejected': -1.3445403575897217, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████████████████████▉                           | 518/681 [36:21<08:09,  3.00s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████                           | 519/681 [36:24<08:09,  3.02s/it]                                                                                                                                                        {'loss': 0.5269, 'grad_norm': 24.790510177612305, 'learning_rate': 8.25266965458755e-08, 'beta_dpo/gap_mean': 24.184040069580078, 'beta_dpo/gap_std': 25.983379364013672, 'beta_dpo/beta_used_raw': 0.08863373100757599, 'beta_dpo/beta_used': 0.08863373100757599, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.043759822845459, 'logits/rejected': -1.825181007385254, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████████████████████                           | 519/681 [36:24<08:09,  3.02s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████▎                          | 520/681 [36:27<08:04,  3.01s/it]                                                                                                                                                        {'loss': 0.3677, 'grad_norm': 31.6447696685791, 'learning_rate': 8.15760890883607e-08, 'beta_dpo/gap_mean': 24.660749435424805, 'beta_dpo/gap_std': 25.033594131469727, 'beta_dpo/beta_used_raw': 0.194649800658226, 'beta_dpo/beta_used': 0.194649800658226, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.6810235977172852, 'logits/rejected': -1.055724024772644, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████████████████████▎                          | 520/681 [36:27<08:04,  3.01s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████▍                          | 521/681 [36:30<08:01,  3.01s/it]                                                                                                                                                        {'loss': 0.8888, 'grad_norm': 50.71248245239258, 'learning_rate': 8.062991975753378e-08, 'beta_dpo/gap_mean': 24.762470245361328, 'beta_dpo/gap_std': 24.43991470336914, 'beta_dpo/beta_used_raw': 0.14304295182228088, 'beta_dpo/beta_used': 0.1723722517490387, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3611412048339844, 'logits/rejected': -1.1393729448318481, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████████████████████▍                          | 521/681 [36:30<08:01,  3.01s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████▌                          | 522/681 [36:32<07:53,  2.98s/it]                                                                                                                                                        {'loss': 1.3679, 'grad_norm': 0.6016008853912354, 'learning_rate': 7.968821348583643e-08, 'beta_dpo/gap_mean': 24.528409957885742, 'beta_dpo/gap_std': 24.356666564941406, 'beta_dpo/beta_used_raw': -0.20311886072158813, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0033719539642334, 'logits/rejected': -1.315284013748169, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████████████████████▌                          | 522/681 [36:33<07:53,  2.98s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████▊                          | 523/681 [36:35<07:40,  2.92s/it]                                                                                                                                                        {'loss': 1.0367, 'grad_norm': 17.586872100830078, 'learning_rate': 7.875099508810484e-08, 'beta_dpo/gap_mean': 23.78322982788086, 'beta_dpo/gap_std': 24.862255096435547, 'beta_dpo/beta_used_raw': 0.017287597060203552, 'beta_dpo/beta_used': 0.03243253007531166, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.4233005046844482, 'logits/rejected': -0.5649760365486145, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████████████████████▊                          | 523/681 [36:35<07:40,  2.92s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████▉                          | 524/681 [36:38<07:41,  2.94s/it]                                                                                                                                                        {'loss': 0.9214, 'grad_norm': 44.90016555786133, 'learning_rate': 7.781828926091535e-08, 'beta_dpo/gap_mean': 23.840919494628906, 'beta_dpo/gap_std': 24.95424461364746, 'beta_dpo/beta_used_raw': -0.04172598570585251, 'beta_dpo/beta_used': 0.09405438601970673, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.8031442165374756, 'logits/rejected': -1.5159375667572021, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████████████████████▉                          | 524/681 [36:38<07:41,  2.94s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████                          | 525/681 [36:41<07:28,  2.87s/it]                                                                                                                                                        {'loss': 0.8666, 'grad_norm': 90.99578857421875, 'learning_rate': 7.689012058193384e-08, 'beta_dpo/gap_mean': 24.42901611328125, 'beta_dpo/gap_std': 25.306596755981445, 'beta_dpo/beta_used_raw': 0.056729406118392944, 'beta_dpo/beta_used': 0.20258314907550812, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.179680824279785, 'logits/rejected': -1.9391980171203613, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████████████████████                          | 525/681 [36:41<07:28,  2.87s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████▎                         | 526/681 [36:44<07:35,  2.94s/it]                                                                                                                                                        {'loss': 0.5365, 'grad_norm': 102.18709564208984, 'learning_rate': 7.596651350926836e-08, 'beta_dpo/gap_mean': 24.774818420410156, 'beta_dpo/gap_std': 25.899059295654297, 'beta_dpo/beta_used_raw': 0.3182232677936554, 'beta_dpo/beta_used': 0.3182232677936554, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.1254323720932007, 'logits/rejected': -0.37631484866142273, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████████████████████▎                         | 526/681 [36:44<07:35,  2.94s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████▍                         | 527/681 [36:47<07:26,  2.90s/it]                                                                                                                                                        {'loss': 1.3654, 'grad_norm': 0.6562523245811462, 'learning_rate': 7.504749238082414e-08, 'beta_dpo/gap_mean': 25.259456634521484, 'beta_dpo/gap_std': 25.716175079345703, 'beta_dpo/beta_used_raw': -0.0945284515619278, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.5148041248321533, 'logits/rejected': -1.8032597303390503, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████████████████████▍                         | 527/681 [36:47<07:26,  2.90s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████▌                         | 528/681 [36:50<07:32,  2.96s/it]                                                                                                                                                        {'loss': 1.3635, 'grad_norm': 0.6787688732147217, 'learning_rate': 7.413308141366254e-08, 'beta_dpo/gap_mean': 25.307907104492188, 'beta_dpo/gap_std': 25.934850692749023, 'beta_dpo/beta_used_raw': -0.04346314072608948, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.6292572021484375, 'logits/rejected': -2.262312650680542, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████████████████████▌                         | 528/681 [36:50<07:32,  2.96s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████▊                         | 529/681 [36:53<07:33,  2.98s/it]                                                                                                                                                        {'loss': 1.3671, 'grad_norm': 0.6740339398384094, 'learning_rate': 7.322330470336313e-08, 'beta_dpo/gap_mean': 25.056306838989258, 'beta_dpo/gap_std': 25.85653305053711, 'beta_dpo/beta_used_raw': -0.24182364344596863, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7039151191711426, 'logits/rejected': -1.4595433473587036, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████████████████████▊                         | 529/681 [36:53<07:33,  2.98s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████▉                         | 530/681 [36:56<07:29,  2.98s/it]                                                                                                                                                        {'loss': 1.3653, 'grad_norm': 0.6975300312042236, 'learning_rate': 7.231818622338822e-08, 'beta_dpo/gap_mean': 24.878009796142578, 'beta_dpo/gap_std': 25.102537155151367, 'beta_dpo/beta_used_raw': -0.14634296298027039, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.078080177307129, 'logits/rejected': -0.6516724228858948, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████████████████████▉                         | 530/681 [36:56<07:29,  2.98s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████                         | 531/681 [36:58<07:05,  2.84s/it]                                                                                                                                                        {'loss': 1.1236, 'grad_norm': 42.624412536621094, 'learning_rate': 7.141774982445147e-08, 'beta_dpo/gap_mean': 25.204334259033203, 'beta_dpo/gap_std': 24.35788345336914, 'beta_dpo/beta_used_raw': 0.08126630634069443, 'beta_dpo/beta_used': 0.08173258602619171, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.033020496368408, 'logits/rejected': -1.5002036094665527, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████████████████████                         | 531/681 [36:58<07:05,  2.84s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████▎                        | 532/681 [37:01<07:07,  2.87s/it]                                                                                                                                                        {'loss': 0.6366, 'grad_norm': 191.6692352294922, 'learning_rate': 7.052201923388953e-08, 'beta_dpo/gap_mean': 26.063257217407227, 'beta_dpo/gap_std': 24.355146408081055, 'beta_dpo/beta_used_raw': 0.3339642286300659, 'beta_dpo/beta_used': 0.3339642286300659, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.7689719796180725, 'logits/rejected': -0.2834465205669403, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████████████████████▎                        | 532/681 [37:01<07:07,  2.87s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████▍                        | 533/681 [37:05<07:15,  2.94s/it]                                                                                                                                                        {'loss': 1.3668, 'grad_norm': 0.6387060284614563, 'learning_rate': 6.963101805503646e-08, 'beta_dpo/gap_mean': 25.080419540405273, 'beta_dpo/gap_std': 24.1630916595459, 'beta_dpo/beta_used_raw': -0.2281951606273651, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.5465145111083984, 'logits/rejected': -2.6926231384277344, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████████████████████▍                        | 533/681 [37:05<07:15,  2.94s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████▌                        | 534/681 [37:07<07:11,  2.94s/it]                                                                                                                                                        {'loss': 0.7573, 'grad_norm': 64.63507080078125, 'learning_rate': 6.874476976660184e-08, 'beta_dpo/gap_mean': 24.893821716308594, 'beta_dpo/gap_std': 24.348995208740234, 'beta_dpo/beta_used_raw': 0.13291440904140472, 'beta_dpo/beta_used': 0.13291440904140472, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.547204852104187, 'logits/rejected': -1.0614492893218994, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████████████████████▌                        | 534/681 [37:07<07:11,  2.94s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▊                        | 535/681 [37:10<07:10,  2.95s/it]                                                                                                                                                        {'loss': 0.9132, 'grad_norm': 24.18308448791504, 'learning_rate': 6.786329772205246e-08, 'beta_dpo/gap_mean': 25.35269546508789, 'beta_dpo/gap_std': 24.81476593017578, 'beta_dpo/beta_used_raw': 0.06851141154766083, 'beta_dpo/beta_used': 0.06851141154766083, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1582674980163574, 'logits/rejected': -1.0309771299362183, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████████████████████▊                        | 535/681 [37:10<07:10,  2.95s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▉                        | 536/681 [37:13<07:06,  2.94s/it]                                                                                                                                                        {'loss': 0.818, 'grad_norm': 56.29839324951172, 'learning_rate': 6.698662514899638e-08, 'beta_dpo/gap_mean': 25.8299503326416, 'beta_dpo/gap_std': 24.747276306152344, 'beta_dpo/beta_used_raw': -0.009656161069869995, 'beta_dpo/beta_used': 0.1708642691373825, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.369691848754883, 'logits/rejected': -1.7605574131011963, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████████████████████▉                        | 536/681 [37:13<07:06,  2.94s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████                        | 537/681 [37:16<07:02,  2.93s/it]                                                                                                                                                        {'loss': 0.6961, 'grad_norm': 5.829554557800293, 'learning_rate': 6.611477514857114e-08, 'beta_dpo/gap_mean': 26.769397735595703, 'beta_dpo/gap_std': 24.93299674987793, 'beta_dpo/beta_used_raw': 0.12796461582183838, 'beta_dpo/beta_used': 0.13988648355007172, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4654922485351562, 'logits/rejected': -1.1734015941619873, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████████████████████                        | 537/681 [37:16<07:02,  2.93s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████▎                       | 538/681 [37:19<07:02,  2.95s/it]                                                                                                                                                        {'loss': 1.3666, 'grad_norm': 0.6783150434494019, 'learning_rate': 6.524777069483525e-08, 'beta_dpo/gap_mean': 26.403671264648438, 'beta_dpo/gap_std': 24.248538970947266, 'beta_dpo/beta_used_raw': -0.29702022671699524, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.1116223335266113, 'logits/rejected': -1.5885636806488037, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████████████████████▎                       | 538/681 [37:19<07:02,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████▍                       | 539/681 [37:22<06:55,  2.92s/it]                                                                                                                                                        {'loss': 0.5391, 'grad_norm': 66.54961395263672, 'learning_rate': 6.438563463416221e-08, 'beta_dpo/gap_mean': 26.40357780456543, 'beta_dpo/gap_std': 24.325096130371094, 'beta_dpo/beta_used_raw': 0.15629830956459045, 'beta_dpo/beta_used': 0.15629830956459045, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.9622362852096558, 'logits/rejected': -1.5275343656539917, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████████████████████▍                       | 539/681 [37:22<06:55,  2.92s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████▌                       | 540/681 [37:25<06:54,  2.94s/it]                                                                                                                                                        {'loss': 0.4662, 'grad_norm': 25.27249526977539, 'learning_rate': 6.352838968463919e-08, 'beta_dpo/gap_mean': 26.399925231933594, 'beta_dpo/gap_std': 24.970712661743164, 'beta_dpo/beta_used_raw': 0.10224727541208267, 'beta_dpo/beta_used': 0.10224727541208267, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.668944001197815, 'logits/rejected': -1.3243017196655273, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████████████████████▌                       | 540/681 [37:25<06:54,  2.94s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████▊                       | 541/681 [37:28<06:44,  2.89s/it]                                                                                                                                                        {'loss': 1.1952, 'grad_norm': 6.300972938537598, 'learning_rate': 6.267605843546767e-08, 'beta_dpo/gap_mean': 26.720138549804688, 'beta_dpo/gap_std': 25.313186645507812, 'beta_dpo/beta_used_raw': -0.10428391396999359, 'beta_dpo/beta_used': 0.00875120796263218, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.533596396446228, 'logits/rejected': -0.9114401340484619, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████████████████████▊                       | 541/681 [37:28<06:44,  2.89s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▉                       | 542/681 [37:31<06:51,  2.96s/it]                                                                                                                                                        {'loss': 1.3627, 'grad_norm': 0.7291933298110962, 'learning_rate': 6.182866334636888e-08, 'beta_dpo/gap_mean': 26.617843627929688, 'beta_dpo/gap_std': 25.30525779724121, 'beta_dpo/beta_used_raw': -0.12573042511940002, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.6588997840881348, 'logits/rejected': -2.492736339569092, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████████████████████▉                       | 542/681 [37:31<06:51,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████                       | 543/681 [37:34<06:44,  2.93s/it]                                                                                                                                                        {'loss': 1.3674, 'grad_norm': 0.7055125832557678, 'learning_rate': 6.098622674699147e-08, 'beta_dpo/gap_mean': 25.565059661865234, 'beta_dpo/gap_std': 25.342849731445312, 'beta_dpo/beta_used_raw': -0.2791219651699066, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -1.1182262897491455, 'logits/rejected': -0.9715873003005981, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████                       | 543/681 [37:34<06:44,  2.93s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▎                      | 544/681 [37:37<06:35,  2.89s/it]                                                                                                                                                        {'loss': 0.8885, 'grad_norm': 28.51535415649414, 'learning_rate': 6.01487708363232e-08, 'beta_dpo/gap_mean': 25.20094108581543, 'beta_dpo/gap_std': 25.864303588867188, 'beta_dpo/beta_used_raw': -0.025115452706813812, 'beta_dpo/beta_used': 0.0719255730509758, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7860791683197021, 'logits/rejected': -1.5388264656066895, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████▎                      | 544/681 [37:37<06:35,  2.89s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▍                      | 545/681 [37:39<06:30,  2.87s/it]                                                                                                                                                        {'loss': 1.3638, 'grad_norm': 0.7087168097496033, 'learning_rate': 5.9316317682106294e-08, 'beta_dpo/gap_mean': 25.147363662719727, 'beta_dpo/gap_std': 25.81969451904297, 'beta_dpo/beta_used_raw': -0.042080581188201904, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6923884153366089, 'logits/rejected': -1.492473840713501, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████▍                      | 545/681 [37:40<06:30,  2.87s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▌                      | 546/681 [37:42<06:28,  2.88s/it]                                                                                                                                                        {'loss': 0.4907, 'grad_norm': 31.122329711914062, 'learning_rate': 5.848888922025552e-08, 'beta_dpo/gap_mean': 25.392616271972656, 'beta_dpo/gap_std': 25.999805450439453, 'beta_dpo/beta_used_raw': 0.09297899156808853, 'beta_dpo/beta_used': 0.09297899156808853, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -1.4724502563476562, 'logits/rejected': -1.0641326904296875, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████▌                      | 546/681 [37:42<06:28,  2.88s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▊                      | 547/681 [37:45<06:34,  2.94s/it]                                                                                                                                                        {'loss': 0.4733, 'grad_norm': 57.88156509399414, 'learning_rate': 5.7666507254280265e-08, 'beta_dpo/gap_mean': 25.35540771484375, 'beta_dpo/gap_std': 25.47772216796875, 'beta_dpo/beta_used_raw': 0.24060708284378052, 'beta_dpo/beta_used': 0.24060708284378052, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.461564302444458, 'logits/rejected': -1.031999945640564, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████▊                      | 547/681 [37:46<06:34,  2.94s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▉                      | 548/681 [37:48<06:25,  2.90s/it]                                                                                                                                                        {'loss': 1.3682, 'grad_norm': 0.6792864799499512, 'learning_rate': 5.684919345471029e-08, 'beta_dpo/gap_mean': 24.725261688232422, 'beta_dpo/gap_std': 25.350818634033203, 'beta_dpo/beta_used_raw': -0.22666704654693604, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.3294479846954346, 'logits/rejected': -2.422576904296875, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████████████████████▉                      | 548/681 [37:48<06:25,  2.90s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████                      | 549/681 [37:51<06:25,  2.92s/it]                                                                                                                                                        {'loss': 1.3676, 'grad_norm': 0.6158374547958374, 'learning_rate': 5.603696935852426e-08, 'beta_dpo/gap_mean': 24.332277297973633, 'beta_dpo/gap_std': 25.893722534179688, 'beta_dpo/beta_used_raw': -0.20774686336517334, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.8410158157348633, 'logits/rejected': -0.6334822177886963, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████                      | 549/681 [37:51<06:25,  2.92s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▎                     | 550/681 [37:54<06:24,  2.93s/it]                                                                                                                                                        {'loss': 0.4099, 'grad_norm': 53.38132858276367, 'learning_rate': 5.5229856368582376e-08, 'beta_dpo/gap_mean': 24.272951126098633, 'beta_dpo/gap_std': 25.14063835144043, 'beta_dpo/beta_used_raw': 0.1715359389781952, 'beta_dpo/beta_used': 0.1715359389781952, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.1244838610291481, 'logits/rejected': -0.11963202804327011, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████▎                     | 550/681 [37:54<06:24,  2.93s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▍                     | 551/681 [37:57<06:14,  2.88s/it]                                                                                                                                                        {'loss': 0.8416, 'grad_norm': 56.76998519897461, 'learning_rate': 5.4427875753062734e-08, 'beta_dpo/gap_mean': 25.380428314208984, 'beta_dpo/gap_std': 24.791709899902344, 'beta_dpo/beta_used_raw': 0.07115853577852249, 'beta_dpo/beta_used': 0.14299984276294708, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.888406753540039, 'logits/rejected': -1.1206146478652954, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████▍                     | 551/681 [37:57<06:14,  2.88s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▌                     | 552/681 [38:00<06:00,  2.79s/it]                                                                                                                                                        {'loss': 1.1724, 'grad_norm': 81.13810729980469, 'learning_rate': 5.363104864490034e-08, 'beta_dpo/gap_mean': 26.72222328186035, 'beta_dpo/gap_std': 25.7940731048584, 'beta_dpo/beta_used_raw': 0.07331615686416626, 'beta_dpo/beta_used': 0.12425128370523453, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0671606063842773, 'logits/rejected': -1.740760326385498, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████▌                     | 552/681 [38:00<06:00,  2.79s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▊                     | 553/681 [38:02<06:02,  2.83s/it]                                                                                                                                                        {'loss': 1.3655, 'grad_norm': 0.6811166405677795, 'learning_rate': 5.2839396041230415e-08, 'beta_dpo/gap_mean': 26.55316162109375, 'beta_dpo/gap_std': 26.07613754272461, 'beta_dpo/beta_used_raw': -0.1840367615222931, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.305177927017212, 'logits/rejected': -1.4849331378936768, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████▊                     | 553/681 [38:03<06:02,  2.83s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▉                     | 554/681 [38:05<06:02,  2.86s/it]                                                                                                                                                        {'loss': 1.0013, 'grad_norm': 16.067913055419922, 'learning_rate': 5.205293880283551e-08, 'beta_dpo/gap_mean': 26.297405242919922, 'beta_dpo/gap_std': 26.220775604248047, 'beta_dpo/beta_used_raw': -0.07137447595596313, 'beta_dpo/beta_used': 0.03134859725832939, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.3502602577209473, 'logits/rejected': -0.5793172121047974, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████████████████████████████████████▉                     | 554/681 [38:05<06:02,  2.86s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████                     | 555/681 [38:08<05:51,  2.79s/it]                                                                                                                                                        {'loss': 0.8685, 'grad_norm': 36.38199234008789, 'learning_rate': 5.127169765359515e-08, 'beta_dpo/gap_mean': 26.256061553955078, 'beta_dpo/gap_std': 26.373807907104492, 'beta_dpo/beta_used_raw': 0.030508212745189667, 'beta_dpo/beta_used': 0.08660194277763367, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3001048564910889, 'logits/rejected': -1.1895201206207275, 'epoch': 0.81}
 81%|████████████████████████████████████████████████████████████████████████████████████████████                     | 555/681 [38:08<05:51,  2.79s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▎                    | 556/681 [38:11<06:00,  2.88s/it]                                                                                                                                                        {'loss': 0.417, 'grad_norm': 39.49778747558594, 'learning_rate': 5.049569317994012e-08, 'beta_dpo/gap_mean': 26.637409210205078, 'beta_dpo/gap_std': 26.593616485595703, 'beta_dpo/beta_used_raw': 0.13554587960243225, 'beta_dpo/beta_used': 0.13554587960243225, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.0038812160491943, 'logits/rejected': -1.3363038301467896, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████████████████████████████████████▎                    | 556/681 [38:11<06:00,  2.88s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▍                    | 557/681 [38:14<06:08,  2.97s/it]                                                                                                                                                        {'loss': 0.7871, 'grad_norm': 46.596839904785156, 'learning_rate': 4.9724945830310144e-08, 'beta_dpo/gap_mean': 26.767135620117188, 'beta_dpo/gap_std': 26.989856719970703, 'beta_dpo/beta_used_raw': -0.021815553307533264, 'beta_dpo/beta_used': 0.13636960089206696, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.1644203662872314, 'logits/rejected': -2.26560115814209, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████████████████████████████████████▍                    | 557/681 [38:14<06:08,  2.97s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▌                    | 558/681 [38:17<06:02,  2.95s/it]                                                                                                                                                        {'loss': 0.6847, 'grad_norm': 2.480834484100342, 'learning_rate': 4.8959475914614554e-08, 'beta_dpo/gap_mean': 27.236129760742188, 'beta_dpo/gap_std': 27.027782440185547, 'beta_dpo/beta_used_raw': 0.10354121029376984, 'beta_dpo/beta_used': 0.25266367197036743, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.784749984741211, 'logits/rejected': -2.2754716873168945, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████████████████████████████████████▌                    | 558/681 [38:17<06:02,  2.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▊                    | 559/681 [38:20<05:57,  2.93s/it]                                                                                                                                                        {'loss': 0.97, 'grad_norm': 56.5252799987793, 'learning_rate': 4.8199303603697614e-08, 'beta_dpo/gap_mean': 27.292774200439453, 'beta_dpo/gap_std': 27.778480529785156, 'beta_dpo/beta_used_raw': 0.05602721869945526, 'beta_dpo/beta_used': 0.1398455649614334, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.1940698623657227, 'logits/rejected': -1.6307884454727173, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████████████████████████████████████▊                    | 559/681 [38:20<05:57,  2.93s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▉                    | 560/681 [38:23<06:01,  2.98s/it]                                                                                                                                                        {'loss': 0.6115, 'grad_norm': 70.78883361816406, 'learning_rate': 4.7444448928806615e-08, 'beta_dpo/gap_mean': 27.126052856445312, 'beta_dpo/gap_std': 27.71031951904297, 'beta_dpo/beta_used_raw': 0.16665856540203094, 'beta_dpo/beta_used': 0.16665856540203094, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -0.21908852458000183, 'logits/rejected': -0.17472022771835327, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████████████████████████████████████▉                    | 560/681 [38:23<06:01,  2.98s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████                    | 561/681 [38:26<05:50,  2.92s/it]                                                                                                                                                        {'loss': 1.3652, 'grad_norm': 0.7130993604660034, 'learning_rate': 4.669493178106432e-08, 'beta_dpo/gap_mean': 26.475391387939453, 'beta_dpo/gap_std': 27.537622451782227, 'beta_dpo/beta_used_raw': -0.20892953872680664, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5300698280334473, 'logits/rejected': -0.9870960712432861, 'epoch': 0.82}
 82%|█████████████████████████████████████████████████████████████████████████████████████████████                    | 561/681 [38:26<05:50,  2.92s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 562/681 [38:29<05:50,  2.95s/it]                                                                                                                                                        {'loss': 1.3653, 'grad_norm': 0.7420074939727783, 'learning_rate': 4.5950771910944596e-08, 'beta_dpo/gap_mean': 26.278995513916016, 'beta_dpo/gap_std': 27.876379013061523, 'beta_dpo/beta_used_raw': -0.2608240246772766, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.4309711456298828, 'logits/rejected': -1.5285253524780273, 'epoch': 0.83}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 562/681 [38:29<05:50,  2.95s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▍                   | 563/681 [38:32<05:37,  2.86s/it]                                                                                                                                                        {'loss': 1.3663, 'grad_norm': 0.7049899697303772, 'learning_rate': 4.521198892775202e-08, 'beta_dpo/gap_mean': 25.140338897705078, 'beta_dpo/gap_std': 27.699390411376953, 'beta_dpo/beta_used_raw': -0.19262418150901794, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.4333343505859375, 'logits/rejected': -0.8749819993972778, 'epoch': 0.83}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████▍                   | 563/681 [38:32<05:37,  2.86s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▌                   | 564/681 [38:35<05:37,  2.89s/it]                                                                                                                                                        {'loss': 0.7624, 'grad_norm': 25.564876556396484, 'learning_rate': 4.447860229910544e-08, 'beta_dpo/gap_mean': 24.54560089111328, 'beta_dpo/gap_std': 26.745800018310547, 'beta_dpo/beta_used_raw': -0.007625162601470947, 'beta_dpo/beta_used': 0.11520747095346451, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.1329026222229004, 'logits/rejected': -1.4126560688018799, 'epoch': 0.83}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████▌                   | 564/681 [38:35<05:37,  2.89s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▊                   | 565/681 [38:38<05:38,  2.92s/it]                                                                                                                                                        {'loss': 0.6621, 'grad_norm': 145.1612091064453, 'learning_rate': 4.375063135042445e-08, 'beta_dpo/gap_mean': 25.43872833251953, 'beta_dpo/gap_std': 26.266254425048828, 'beta_dpo/beta_used_raw': 0.3736911714076996, 'beta_dpo/beta_used': 0.3736911714076996, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8364756107330322, 'logits/rejected': -0.5215842723846436, 'epoch': 0.83}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████▊                   | 565/681 [38:38<05:38,  2.92s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▉                   | 566/681 [38:41<05:38,  2.95s/it]                                                                                                                                                        {'loss': 0.4773, 'grad_norm': 47.683231353759766, 'learning_rate': 4.3028095264420525e-08, 'beta_dpo/gap_mean': 25.916160583496094, 'beta_dpo/gap_std': 26.456092834472656, 'beta_dpo/beta_used_raw': 0.17025381326675415, 'beta_dpo/beta_used': 0.17025381326675415, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.213182210922241, 'logits/rejected': -1.3068116903305054, 'epoch': 0.83}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████▉                   | 566/681 [38:41<05:38,  2.95s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████                   | 567/681 [38:43<05:25,  2.85s/it]                                                                                                                                                        {'loss': 1.321, 'grad_norm': 2.5650317668914795, 'learning_rate': 4.231101308059165e-08, 'beta_dpo/gap_mean': 25.87657356262207, 'beta_dpo/gap_std': 26.403339385986328, 'beta_dpo/beta_used_raw': -0.02852408029139042, 'beta_dpo/beta_used': 0.0031331873033195734, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.532239556312561, 'logits/rejected': -1.5073673725128174, 'epoch': 0.83}
 83%|██████████████████████████████████████████████████████████████████████████████████████████████                   | 567/681 [38:43<05:25,  2.85s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████▏                  | 568/681 [38:46<05:16,  2.80s/it]                                                                                                                                                        {'loss': 0.6939, 'grad_norm': 10.647150039672852, 'learning_rate': 4.1599403694720145e-08, 'beta_dpo/gap_mean': 26.08514404296875, 'beta_dpo/gap_std': 26.061296463012695, 'beta_dpo/beta_used_raw': 0.15188802778720856, 'beta_dpo/beta_used': 0.2132313847541809, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.2890617847442627, 'logits/rejected': -2.017902374267578, 'epoch': 0.83}
 83%|██████████████████████████████████████████████████████████████████████████████████████████████▏                  | 568/681 [38:46<05:16,  2.80s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▍                  | 569/681 [38:49<05:18,  2.84s/it]                                                                                                                                                        {'loss': 0.5822, 'grad_norm': 41.747718811035156, 'learning_rate': 4.089328585837512e-08, 'beta_dpo/gap_mean': 25.48981475830078, 'beta_dpo/gap_std': 26.66592025756836, 'beta_dpo/beta_used_raw': 0.11874410510063171, 'beta_dpo/beta_used': 0.11874410510063171, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2407170534133911, 'logits/rejected': -0.9986321926116943, 'epoch': 0.84}
 84%|██████████████████████████████████████████████████████████████████████████████████████████████▍                  | 569/681 [38:49<05:18,  2.84s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▌                  | 570/681 [38:52<05:18,  2.87s/it]                                                                                                                                                        {'loss': 1.0207, 'grad_norm': 14.593240737915039, 'learning_rate': 4.019267817841834e-08, 'beta_dpo/gap_mean': 25.438308715820312, 'beta_dpo/gap_std': 25.799644470214844, 'beta_dpo/beta_used_raw': 0.005916915833950043, 'beta_dpo/beta_used': 0.025809142738580704, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.2040014266967773, 'logits/rejected': -1.2692387104034424, 'epoch': 0.84}
 84%|██████████████████████████████████████████████████████████████████████████████████████████████▌                  | 570/681 [38:52<05:18,  2.87s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▋                  | 571/681 [38:55<05:15,  2.87s/it]                                                                                                                                                        {'loss': 1.0302, 'grad_norm': 13.779581069946289, 'learning_rate': 3.9497599116513705e-08, 'beta_dpo/gap_mean': 26.145469665527344, 'beta_dpo/gap_std': 25.934444427490234, 'beta_dpo/beta_used_raw': -0.01072479598224163, 'beta_dpo/beta_used': 0.023714642971754074, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.3093101978302002, 'logits/rejected': -1.4198007583618164, 'epoch': 0.84}
 84%|██████████████████████████████████████████████████████████████████████████████████████████████▋                  | 571/681 [38:55<05:15,  2.87s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▉                  | 572/681 [38:57<05:10,  2.85s/it]                                                                                                                                                        {'loss': 0.8942, 'grad_norm': 20.452983856201172, 'learning_rate': 3.880806698864086e-08, 'beta_dpo/gap_mean': 26.3587646484375, 'beta_dpo/gap_std': 26.530506134033203, 'beta_dpo/beta_used_raw': 0.009870670735836029, 'beta_dpo/beta_used': 0.08039849251508713, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8533153533935547, 'logits/rejected': -2.2176146507263184, 'epoch': 0.84}
 84%|██████████████████████████████████████████████████████████████████████████████████████████████▉                  | 572/681 [38:57<05:10,  2.85s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████                  | 573/681 [39:00<04:58,  2.76s/it]                                                                                                                                                        {'loss': 0.8138, 'grad_norm': 31.09406089782715, 'learning_rate': 3.812409996461275e-08, 'beta_dpo/gap_mean': 25.619884490966797, 'beta_dpo/gap_std': 26.07189178466797, 'beta_dpo/beta_used_raw': -0.05813818424940109, 'beta_dpo/beta_used': 0.10495683550834656, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.6736924648284912, 'logits/rejected': -1.4833910465240479, 'epoch': 0.84}
 84%|███████████████████████████████████████████████████████████████████████████████████████████████                  | 573/681 [39:00<04:58,  2.76s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████▏                 | 574/681 [39:03<05:05,  2.86s/it]                                                                                                                                                        {'loss': 0.8075, 'grad_norm': 17.340517044067383, 'learning_rate': 3.74457160675965e-08, 'beta_dpo/gap_mean': 25.877761840820312, 'beta_dpo/gap_std': 26.195384979248047, 'beta_dpo/beta_used_raw': 0.053314968943595886, 'beta_dpo/beta_used': 0.08065403997898102, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.150381088256836, 'logits/rejected': -1.5433233976364136, 'epoch': 0.84}
 84%|███████████████████████████████████████████████████████████████████████████████████████████████▏                 | 574/681 [39:03<05:05,  2.86s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████▍                 | 575/681 [39:06<05:06,  2.89s/it]                                                                                                                                                        {'loss': 0.8303, 'grad_norm': 32.89806365966797, 'learning_rate': 3.677293317363864e-08, 'beta_dpo/gap_mean': 26.40753173828125, 'beta_dpo/gap_std': 27.02420425415039, 'beta_dpo/beta_used_raw': 0.05682985112071037, 'beta_dpo/beta_used': 0.10325983911752701, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.5819101333618164, 'logits/rejected': -0.894752562046051, 'epoch': 0.84}
 84%|███████████████████████████████████████████████████████████████████████████████████████████████▍                 | 575/681 [39:06<05:06,  2.89s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▌                 | 576/681 [39:09<04:57,  2.83s/it]                                                                                                                                                        {'loss': 0.9443, 'grad_norm': 21.144390106201172, 'learning_rate': 3.6105769011194224e-08, 'beta_dpo/gap_mean': 26.20545196533203, 'beta_dpo/gap_std': 27.297000885009766, 'beta_dpo/beta_used_raw': 0.023738402873277664, 'beta_dpo/beta_used': 0.04864989221096039, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.6136865615844727, 'logits/rejected': -1.4469764232635498, 'epoch': 0.85}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████▌                 | 576/681 [39:09<04:57,  2.83s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                 | 577/681 [39:11<04:51,  2.80s/it]                                                                                                                                                        {'loss': 1.0336, 'grad_norm': 36.830814361572266, 'learning_rate': 3.5444241160659304e-08, 'beta_dpo/gap_mean': 26.54003143310547, 'beta_dpo/gap_std': 27.425918579101562, 'beta_dpo/beta_used_raw': -0.00780254602432251, 'beta_dpo/beta_used': 0.05051780119538307, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.3327486515045166, 'logits/rejected': -1.5140879154205322, 'epoch': 0.85}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                 | 577/681 [39:12<04:51,  2.80s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▉                 | 578/681 [39:14<04:52,  2.84s/it]                                                                                                                                                        {'loss': 1.3638, 'grad_norm': 0.6997745633125305, 'learning_rate': 3.478836705390808e-08, 'beta_dpo/gap_mean': 25.88504409790039, 'beta_dpo/gap_std': 26.577232360839844, 'beta_dpo/beta_used_raw': -0.10638011991977692, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.6083793640136719, 'logits/rejected': -0.7344316840171814, 'epoch': 0.85}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████▉                 | 578/681 [39:14<04:52,  2.84s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████                 | 579/681 [39:17<04:53,  2.88s/it]                                                                                                                                                        {'loss': 0.9338, 'grad_norm': 11.364592552185059, 'learning_rate': 3.41381639738331e-08, 'beta_dpo/gap_mean': 25.424047470092773, 'beta_dpo/gap_std': 26.196489334106445, 'beta_dpo/beta_used_raw': 0.023828348144888878, 'beta_dpo/beta_used': 0.023828348144888878, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.4373326301574707, 'logits/rejected': -1.5058765411376953, 'epoch': 0.85}
 85%|████████████████████████████████████████████████████████████████████████████████████████████████                 | 579/681 [39:17<04:53,  2.88s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████▏                | 580/681 [39:20<04:53,  2.91s/it]                                                                                                                                                        {'loss': 1.1626, 'grad_norm': 7.67764949798584, 'learning_rate': 3.349364905389032e-08, 'beta_dpo/gap_mean': 25.5772705078125, 'beta_dpo/gap_std': 25.849599838256836, 'beta_dpo/beta_used_raw': -0.044407907873392105, 'beta_dpo/beta_used': 0.01163013931363821, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0445411205291748, 'logits/rejected': -0.7093319892883301, 'epoch': 0.85}
 85%|████████████████████████████████████████████████████████████████████████████████████████████████▏                | 580/681 [39:20<04:53,  2.91s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████▍                | 581/681 [39:23<04:46,  2.87s/it]                                                                                                                                                        {'loss': 0.7616, 'grad_norm': 99.09800720214844, 'learning_rate': 3.285483927764726e-08, 'beta_dpo/gap_mean': 25.443954467773438, 'beta_dpo/gap_std': 25.912918090820312, 'beta_dpo/beta_used_raw': 0.11997915059328079, 'beta_dpo/beta_used': 0.19128121435642242, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.3885164260864258, 'logits/rejected': -1.6896731853485107, 'epoch': 0.85}
 85%|████████████████████████████████████████████████████████████████████████████████████████████████▍                | 581/681 [39:23<04:46,  2.87s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████▌                | 582/681 [39:26<04:45,  2.89s/it]                                                                                                                                                        {'loss': 0.8402, 'grad_norm': 27.022602081298828, 'learning_rate': 3.222175147833556e-08, 'beta_dpo/gap_mean': 25.567218780517578, 'beta_dpo/gap_std': 26.388256072998047, 'beta_dpo/beta_used_raw': -0.11643987149000168, 'beta_dpo/beta_used': 0.07839217782020569, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.7658624649047852, 'logits/rejected': -1.426491141319275, 'epoch': 0.85}
 85%|████████████████████████████████████████████████████████████████████████████████████████████████▌                | 582/681 [39:26<04:45,  2.89s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▋                | 583/681 [39:29<04:47,  2.93s/it]                                                                                                                                                        {'loss': 0.8295, 'grad_norm': 21.52065086364746, 'learning_rate': 3.159440233840763e-08, 'beta_dpo/gap_mean': 25.635608673095703, 'beta_dpo/gap_std': 26.159648895263672, 'beta_dpo/beta_used_raw': -0.10475502163171768, 'beta_dpo/beta_used': 0.067328542470932, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7464110851287842, 'logits/rejected': -1.3861937522888184, 'epoch': 0.86}
 86%|████████████████████████████████████████████████████████████████████████████████████████████████▋                | 583/681 [39:29<04:47,  2.93s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▉                | 584/681 [39:32<04:39,  2.88s/it]                                                                                                                                                        {'loss': 0.7086, 'grad_norm': 55.7706298828125, 'learning_rate': 3.0972808389096635e-08, 'beta_dpo/gap_mean': 25.642108917236328, 'beta_dpo/gap_std': 26.18915557861328, 'beta_dpo/beta_used_raw': 0.25634637475013733, 'beta_dpo/beta_used': 0.30127981305122375, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.611590027809143, 'logits/rejected': -1.0209101438522339, 'epoch': 0.86}
 86%|████████████████████████████████████████████████████████████████████████████████████████████████▉                | 584/681 [39:32<04:39,  2.88s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████                | 585/681 [39:35<04:33,  2.85s/it]                                                                                                                                                        {'loss': 0.9978, 'grad_norm': 16.616464614868164, 'learning_rate': 3.035698600998121e-08, 'beta_dpo/gap_mean': 25.895137786865234, 'beta_dpo/gap_std': 26.302135467529297, 'beta_dpo/beta_used_raw': 0.014374672435224056, 'beta_dpo/beta_used': 0.029697787016630173, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.070708990097046, 'logits/rejected': -1.8533859252929688, 'epoch': 0.86}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████                | 585/681 [39:35<04:33,  2.85s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▏               | 586/681 [39:37<04:24,  2.78s/it]                                                                                                                                                        {'loss': 0.9897, 'grad_norm': 23.458040237426758, 'learning_rate': 2.974695142855388e-08, 'beta_dpo/gap_mean': 25.659912109375, 'beta_dpo/gap_std': 26.0551815032959, 'beta_dpo/beta_used_raw': -0.021417979151010513, 'beta_dpo/beta_used': 0.055410776287317276, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9927098751068115, 'logits/rejected': -0.9853583574295044, 'epoch': 0.86}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▏               | 586/681 [39:37<04:24,  2.78s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▍               | 587/681 [39:40<04:25,  2.82s/it]                                                                                                                                                        {'loss': 1.3669, 'grad_norm': 0.6116196513175964, 'learning_rate': 2.9142720719793122e-08, 'beta_dpo/gap_mean': 25.266849517822266, 'beta_dpo/gap_std': 26.114063262939453, 'beta_dpo/beta_used_raw': -0.2464330941438675, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.70188045501709, 'logits/rejected': -2.299798011779785, 'epoch': 0.86}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▍               | 587/681 [39:40<04:25,  2.82s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▌               | 588/681 [39:43<04:24,  2.84s/it]                                                                                                                                                        {'loss': 0.985, 'grad_norm': 19.513792037963867, 'learning_rate': 2.8544309805740018e-08, 'beta_dpo/gap_mean': 25.785541534423828, 'beta_dpo/gap_std': 27.123783111572266, 'beta_dpo/beta_used_raw': -0.05128197744488716, 'beta_dpo/beta_used': 0.03825625404715538, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.5824187994003296, 'logits/rejected': -1.2183144092559814, 'epoch': 0.86}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▌               | 588/681 [39:43<04:24,  2.84s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▋               | 589/681 [39:46<04:20,  2.83s/it]                                                                                                                                                        {'loss': 0.6102, 'grad_norm': 78.58889770507812, 'learning_rate': 2.7951734455078786e-08, 'beta_dpo/gap_mean': 26.436059951782227, 'beta_dpo/gap_std': 26.827016830444336, 'beta_dpo/beta_used_raw': 0.362135648727417, 'beta_dpo/beta_used': 0.362135648727417, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.444143056869507, 'logits/rejected': -1.7856106758117676, 'epoch': 0.86}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▋               | 589/681 [39:46<04:20,  2.83s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▉               | 590/681 [39:49<04:13,  2.79s/it]                                                                                                                                                        {'loss': 1.362, 'grad_norm': 0.7165948748588562, 'learning_rate': 2.736501028272095e-08, 'beta_dpo/gap_mean': 27.119421005249023, 'beta_dpo/gap_std': 26.420612335205078, 'beta_dpo/beta_used_raw': -0.0802900567650795, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8171558380126953, 'logits/rejected': -1.760206937789917, 'epoch': 0.87}
 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▉               | 590/681 [39:49<04:13,  2.79s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████               | 591/681 [39:51<03:59,  2.66s/it]                                                                                                                                                        {'loss': 0.7712, 'grad_norm': 13.594551086425781, 'learning_rate': 2.678415274939408e-08, 'beta_dpo/gap_mean': 27.428272247314453, 'beta_dpo/gap_std': 25.88664436340332, 'beta_dpo/beta_used_raw': 0.054503440856933594, 'beta_dpo/beta_used': 0.054503440856933594, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.202202558517456, 'logits/rejected': -1.1097545623779297, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████               | 591/681 [39:51<03:59,  2.66s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▏              | 592/681 [39:54<03:59,  2.69s/it]                                                                                                                                                        {'loss': 1.0384, 'grad_norm': 10.164037704467773, 'learning_rate': 2.6209177161234442e-08, 'beta_dpo/gap_mean': 27.040130615234375, 'beta_dpo/gap_std': 25.773883819580078, 'beta_dpo/beta_used_raw': -0.1262149065732956, 'beta_dpo/beta_used': 0.018850848078727722, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5192279815673828, 'logits/rejected': -1.4401228427886963, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▏              | 592/681 [39:54<03:59,  2.69s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▍              | 593/681 [39:57<04:02,  2.76s/it]                                                                                                                                                        {'loss': 1.3662, 'grad_norm': 0.6460676193237305, 'learning_rate': 2.564009866938349e-08, 'beta_dpo/gap_mean': 26.155765533447266, 'beta_dpo/gap_std': 26.15311622619629, 'beta_dpo/beta_used_raw': -0.22714272141456604, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8813679218292236, 'logits/rejected': -1.5969023704528809, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▍              | 593/681 [39:57<04:02,  2.76s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▌              | 594/681 [39:59<04:01,  2.78s/it]                                                                                                                                                        {'loss': 0.8081, 'grad_norm': 20.22568130493164, 'learning_rate': 2.5076932269588708e-08, 'beta_dpo/gap_mean': 25.800151824951172, 'beta_dpo/gap_std': 26.050155639648438, 'beta_dpo/beta_used_raw': -0.10102081298828125, 'beta_dpo/beta_used': 0.0679648295044899, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.7823147773742676, 'logits/rejected': -1.2715544700622559, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▌              | 594/681 [39:59<04:01,  2.78s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▋              | 595/681 [40:03<04:07,  2.87s/it]                                                                                                                                                        {'loss': 1.2393, 'grad_norm': 4.529580593109131, 'learning_rate': 2.451969280180849e-08, 'beta_dpo/gap_mean': 25.734390258789062, 'beta_dpo/gap_std': 26.45250701904297, 'beta_dpo/beta_used_raw': -0.09921251982450485, 'beta_dpo/beta_used': 0.006703744176775217, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.684058666229248, 'logits/rejected': -2.5586256980895996, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▋              | 595/681 [40:03<04:07,  2.87s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉              | 596/681 [40:06<04:10,  2.95s/it]                                                                                                                                                        {'loss': 0.8874, 'grad_norm': 56.43586730957031, 'learning_rate': 2.396839494982103e-08, 'beta_dpo/gap_mean': 25.589027404785156, 'beta_dpo/gap_std': 26.904956817626953, 'beta_dpo/beta_used_raw': 0.10710237175226212, 'beta_dpo/beta_used': 0.16087494790554047, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.9374496936798096, 'logits/rejected': -0.8124482035636902, 'epoch': 0.88}
 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉              | 596/681 [40:06<04:10,  2.95s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████              | 597/681 [40:09<04:08,  2.96s/it]                                                                                                                                                        {'loss': 1.3635, 'grad_norm': 0.7111362814903259, 'learning_rate': 2.3423053240837514e-08, 'beta_dpo/gap_mean': 26.283626556396484, 'beta_dpo/gap_std': 26.850948333740234, 'beta_dpo/beta_used_raw': -0.07549858838319778, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.090895175933838, 'logits/rejected': -1.0381711721420288, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████              | 597/681 [40:09<04:08,  2.96s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▏             | 598/681 [40:11<03:58,  2.87s/it]                                                                                                                                                        {'loss': 1.3634, 'grad_norm': 0.7083949446678162, 'learning_rate': 2.2883682045119062e-08, 'beta_dpo/gap_mean': 26.07274627685547, 'beta_dpo/gap_std': 26.833065032958984, 'beta_dpo/beta_used_raw': -0.04087088257074356, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -3.575258255004883, 'logits/rejected': -3.1597683429718018, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▏             | 598/681 [40:11<03:58,  2.87s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▍             | 599/681 [40:14<04:01,  2.94s/it]                                                                                                                                                        {'loss': 0.971, 'grad_norm': 73.53407287597656, 'learning_rate': 2.2350295575598367e-08, 'beta_dpo/gap_mean': 25.62136459350586, 'beta_dpo/gap_std': 26.38665008544922, 'beta_dpo/beta_used_raw': 0.004977069795131683, 'beta_dpo/beta_used': 0.10630277544260025, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3346710205078125, 'logits/rejected': -1.1897668838500977, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▍             | 599/681 [40:14<04:01,  2.94s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▌             | 600/681 [40:17<03:53,  2.89s/it]                                                                                                                                                        {'loss': 0.8177, 'grad_norm': 25.936363220214844, 'learning_rate': 2.1822907887504932e-08, 'beta_dpo/gap_mean': 25.4707088470459, 'beta_dpo/gap_std': 26.178421020507812, 'beta_dpo/beta_used_raw': 0.061525192111730576, 'beta_dpo/beta_used': 0.09986226260662079, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.6731359958648682, 'logits/rejected': -1.5466392040252686, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▌             | 600/681 [40:17<03:53,  2.89s/it][INFO|trainer.py:4307] 2026-04-24 02:32:05,559 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 02:32:05,559 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 02:32:05,559 >>   Batch size = 8

  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s][A
  3%|███▏                                                                                                                | 2/73 [00:00<00:21,  3.32it/s][A
  4%|████▊                                                                                                               | 3/73 [00:01<00:29,  2.36it/s][A
  5%|██████▎                                                                                                             | 4/73 [00:01<00:33,  2.07it/s][A
  7%|███████▉                                                                                                            | 5/73 [00:02<00:34,  1.95it/s][A
  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.83it/s][A
 10%|███████████                                                                                                         | 7/73 [00:03<00:34,  1.89it/s][A
 11%|████████████▋                                                                                                       | 8/73 [00:04<00:37,  1.76it/s][A
 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:37,  1.70it/s][A
 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.67it/s][A
 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:36,  1.68it/s][A
 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:36,  1.65it/s][A
 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:35,  1.68it/s][A
 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.66it/s][A
 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:34,  1.66it/s][A
 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.61it/s][A
 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.59it/s][A
 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:34,  1.58it/s][A
 26%|█████████████████████████████▉                                                                                     | 19/73 [00:10<00:34,  1.56it/s][A
 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:34,  1.55it/s][A
 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:33,  1.54it/s][A
 30%|██████████████████████████████████▋                                                                                | 22/73 [00:12<00:33,  1.53it/s][A
 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:32,  1.56it/s][A
 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.57it/s][A
 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.59it/s][A
 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:29,  1.59it/s][A
 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:26,  1.76it/s][A
 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.71it/s][A
 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.73it/s][A
 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:24,  1.75it/s][A
 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.68it/s][A
 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:23,  1.72it/s][A
 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:23,  1.73it/s][A
 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:19<00:22,  1.70it/s][A
 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:23,  1.64it/s][A
 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:22,  1.64it/s][A
 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.62it/s][A
 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:20,  1.71it/s][A
 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:20,  1.64it/s][A
 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.65it/s][A
 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.71it/s][A
 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:18,  1.67it/s][A
 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:17,  1.69it/s][A
 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:26<00:17,  1.67it/s][A
 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.61it/s][A
 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.68it/s][A
 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.65it/s][A
 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.64it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.62it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:14,  1.64it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.61it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:31<00:13,  1.58it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:12,  1.55it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.65it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:11,  1.63it/s][A
 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.68it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:34<00:09,  1.62it/s][A
 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.68it/s][A
 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:08,  1.67it/s][A
 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:07,  1.65it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.63it/s][A
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:37<00:06,  1.65it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.74it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:38<00:05,  1.76it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.74it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:04,  1.67it/s][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.71it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.67it/s][A
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:41<00:02,  1.63it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.63it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.63it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:43<00:00,  1.63it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s][A                                                                                                                                                        
                                                                                                                                                        [A{'eval_loss': 0.6505056619644165, 'eval_runtime': 44.1187, 'eval_samples_per_second': 53.016, 'eval_steps_per_second': 1.677, 'eval_beta_dpo/gap_mean': 25.718292236328125, 'eval_beta_dpo/gap_std': 26.182870864868164, 'eval_beta_dpo/beta_used_raw': -0.25365081429481506, 'eval_beta_dpo/beta_used': 0.021189022809267044, 'eval_beta_dpo/mask_keep_frac': 1.0, 'eval_logits/chosen': -1.6122984886169434, 'eval_logits/rejected': -1.2796200513839722, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████▌             | 600/681 [41:01<03:53,  2.89s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s][A
                                                                                                                                                        [A[INFO|trainer.py:3984] 2026-04-24 02:33:04,228 >> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600
[INFO|configuration_utils.py:419] 2026-04-24 02:33:04,233 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600/config.json
[INFO|configuration_utils.py:911] 2026-04-24 02:33:04,237 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-24 02:33:43,661 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-24 02:33:43,683 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-24 02:33:43,696 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600/special_tokens_map.json
[INFO|trainer.py:4083] 2026-04-24 02:36:43,003 >> Deleting older checkpoint [/scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200] due to args.save_total_limit
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████▉             | 601/681 [44:59<1:55:24, 86.55s/it]                                                                                                                                                        {'loss': 1.0178, 'grad_norm': 107.63837432861328, 'learning_rate': 2.1301532877994742e-08, 'beta_dpo/gap_mean': 26.179027557373047, 'beta_dpo/gap_std': 26.613693237304688, 'beta_dpo/beta_used_raw': 0.12984035909175873, 'beta_dpo/beta_used': 0.12984035909175873, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7914152145385742, 'logits/rejected': -1.9762234687805176, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████▉             | 601/681 [44:59<1:55:24, 86.55s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████             | 602/681 [45:02<1:20:57, 61.48s/it]                                                                                                                                                        {'loss': 1.0727, 'grad_norm': 8.777104377746582, 'learning_rate': 2.0786184285784298e-08, 'beta_dpo/gap_mean': 26.409027099609375, 'beta_dpo/gap_std': 26.42571449279785, 'beta_dpo/beta_used_raw': -0.1130400225520134, 'beta_dpo/beta_used': 0.017126336693763733, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.1035757064819336, 'logits/rejected': -2.0259461402893066, 'epoch': 0.88}
 88%|██████████████████████████████████████████████████████████████████████████████████████████████████             | 602/681 [45:02<1:20:57, 61.48s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████             | 603/681 [45:05<57:04, 43.91s/it]                                                                                                                                                        {'loss': 0.431, 'grad_norm': 53.16716003417969, 'learning_rate': 2.0276875690788204e-08, 'beta_dpo/gap_mean': 26.976688385009766, 'beta_dpo/gap_std': 26.73578643798828, 'beta_dpo/beta_used_raw': 0.21063096821308136, 'beta_dpo/beta_used': 0.21063096821308136, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0368385314941406, 'logits/rejected': -1.4027612209320068, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████             | 603/681 [45:05<57:04, 43.91s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 604/681 [45:08<40:35, 31.63s/it]                                                                                                                                                        {'loss': 0.6969, 'grad_norm': 15.568916320800781, 'learning_rate': 1.977362051376158e-08, 'beta_dpo/gap_mean': 27.32293701171875, 'beta_dpo/gap_std': 26.424095153808594, 'beta_dpo/beta_used_raw': 0.07125077396631241, 'beta_dpo/beta_used': 0.1964634358882904, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.341930866241455, 'logits/rejected': -1.854198932647705, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 604/681 [45:08<40:35, 31.63s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 605/681 [45:11<29:11, 23.04s/it]                                                                                                                                                        {'loss': 0.7124, 'grad_norm': 20.861234664916992, 'learning_rate': 1.9276432015946446e-08, 'beta_dpo/gap_mean': 27.005504608154297, 'beta_dpo/gap_std': 26.37883758544922, 'beta_dpo/beta_used_raw': 0.04611806571483612, 'beta_dpo/beta_used': 0.13269981741905212, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0397030115127563, 'logits/rejected': -0.052525296807289124, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 605/681 [45:11<29:11, 23.04s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 606/681 [45:13<21:10, 16.94s/it]                                                                                                                                                        {'loss': 0.8645, 'grad_norm': 20.553180694580078, 'learning_rate': 1.8785323298722093e-08, 'beta_dpo/gap_mean': 27.078205108642578, 'beta_dpo/gap_std': 26.055770874023438, 'beta_dpo/beta_used_raw': 0.0479503832757473, 'beta_dpo/beta_used': 0.04934832826256752, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.6765646934509277, 'logits/rejected': -1.3924915790557861, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 606/681 [45:14<21:10, 16.94s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 607/681 [45:16<15:43, 12.75s/it]                                                                                                                                                        {'loss': 0.938, 'grad_norm': 16.795377731323242, 'learning_rate': 1.8300307303259904e-08, 'beta_dpo/gap_mean': 27.655214309692383, 'beta_dpo/gap_std': 26.571216583251953, 'beta_dpo/beta_used_raw': 0.018087653443217278, 'beta_dpo/beta_used': 0.04134753346443176, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4865968227386475, 'logits/rejected': -0.9536029696464539, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 607/681 [45:16<15:43, 12.75s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 608/681 [45:19<11:51,  9.75s/it]                                                                                                                                                        {'loss': 0.7477, 'grad_norm': 60.357391357421875, 'learning_rate': 1.7821396810182437e-08, 'beta_dpo/gap_mean': 27.888565063476562, 'beta_dpo/gap_std': 26.88840103149414, 'beta_dpo/beta_used_raw': 0.19230753183364868, 'beta_dpo/beta_used': 0.19230753183364868, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0982064008712769, 'logits/rejected': -0.5400052666664124, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 608/681 [45:19<11:51,  9.75s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████            | 609/681 [45:22<09:08,  7.62s/it]                                                                                                                                                        {'loss': 0.8564, 'grad_norm': 44.63237380981445, 'learning_rate': 1.7348604439226617e-08, 'beta_dpo/gap_mean': 28.08792495727539, 'beta_dpo/gap_std': 26.806245803833008, 'beta_dpo/beta_used_raw': 0.07590121030807495, 'beta_dpo/beta_used': 0.12406554818153381, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.1751508712768555, 'logits/rejected': -1.6474738121032715, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████            | 609/681 [45:22<09:08,  7.62s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 610/681 [45:25<07:22,  6.23s/it]                                                                                                                                                        {'loss': 0.4032, 'grad_norm': 101.64844512939453, 'learning_rate': 1.6881942648911074e-08, 'beta_dpo/gap_mean': 27.960865020751953, 'beta_dpo/gap_std': 26.91543960571289, 'beta_dpo/beta_used_raw': 0.2061629593372345, 'beta_dpo/beta_used': 0.2061629593372345, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.126846194267273, 'logits/rejected': -0.9453625082969666, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 610/681 [45:25<07:22,  6.23s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 611/681 [45:27<05:59,  5.13s/it]                                                                                                                                                        {'loss': 1.3659, 'grad_norm': 0.6740864515304565, 'learning_rate': 1.6421423736208e-08, 'beta_dpo/gap_mean': 27.73170280456543, 'beta_dpo/gap_std': 27.425939559936523, 'beta_dpo/beta_used_raw': -0.3135502338409424, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3016668558120728, 'logits/rejected': -1.5816915035247803, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 611/681 [45:27<05:59,  5.13s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 612/681 [45:30<05:03,  4.39s/it]                                                                                                                                                        {'loss': 1.0534, 'grad_norm': 11.847250938415527, 'learning_rate': 1.5967059836219042e-08, 'beta_dpo/gap_mean': 27.90454864501953, 'beta_dpo/gap_std': 28.067529678344727, 'beta_dpo/beta_used_raw': -0.04090452194213867, 'beta_dpo/beta_used': 0.019122015684843063, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.828847646713257, 'logits/rejected': -1.5389125347137451, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 612/681 [45:30<05:03,  4.39s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 613/681 [45:33<04:27,  3.93s/it]                                                                                                                                                        {'loss': 0.8487, 'grad_norm': 32.16731643676758, 'learning_rate': 1.551886292185553e-08, 'beta_dpo/gap_mean': 28.143531799316406, 'beta_dpo/gap_std': 27.665599822998047, 'beta_dpo/beta_used_raw': 0.08581092953681946, 'beta_dpo/beta_used': 0.08581092953681946, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.8254266977310181, 'logits/rejected': -0.2951732873916626, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 613/681 [45:33<04:27,  3.93s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 614/681 [45:36<04:00,  3.60s/it]                                                                                                                                                        {'loss': 1.3614, 'grad_norm': 0.9008828997612, 'learning_rate': 1.507684480352292e-08, 'beta_dpo/gap_mean': 27.91874122619629, 'beta_dpo/gap_std': 26.732559204101562, 'beta_dpo/beta_used_raw': -0.0637907013297081, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2602735757827759, 'logits/rejected': -1.2624118328094482, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 614/681 [45:36<04:00,  3.60s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████           | 615/681 [45:39<03:45,  3.41s/it]                                                                                                                                                        {'loss': 0.7225, 'grad_norm': 35.35264205932617, 'learning_rate': 1.4641017128809801e-08, 'beta_dpo/gap_mean': 26.90203857421875, 'beta_dpo/gap_std': 26.413787841796875, 'beta_dpo/beta_used_raw': 0.09561780840158463, 'beta_dpo/beta_used': 0.20127537846565247, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -3.1033453941345215, 'logits/rejected': -1.8919872045516968, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████           | 615/681 [45:39<03:45,  3.41s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 616/681 [45:42<03:32,  3.28s/it]                                                                                                                                                        {'loss': 0.9495, 'grad_norm': 18.992765426635742, 'learning_rate': 1.4211391382180637e-08, 'beta_dpo/gap_mean': 26.748119354248047, 'beta_dpo/gap_std': 26.577213287353516, 'beta_dpo/beta_used_raw': 0.030270632356405258, 'beta_dpo/beta_used': 0.035515908151865005, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7871594429016113, 'logits/rejected': -1.0935783386230469, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 616/681 [45:42<03:32,  3.28s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 617/681 [45:45<03:27,  3.24s/it]                                                                                                                                                        {'loss': 1.0214, 'grad_norm': 33.350303649902344, 'learning_rate': 1.378797888467345e-08, 'beta_dpo/gap_mean': 25.87103843688965, 'beta_dpo/gap_std': 26.988807678222656, 'beta_dpo/beta_used_raw': -0.08706134557723999, 'beta_dpo/beta_used': 0.1273186355829239, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.6357133388519287, 'logits/rejected': -0.8707866072654724, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 617/681 [45:45<03:27,  3.24s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 618/681 [45:48<03:20,  3.18s/it]                                                                                                                                                        {'loss': 0.2889, 'grad_norm': 74.97677612304688, 'learning_rate': 1.3370790793601371e-08, 'beta_dpo/gap_mean': 25.480789184570312, 'beta_dpo/gap_std': 26.98863983154297, 'beta_dpo/beta_used_raw': 0.28145626187324524, 'beta_dpo/beta_used': 0.28145626187324524, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.809556245803833, 'logits/rejected': -2.3729324340820312, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 618/681 [45:48<03:20,  3.18s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 619/681 [45:51<03:12,  3.11s/it]                                                                                                                                                        {'loss': 0.4014, 'grad_norm': 93.3560791015625, 'learning_rate': 1.2959838102258535e-08, 'beta_dpo/gap_mean': 25.54322052001953, 'beta_dpo/gap_std': 26.776268005371094, 'beta_dpo/beta_used_raw': 0.24077007174491882, 'beta_dpo/beta_used': 0.24077007174491882, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.683895468711853, 'logits/rejected': -0.9932112097740173, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 619/681 [45:51<03:12,  3.11s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 620/681 [45:54<03:04,  3.02s/it]                                                                                                                                                        {'loss': 1.0302, 'grad_norm': 122.45503234863281, 'learning_rate': 1.2555131639630567e-08, 'beta_dpo/gap_mean': 25.977336883544922, 'beta_dpo/gap_std': 27.07024383544922, 'beta_dpo/beta_used_raw': 0.1724894642829895, 'beta_dpo/beta_used': 0.3967885673046112, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6116111278533936, 'logits/rejected': -1.515150785446167, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 620/681 [45:54<03:04,  3.02s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████          | 621/681 [45:57<03:00,  3.00s/it]                                                                                                                                                        {'loss': 0.9069, 'grad_norm': 60.58484649658203, 'learning_rate': 1.2156682070109086e-08, 'beta_dpo/gap_mean': 25.018667221069336, 'beta_dpo/gap_std': 27.220109939575195, 'beta_dpo/beta_used_raw': 0.05492217093706131, 'beta_dpo/beta_used': 0.14680472016334534, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7409666776657104, 'logits/rejected': -1.3526718616485596, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████          | 621/681 [45:57<03:00,  3.00s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 622/681 [45:59<02:54,  2.96s/it]                                                                                                                                                        {'loss': 0.2976, 'grad_norm': 45.40700912475586, 'learning_rate': 1.1764499893210878e-08, 'beta_dpo/gap_mean': 25.912124633789062, 'beta_dpo/gap_std': 26.764728546142578, 'beta_dpo/beta_used_raw': 0.17629124224185944, 'beta_dpo/beta_used': 0.17629124224185944, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.560531497001648, 'logits/rejected': 0.17780210077762604, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 622/681 [46:00<02:54,  2.96s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 623/681 [46:02<02:43,  2.81s/it]                                                                                                                                                        {'loss': 0.8965, 'grad_norm': 19.917722702026367, 'learning_rate': 1.1378595443300998e-08, 'beta_dpo/gap_mean': 25.94444465637207, 'beta_dpo/gap_std': 27.35669708251953, 'beta_dpo/beta_used_raw': -0.05395708605647087, 'beta_dpo/beta_used': 0.05971324071288109, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.4165191650390625, 'logits/rejected': -2.535884141921997, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 623/681 [46:02<02:43,  2.81s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 624/681 [46:05<02:40,  2.81s/it]                                                                                                                                                        {'loss': 0.7317, 'grad_norm': 53.50072479248047, 'learning_rate': 1.0998978889320582e-08, 'beta_dpo/gap_mean': 26.42656135559082, 'beta_dpo/gap_std': 27.526315689086914, 'beta_dpo/beta_used_raw': 0.2545613944530487, 'beta_dpo/beta_used': 0.2743593156337738, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.464743733406067, 'logits/rejected': -0.29761308431625366, 'epoch': 0.92}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 624/681 [46:05<02:40,  2.81s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 625/681 [46:08<02:41,  2.88s/it]                                                                                                                                                        {'loss': 1.3677, 'grad_norm': 0.6834034323692322, 'learning_rate': 1.0625660234518913e-08, 'beta_dpo/gap_mean': 26.23963737487793, 'beta_dpo/gap_std': 27.129396438598633, 'beta_dpo/beta_used_raw': -0.34066319465637207, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.4838218688964844, 'logits/rejected': -2.34793758392334, 'epoch': 0.92}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 625/681 [46:08<02:41,  2.88s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 626/681 [46:11<02:43,  2.97s/it]                                                                                                                                                        {'loss': 1.3675, 'grad_norm': 0.693095862865448, 'learning_rate': 1.0258649316189721e-08, 'beta_dpo/gap_mean': 25.508012771606445, 'beta_dpo/gap_std': 27.87520408630371, 'beta_dpo/beta_used_raw': -0.2781468331813812, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.392935276031494, 'logits/rejected': -2.3022007942199707, 'epoch': 0.92}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 626/681 [46:11<02:43,  2.97s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████         | 627/681 [46:14<02:40,  2.97s/it]                                                                                                                                                        {'loss': 1.0095, 'grad_norm': 66.25963592529297, 'learning_rate': 9.897955805412e-09, 'beta_dpo/gap_mean': 25.508769989013672, 'beta_dpo/gap_std': 28.16644287109375, 'beta_dpo/beta_used_raw': 0.1320492923259735, 'beta_dpo/beta_used': 0.1320492923259735, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.5383257865905762, 'logits/rejected': -1.2918891906738281, 'epoch': 0.92}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████         | 627/681 [46:14<02:40,  2.97s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 628/681 [46:17<02:36,  2.96s/it]                                                                                                                                                        {'loss': 0.7534, 'grad_norm': 43.68147659301758, 'learning_rate': 9.543589206795238e-09, 'beta_dpo/gap_mean': 25.589433670043945, 'beta_dpo/gap_std': 27.666522979736328, 'beta_dpo/beta_used_raw': 0.1004292219877243, 'beta_dpo/beta_used': 0.1707049161195755, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.54828679561615, 'logits/rejected': -1.1098421812057495, 'epoch': 0.92}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 628/681 [46:17<02:36,  2.96s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 629/681 [46:20<02:33,  2.95s/it]                                                                                                                                                        {'loss': 1.0793, 'grad_norm': 19.315677642822266, 'learning_rate': 9.19555885822887e-09, 'beta_dpo/gap_mean': 25.53607749938965, 'beta_dpo/gap_std': 27.197887420654297, 'beta_dpo/beta_used_raw': 0.028293948620557785, 'beta_dpo/beta_used': 0.03018147312104702, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.1567575931549072, 'logits/rejected': -1.6035345792770386, 'epoch': 0.92}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 629/681 [46:20<02:33,  2.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 630/681 [46:23<02:30,  2.96s/it]                                                                                                                                                        {'loss': 1.0099, 'grad_norm': 20.050827026367188, 'learning_rate': 8.85387393063622e-09, 'beta_dpo/gap_mean': 24.495513916015625, 'beta_dpo/gap_std': 26.417217254638672, 'beta_dpo/beta_used_raw': -0.07359858602285385, 'beta_dpo/beta_used': 0.034268446266651154, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -2.140623092651367, 'logits/rejected': -0.20457985997200012, 'epoch': 0.93}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 630/681 [46:23<02:30,  2.96s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 631/681 [46:26<02:25,  2.91s/it]                                                                                                                                                        {'loss': 0.9139, 'grad_norm': 16.772321701049805, 'learning_rate': 8.518543427732949e-09, 'beta_dpo/gap_mean': 24.764623641967773, 'beta_dpo/gap_std': 25.562318801879883, 'beta_dpo/beta_used_raw': 0.023703955113887787, 'beta_dpo/beta_used': 0.046777982264757156, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -3.0626821517944336, 'logits/rejected': -1.7369043827056885, 'epoch': 0.93}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 631/681 [46:26<02:25,  2.91s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 632/681 [46:28<02:20,  2.87s/it]                                                                                                                                                        {'loss': 0.9446, 'grad_norm': 15.070470809936523, 'learning_rate': 8.189576185789637e-09, 'beta_dpo/gap_mean': 25.46234703063965, 'beta_dpo/gap_std': 25.864564895629883, 'beta_dpo/beta_used_raw': 0.03169193118810654, 'beta_dpo/beta_used': 0.03596285730600357, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.1580801010131836, 'logits/rejected': -1.8691926002502441, 'epoch': 0.93}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 632/681 [46:28<02:20,  2.87s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████        | 633/681 [46:31<02:16,  2.85s/it]                                                                                                                                                        {'loss': 1.0363, 'grad_norm': 40.30422592163086, 'learning_rate': 7.866980873399015e-09, 'beta_dpo/gap_mean': 24.667333602905273, 'beta_dpo/gap_std': 27.10137939453125, 'beta_dpo/beta_used_raw': -0.249537855386734, 'beta_dpo/beta_used': 0.037844493985176086, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -3.4099979400634766, 'logits/rejected': -2.978597640991211, 'epoch': 0.93}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████        | 633/681 [46:31<02:16,  2.85s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 634/681 [46:34<02:17,  2.92s/it]                                                                                                                                                        {'loss': 1.031, 'grad_norm': 10.418085098266602, 'learning_rate': 7.550765991247654e-09, 'beta_dpo/gap_mean': 24.457666397094727, 'beta_dpo/gap_std': 26.525691986083984, 'beta_dpo/beta_used_raw': -0.027643514797091484, 'beta_dpo/beta_used': 0.02373570203781128, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.44098699092865, 'logits/rejected': -1.1311659812927246, 'epoch': 0.93}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 634/681 [46:34<02:17,  2.92s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 635/681 [46:37<02:12,  2.88s/it]                                                                                                                                                        {'loss': 1.1452, 'grad_norm': 7.660090923309326, 'learning_rate': 7.240939871891699e-09, 'beta_dpo/gap_mean': 24.24664306640625, 'beta_dpo/gap_std': 26.660503387451172, 'beta_dpo/beta_used_raw': -0.1692088097333908, 'beta_dpo/beta_used': 0.014054001308977604, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.804953694343567, 'logits/rejected': -1.106596827507019, 'epoch': 0.93}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 635/681 [46:37<02:12,  2.88s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 636/681 [46:40<02:12,  2.94s/it]                                                                                                                                                        {'loss': 0.6125, 'grad_norm': 54.858829498291016, 'learning_rate': 6.937510679537628e-09, 'beta_dpo/gap_mean': 24.010807037353516, 'beta_dpo/gap_std': 26.382919311523438, 'beta_dpo/beta_used_raw': 0.11992073059082031, 'beta_dpo/beta_used': 0.11992073059082031, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4366188049316406, 'logits/rejected': -0.8485536575317383, 'epoch': 0.93}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 636/681 [46:40<02:12,  2.94s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 637/681 [46:43<02:08,  2.93s/it]                                                                                                                                                        {'loss': 1.1776, 'grad_norm': 8.482524871826172, 'learning_rate': 6.640486409826785e-09, 'beta_dpo/gap_mean': 24.7161808013916, 'beta_dpo/gap_std': 27.203895568847656, 'beta_dpo/beta_used_raw': -0.11114945262670517, 'beta_dpo/beta_used': 0.012525239959359169, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.6223981380462646, 'logits/rejected': -1.295461893081665, 'epoch': 0.94}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 637/681 [46:43<02:08,  2.93s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 638/681 [46:46<02:05,  2.91s/it]                                                                                                                                                        {'loss': 0.3056, 'grad_norm': 42.16156005859375, 'learning_rate': 6.349874889624962e-09, 'beta_dpo/gap_mean': 25.465686798095703, 'beta_dpo/gap_std': 26.684253692626953, 'beta_dpo/beta_used_raw': 0.17386887967586517, 'beta_dpo/beta_used': 0.17386887967586517, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.806030750274658, 'logits/rejected': -0.8436174988746643, 'epoch': 0.94}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 638/681 [46:46<02:05,  2.91s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████       | 639/681 [46:49<02:02,  2.91s/it]                                                                                                                                                        {'loss': 1.3648, 'grad_norm': 0.7115759253501892, 'learning_rate': 6.065683776815933e-09, 'beta_dpo/gap_mean': 24.781633377075195, 'beta_dpo/gap_std': 26.568370819091797, 'beta_dpo/beta_used_raw': -0.14556750655174255, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.160405158996582, 'logits/rejected': -0.9737479090690613, 'epoch': 0.94}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████       | 639/681 [46:49<02:02,  2.91s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 640/681 [46:52<02:02,  2.98s/it]                                                                                                                                                        {'loss': 0.6861, 'grad_norm': 6.0283379554748535, 'learning_rate': 5.7879205600998296e-09, 'beta_dpo/gap_mean': 24.88129234313965, 'beta_dpo/gap_std': 26.40639877319336, 'beta_dpo/beta_used_raw': 0.3394223153591156, 'beta_dpo/beta_used': 0.3657962381839752, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7498547434806824, 'logits/rejected': -0.22841249406337738, 'epoch': 0.94}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 640/681 [46:52<02:02,  2.98s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 641/681 [46:55<01:59,  2.99s/it]                                                                                                                                                        {'loss': 0.625, 'grad_norm': 93.76725006103516, 'learning_rate': 5.516592558795746e-09, 'beta_dpo/gap_mean': 25.962242126464844, 'beta_dpo/gap_std': 26.106050491333008, 'beta_dpo/beta_used_raw': 0.21244415640830994, 'beta_dpo/beta_used': 0.21244415640830994, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8660616874694824, 'logits/rejected': -1.753645896911621, 'epoch': 0.94}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 641/681 [46:55<01:59,  2.99s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 642/681 [46:58<01:54,  2.94s/it]                                                                                                                                                        {'loss': 1.3687, 'grad_norm': 0.6580331921577454, 'learning_rate': 5.251706922648868e-09, 'beta_dpo/gap_mean': 25.666969299316406, 'beta_dpo/gap_std': 27.017744064331055, 'beta_dpo/beta_used_raw': -0.39809074997901917, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9073336124420166, 'logits/rejected': -0.7449837923049927, 'epoch': 0.94}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 642/681 [46:58<01:54,  2.94s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 643/681 [47:01<01:52,  2.97s/it]                                                                                                                                                        {'loss': 0.6708, 'grad_norm': 21.325944900512695, 'learning_rate': 4.993270631642038e-09, 'beta_dpo/gap_mean': 25.45240020751953, 'beta_dpo/gap_std': 26.006860733032227, 'beta_dpo/beta_used_raw': 0.07014614343643188, 'beta_dpo/beta_used': 0.07014614343643188, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.990086555480957, 'logits/rejected': -1.38441801071167, 'epoch': 0.94}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 643/681 [47:01<01:52,  2.97s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 644/681 [47:04<01:50,  2.98s/it]                                                                                                                                                        {'loss': 0.7768, 'grad_norm': 22.50238037109375, 'learning_rate': 4.741290495811873e-09, 'beta_dpo/gap_mean': 24.64284896850586, 'beta_dpo/gap_std': 26.2049617767334, 'beta_dpo/beta_used_raw': -0.07786447554826736, 'beta_dpo/beta_used': 0.10355755686759949, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.9852948188781738, 'logits/rejected': -1.767737865447998, 'epoch': 0.95}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 644/681 [47:04<01:50,  2.98s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████      | 645/681 [47:07<01:46,  2.97s/it]                                                                                                                                                        {'loss': 1.3709, 'grad_norm': 0.7167469263076782, 'learning_rate': 4.495773155069299e-09, 'beta_dpo/gap_mean': 23.876996994018555, 'beta_dpo/gap_std': 26.21371078491211, 'beta_dpo/beta_used_raw': -0.3595721125602722, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.1556835174560547, 'logits/rejected': -1.0982701778411865, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████      | 645/681 [47:07<01:46,  2.97s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 646/681 [47:09<01:41,  2.91s/it]                                                                                                                                                        {'loss': 0.2992, 'grad_norm': 78.34426879882812, 'learning_rate': 4.256725079024553e-09, 'beta_dpo/gap_mean': 24.075374603271484, 'beta_dpo/gap_std': 25.402545928955078, 'beta_dpo/beta_used_raw': 0.27249401807785034, 'beta_dpo/beta_used': 0.27249401807785034, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -1.273078203201294, 'logits/rejected': -1.0210223197937012, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 646/681 [47:10<01:41,  2.91s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 647/681 [47:13<01:41,  2.99s/it]                                                                                                                                                        {'loss': 1.2658, 'grad_norm': 73.75732421875, 'learning_rate': 4.024152566816791e-09, 'beta_dpo/gap_mean': 23.82613754272461, 'beta_dpo/gap_std': 25.484859466552734, 'beta_dpo/beta_used_raw': 0.013192906975746155, 'beta_dpo/beta_used': 0.1067810207605362, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9040647745132446, 'logits/rejected': -0.8365122079849243, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 647/681 [47:13<01:41,  2.99s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 648/681 [47:15<01:36,  2.91s/it]                                                                                                                                                        {'loss': 0.8779, 'grad_norm': 102.65180969238281, 'learning_rate': 3.798061746947995e-09, 'beta_dpo/gap_mean': 24.101375579833984, 'beta_dpo/gap_std': 25.932687759399414, 'beta_dpo/beta_used_raw': 0.10964904725551605, 'beta_dpo/beta_used': 0.183420792222023, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5339770317077637, 'logits/rejected': -1.5160984992980957, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 648/681 [47:15<01:36,  2.91s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 649/681 [47:19<01:35,  2.99s/it]                                                                                                                                                        {'loss': 0.8886, 'grad_norm': 35.50594711303711, 'learning_rate': 3.5784585771215235e-09, 'beta_dpo/gap_mean': 24.48971176147461, 'beta_dpo/gap_std': 25.154579162597656, 'beta_dpo/beta_used_raw': 0.0430719330906868, 'beta_dpo/beta_used': 0.1578582227230072, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.3788206577301025, 'logits/rejected': -1.731053113937378, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 649/681 [47:19<01:35,  2.99s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 650/681 [47:21<01:30,  2.92s/it]                                                                                                                                                        {'loss': 0.8795, 'grad_norm': 32.246803283691406, 'learning_rate': 3.3653488440851253e-09, 'beta_dpo/gap_mean': 24.677059173583984, 'beta_dpo/gap_std': 25.670509338378906, 'beta_dpo/beta_used_raw': 0.04472571983933449, 'beta_dpo/beta_used': 0.08072511106729507, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5401017665863037, 'logits/rejected': -1.5119943618774414, 'epoch': 0.95}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 650/681 [47:21<01:30,  2.92s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 651/681 [47:24<01:27,  2.92s/it]                                                                                                                                                        {'loss': 0.4221, 'grad_norm': 75.5047836303711, 'learning_rate': 3.158738163478475e-09, 'beta_dpo/gap_mean': 25.562501907348633, 'beta_dpo/gap_std': 25.796520233154297, 'beta_dpo/beta_used_raw': 0.266397625207901, 'beta_dpo/beta_used': 0.266397625207901, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.793809413909912, 'logits/rejected': -2.2159769535064697, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 651/681 [47:24<01:27,  2.92s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 652/681 [47:27<01:24,  2.91s/it]                                                                                                                                                        {'loss': 0.3882, 'grad_norm': 62.18571090698242, 'learning_rate': 2.9586319796851555e-09, 'beta_dpo/gap_mean': 25.857515335083008, 'beta_dpo/gap_std': 25.84009552001953, 'beta_dpo/beta_used_raw': 0.23461079597473145, 'beta_dpo/beta_used': 0.23461079597473145, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.5306251049041748, 'logits/rejected': -1.4811850786209106, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 652/681 [47:27<01:24,  2.91s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 653/681 [47:30<01:21,  2.90s/it]                                                                                                                                                        {'loss': 0.3804, 'grad_norm': 105.35147094726562, 'learning_rate': 2.7650355656892166e-09, 'beta_dpo/gap_mean': 25.806331634521484, 'beta_dpo/gap_std': 25.399927139282227, 'beta_dpo/beta_used_raw': 0.3161761462688446, 'beta_dpo/beta_used': 0.3161761462688446, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.4217348098754883, 'logits/rejected': -2.5725555419921875, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 653/681 [47:30<01:21,  2.90s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 654/681 [47:33<01:18,  2.91s/it]                                                                                                                                                        {'loss': 0.9204, 'grad_norm': 39.34584045410156, 'learning_rate': 2.577954022936174e-09, 'beta_dpo/gap_mean': 25.800559997558594, 'beta_dpo/gap_std': 25.6098690032959, 'beta_dpo/beta_used_raw': 0.04106505215167999, 'beta_dpo/beta_used': 0.11472293734550476, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.2942886352539062, 'logits/rejected': -1.7099244594573975, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 654/681 [47:33<01:18,  2.91s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 655/681 [47:36<01:15,  2.92s/it]                                                                                                                                                        {'loss': 0.8524, 'grad_norm': 35.4230842590332, 'learning_rate': 2.397392281198729e-09, 'beta_dpo/gap_mean': 25.342327117919922, 'beta_dpo/gap_std': 26.117286682128906, 'beta_dpo/beta_used_raw': -0.00997423380613327, 'beta_dpo/beta_used': 0.09627825766801834, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -1.9102520942687988, 'logits/rejected': -1.835174322128296, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 655/681 [47:36<01:15,  2.92s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 656/681 [47:39<01:14,  2.97s/it]                                                                                                                                                        {'loss': 0.9823, 'grad_norm': 15.73218059539795, 'learning_rate': 2.223355098446622e-09, 'beta_dpo/gap_mean': 25.836530685424805, 'beta_dpo/gap_std': 26.004581451416016, 'beta_dpo/beta_used_raw': 0.019424546509981155, 'beta_dpo/beta_used': 0.02918560430407524, 'beta_dpo/mask_keep_frac': 0.5, 'logits/chosen': -2.0381622314453125, 'logits/rejected': -2.282194137573242, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 656/681 [47:39<01:14,  2.97s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 657/681 [47:42<01:09,  2.88s/it]                                                                                                                                                        {'loss': 0.846, 'grad_norm': 36.36809158325195, 'learning_rate': 2.055847060721566e-09, 'beta_dpo/gap_mean': 26.164352416992188, 'beta_dpo/gap_std': 26.37403106689453, 'beta_dpo/beta_used_raw': -0.011161044239997864, 'beta_dpo/beta_used': 0.14083074033260345, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8447120189666748, 'logits/rejected': -1.3986084461212158, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 657/681 [47:42<01:09,  2.88s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 658/681 [47:44<01:04,  2.82s/it]                                                                                                                                                        {'loss': 0.8892, 'grad_norm': 41.52330780029297, 'learning_rate': 1.8948725820160662e-09, 'beta_dpo/gap_mean': 25.671611785888672, 'beta_dpo/gap_std': 26.10125732421875, 'beta_dpo/beta_used_raw': -0.04021822661161423, 'beta_dpo/beta_used': 0.09425677359104156, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.079184055328369, 'logits/rejected': -1.5296201705932617, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 658/681 [47:44<01:04,  2.82s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 659/681 [47:47<01:02,  2.85s/it]                                                                                                                                                        {'loss': 0.7889, 'grad_norm': 127.47429656982422, 'learning_rate': 1.7404359041573723e-09, 'beta_dpo/gap_mean': 26.545684814453125, 'beta_dpo/gap_std': 26.43194580078125, 'beta_dpo/beta_used_raw': 0.300968736410141, 'beta_dpo/beta_used': 0.300968736410141, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.7157797813415527, 'logits/rejected': -2.105652093887329, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 659/681 [47:47<01:02,  2.85s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 660/681 [47:50<00:59,  2.83s/it]                                                                                                                                                        {'loss': 0.7886, 'grad_norm': 40.15045928955078, 'learning_rate': 1.592541096695571e-09, 'beta_dpo/gap_mean': 27.32921600341797, 'beta_dpo/gap_std': 26.936813354492188, 'beta_dpo/beta_used_raw': 0.0901188924908638, 'beta_dpo/beta_used': 0.10049507021903992, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.3412139415740967, 'logits/rejected': -1.4522958993911743, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 660/681 [47:50<00:59,  2.83s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 661/681 [47:53<00:54,  2.73s/it]                                                                                                                                                        {'loss': 0.9341, 'grad_norm': 45.90566635131836, 'learning_rate': 1.4511920567963908e-09, 'beta_dpo/gap_mean': 27.41143798828125, 'beta_dpo/gap_std': 27.408355712890625, 'beta_dpo/beta_used_raw': -0.018630720674991608, 'beta_dpo/beta_used': 0.08502917736768723, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7122316360473633, 'logits/rejected': -1.2374494075775146, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 661/681 [47:53<00:54,  2.73s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 662/681 [47:56<00:53,  2.84s/it]                                                                                                                                                        {'loss': 1.3643, 'grad_norm': 0.7011018395423889, 'learning_rate': 1.3163925091384532e-09, 'beta_dpo/gap_mean': 27.318252563476562, 'beta_dpo/gap_std': 26.791423797607422, 'beta_dpo/beta_used_raw': -0.2160995602607727, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.200093388557434, 'logits/rejected': -0.6818442940711975, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 662/681 [47:56<00:53,  2.84s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 663/681 [47:59<00:53,  2.97s/it]                                                                                                                                                        {'loss': 0.7098, 'grad_norm': 45.353824615478516, 'learning_rate': 1.1881460058152382e-09, 'beta_dpo/gap_mean': 27.517772674560547, 'beta_dpo/gap_std': 26.901273727416992, 'beta_dpo/beta_used_raw': 0.12379209697246552, 'beta_dpo/beta_used': 0.12379209697246552, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.6320724487304688, 'logits/rejected': -1.3605599403381348, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 663/681 [47:59<00:53,  2.97s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 664/681 [48:02<00:51,  3.01s/it]                                                                                                                                                        {'loss': 0.889, 'grad_norm': 39.758148193359375, 'learning_rate': 1.066455926241383e-09, 'beta_dpo/gap_mean': 27.899158477783203, 'beta_dpo/gap_std': 26.73941421508789, 'beta_dpo/beta_used_raw': -0.04690101742744446, 'beta_dpo/beta_used': 0.08696911484003067, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6941994428634644, 'logits/rejected': -1.2433688640594482, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 664/681 [48:02<00:51,  3.01s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 665/681 [48:05<00:46,  2.91s/it]                                                                                                                                                        {'loss': 0.8784, 'grad_norm': 16.841934204101562, 'learning_rate': 9.513254770636137e-10, 'beta_dpo/gap_mean': 27.266984939575195, 'beta_dpo/gap_std': 26.420181274414062, 'beta_dpo/beta_used_raw': -0.043198782950639725, 'beta_dpo/beta_used': 0.042768318206071854, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.474729537963867, 'logits/rejected': -2.2313597202301025, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 665/681 [48:05<00:46,  2.91s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 666/681 [48:08<00:44,  2.96s/it]                                                                                                                                                        {'loss': 1.3656, 'grad_norm': 0.7575967311859131, 'learning_rate': 8.427576920763956e-10, 'beta_dpo/gap_mean': 26.876924514770508, 'beta_dpo/gap_std': 26.414169311523438, 'beta_dpo/beta_used_raw': -0.2649265229701996, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.7433545589447021, 'logits/rejected': -1.490132451057434, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 666/681 [48:08<00:44,  2.96s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 667/681 [48:11<00:41,  2.97s/it]                                                                                                                                                        {'loss': 0.8868, 'grad_norm': 20.461111068725586, 'learning_rate': 7.407554321417764e-10, 'beta_dpo/gap_mean': 27.131610870361328, 'beta_dpo/gap_std': 26.764110565185547, 'beta_dpo/beta_used_raw': -0.007738005369901657, 'beta_dpo/beta_used': 0.04926947504281998, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7287938594818115, 'logits/rejected': -1.0780360698699951, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 667/681 [48:11<00:41,  2.97s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 668/681 [48:14<00:38,  3.00s/it]                                                                                                                                                        {'loss': 0.881, 'grad_norm': 51.90634536743164, 'learning_rate': 6.453213851142225e-10, 'beta_dpo/gap_mean': 27.668758392333984, 'beta_dpo/gap_std': 26.51095962524414, 'beta_dpo/beta_used_raw': -0.020425312221050262, 'beta_dpo/beta_used': 0.11481890082359314, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7414575815200806, 'logits/rejected': -1.8504266738891602, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 668/681 [48:14<00:38,  3.00s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 669/681 [48:17<00:36,  3.03s/it]                                                                                                                                                        {'loss': 0.8646, 'grad_norm': 21.52220916748047, 'learning_rate': 5.564580657695939e-10, 'beta_dpo/gap_mean': 28.0015869140625, 'beta_dpo/gap_std': 26.40846061706543, 'beta_dpo/beta_used_raw': 0.031783655285835266, 'beta_dpo/beta_used': 0.089015893638134, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7665306329727173, 'logits/rejected': -1.1365385055541992, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 669/681 [48:17<00:36,  3.03s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 670/681 [48:20<00:33,  3.06s/it]                                                                                                                                                        {'loss': 0.8828, 'grad_norm': 49.622772216796875, 'learning_rate': 4.741678157389739e-10, 'beta_dpo/gap_mean': 28.321340560913086, 'beta_dpo/gap_std': 26.639236450195312, 'beta_dpo/beta_used_raw': 0.09976670891046524, 'beta_dpo/beta_used': 0.11147114634513855, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5533534288406372, 'logits/rejected': -1.235931634902954, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 670/681 [48:20<00:33,  3.06s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 671/681 [48:23<00:29,  2.95s/it]                                                                                                                                                        {'loss': 0.7011, 'grad_norm': 8.204655647277832, 'learning_rate': 3.9845280344705245e-10, 'beta_dpo/gap_mean': 28.04564094543457, 'beta_dpo/gap_std': 26.574295043945312, 'beta_dpo/beta_used_raw': -0.028427034616470337, 'beta_dpo/beta_used': 0.15611684322357178, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9096536040306091, 'logits/rejected': -0.6570190191268921, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 671/681 [48:23<00:29,  2.95s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 672/681 [48:26<00:26,  2.95s/it]                                                                                                                                                        {'loss': 0.8612, 'grad_norm': 51.78870391845703, 'learning_rate': 3.293150240547549e-10, 'beta_dpo/gap_mean': 27.482242584228516, 'beta_dpo/gap_std': 26.394447326660156, 'beta_dpo/beta_used_raw': 0.05002519115805626, 'beta_dpo/beta_used': 0.10520876944065094, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.238128185272217, 'logits/rejected': -2.1167397499084473, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 672/681 [48:26<00:26,  2.95s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 673/681 [48:28<00:22,  2.84s/it]                                                                                                                                                        {'loss': 0.7891, 'grad_norm': 30.509424209594727, 'learning_rate': 2.6675629940689504e-10, 'beta_dpo/gap_mean': 27.103679656982422, 'beta_dpo/gap_std': 26.009197235107422, 'beta_dpo/beta_used_raw': 0.07913055270910263, 'beta_dpo/beta_used': 0.0886186733841896, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.1244845390319824, 'logits/rejected': -1.012803077697754, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 673/681 [48:28<00:22,  2.84s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 674/681 [48:31<00:20,  2.89s/it]                                                                                                                                                        {'loss': 0.8895, 'grad_norm': 11.617090225219727, 'learning_rate': 2.1077827798404725e-10, 'beta_dpo/gap_mean': 27.488269805908203, 'beta_dpo/gap_std': 25.604915618896484, 'beta_dpo/beta_used_raw': 0.018813492730259895, 'beta_dpo/beta_used': 0.04007472097873688, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8489723205566406, 'logits/rejected': -1.3508100509643555, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 674/681 [48:31<00:20,  2.89s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 675/681 [48:34<00:16,  2.82s/it]                                                                                                                                                        {'loss': 0.8013, 'grad_norm': 25.02197265625, 'learning_rate': 1.6138243485910863e-10, 'beta_dpo/gap_mean': 27.70388412475586, 'beta_dpo/gap_std': 26.114885330200195, 'beta_dpo/beta_used_raw': 0.0895192101597786, 'beta_dpo/beta_used': 0.10179030150175095, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.0838446617126465, 'logits/rejected': -0.8627390265464783, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 675/681 [48:34<00:16,  2.82s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 676/681 [48:37<00:14,  2.88s/it]                                                                                                                                                        {'loss': 0.6234, 'grad_norm': 109.19337463378906, 'learning_rate': 1.1857007165852472e-10, 'beta_dpo/gap_mean': 27.704769134521484, 'beta_dpo/gap_std': 26.05438995361328, 'beta_dpo/beta_used_raw': 0.25374189019203186, 'beta_dpo/beta_used': 0.25374189019203186, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0344905853271484, 'logits/rejected': -1.4180444478988647, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 676/681 [48:37<00:14,  2.88s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 677/681 [48:40<00:11,  2.82s/it]                                                                                                                                                        {'loss': 0.6725, 'grad_norm': 18.980443954467773, 'learning_rate': 8.23423165278725e-11, 'beta_dpo/gap_mean': 28.181198120117188, 'beta_dpo/gap_std': 25.20414924621582, 'beta_dpo/beta_used_raw': 0.05424497649073601, 'beta_dpo/beta_used': 0.05424497649073601, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.439286708831787, 'logits/rejected': -2.477078437805176, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 677/681 [48:40<00:11,  2.82s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 678/681 [48:43<00:08,  2.83s/it]                                                                                                                                                        {'loss': 0.6773, 'grad_norm': 58.01787185668945, 'learning_rate': 5.270012410216185e-11, 'beta_dpo/gap_mean': 28.24429702758789, 'beta_dpo/gap_std': 24.93535614013672, 'beta_dpo/beta_used_raw': 0.24579310417175293, 'beta_dpo/beta_used': 0.24579310417175293, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.2655192613601685, 'logits/rejected': -0.5176064968109131, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 678/681 [48:43<00:08,  2.83s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 679/681 [48:45<00:05,  2.78s/it]                                                                                                                                                        {'loss': 0.7942, 'grad_norm': 21.957143783569336, 'learning_rate': 2.9644275480772416e-11, 'beta_dpo/gap_mean': 28.419395446777344, 'beta_dpo/gap_std': 24.707523345947266, 'beta_dpo/beta_used_raw': 0.09048715978860855, 'beta_dpo/beta_used': 0.09529916197061539, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.128697633743286, 'logits/rejected': -1.8750262260437012, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 679/681 [48:45<00:05,  2.78s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 680/681 [48:48<00:02,  2.86s/it]                                                                                                                                                        {'loss': 1.0468, 'grad_norm': 12.635197639465332, 'learning_rate': 1.31753782067201e-11, 'beta_dpo/gap_mean': 27.96090316772461, 'beta_dpo/gap_std': 25.136274337768555, 'beta_dpo/beta_used_raw': -0.06876889616250992, 'beta_dpo/beta_used': 0.02317173406481743, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.110539436340332, 'logits/rejected': -2.0527472496032715, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 680/681 [48:48<00:02,  2.86s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [48:51<00:00,  2.87s/it]                                                                                                                                                        {'loss': 1.3642, 'grad_norm': 0.6805768609046936, 'learning_rate': 3.2938662507808745e-12, 'beta_dpo/gap_mean': 27.429988861083984, 'beta_dpo/gap_std': 24.85990333557129, 'beta_dpo/beta_used_raw': -0.19943192601203918, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.4662553071975708, 'logits/rejected': -1.3521288633346558, 'epoch': 1.0}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [48:51<00:00,  2.87s/it][INFO|trainer.py:3984] 2026-04-24 02:40:53,851 >> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681
[INFO|configuration_utils.py:419] 2026-04-24 02:40:53,857 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681/config.json
[INFO|configuration_utils.py:911] 2026-04-24 02:40:53,862 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-24 02:41:33,164 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-24 02:41:33,167 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-24 02:41:33,169 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681/special_tokens_map.json
[INFO|trainer.py:4083] 2026-04-24 02:44:37,665 >> Deleting older checkpoint [/scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400] due to args.save_total_limit
[INFO|trainer.py:2681] 2026-04-24 02:44:39,920 >> 

Training completed. Do not forget to share your model on huggingface.co/models =)


                                                                                                                                                        {'train_runtime': 3178.2358, 'train_samples_per_second': 13.718, 'train_steps_per_second': 0.214, 'train_loss': 0.9969710769807365, 'epoch': 1.0}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [52:52<00:00,  2.87s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [52:52<00:00,  4.66s/it]
***** train metrics *****
  epoch                    =        1.0
  total_flos               =        0GF
  train_loss               =      0.997
  train_runtime            = 0:52:58.23
  train_samples            =      43598
  train_samples_per_second =     13.718
  train_steps_per_second   =      0.214
2026-04-24 02:44:39 - INFO - __main__ - *** Training complete ***
2026-04-24 02:44:39 - INFO - __main__ - *** Save model ***
[INFO|configuration_utils.py:419] 2026-04-24 02:44:56,882 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/config.json
[INFO|configuration_utils.py:911] 2026-04-24 02:44:56,892 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/generation_config.json
[INFO|modeling_utils.py:3580] 2026-04-24 02:45:41,249 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 7 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2510] 2026-04-24 02:45:41,252 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/tokenizer_config.json
[INFO|tokenization_utils_base.py:2519] 2026-04-24 02:45:41,254 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/special_tokens_map.json
2026-04-24 02:45:41 - INFO - __main__ - Saved HF-compatible model artifacts to /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732
[INFO|modelcard.py:450] 2026-04-24 02:45:41,582 >> Dropping the following result as it does not have all the necessary fields:
{'dataset': {'name': 'Anthropic/hh-rlhf', 'type': 'Anthropic/hh-rlhf'}}
[INFO|configuration_utils.py:419] 2026-04-24 02:45:41,589 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/config.json
2026-04-24 02:45:41 - INFO - __main__ - *** Evaluate ***
[INFO|trainer.py:4307] 2026-04-24 02:45:41,590 >> 
***** Running Evaluation *****
[INFO|trainer.py:4309] 2026-04-24 02:45:41,590 >>   Num examples = 2339
[INFO|trainer.py:4312] 2026-04-24 02:45:41,590 >>   Batch size = 8
  0%|                                                                                                                            | 0/73 [00:00<?, ?it/s]  3%|███▏                                                                                                                | 2/73 [00:00<00:21,  3.34it/s]  4%|████▊                                                                                                               | 3/73 [00:01<00:29,  2.37it/s]  5%|██████▎                                                                                                             | 4/73 [00:01<00:33,  2.07it/s]  7%|███████▉                                                                                                            | 5/73 [00:02<00:35,  1.94it/s]  8%|█████████▌                                                                                                          | 6/73 [00:02<00:36,  1.83it/s] 10%|███████████                                                                                                         | 7/73 [00:03<00:35,  1.88it/s] 11%|████████████▋                                                                                                       | 8/73 [00:04<00:36,  1.76it/s] 12%|██████████████▎                                                                                                     | 9/73 [00:04<00:37,  1.69it/s] 14%|███████████████▊                                                                                                   | 10/73 [00:05<00:37,  1.67it/s] 15%|█████████████████▎                                                                                                 | 11/73 [00:05<00:36,  1.68it/s] 16%|██████████████████▉                                                                                                | 12/73 [00:06<00:36,  1.65it/s] 18%|████████████████████▍                                                                                              | 13/73 [00:07<00:35,  1.68it/s] 19%|██████████████████████                                                                                             | 14/73 [00:07<00:35,  1.66it/s] 21%|███████████████████████▋                                                                                           | 15/73 [00:08<00:34,  1.66it/s] 22%|█████████████████████████▏                                                                                         | 16/73 [00:09<00:35,  1.61it/s] 23%|██████████████████████████▊                                                                                        | 17/73 [00:09<00:35,  1.59it/s] 25%|████████████████████████████▎                                                                                      | 18/73 [00:10<00:34,  1.58it/s] 26%|█████████████████████████████▉                                                                                     | 19/73 [00:10<00:34,  1.56it/s] 27%|███████████████████████████████▌                                                                                   | 20/73 [00:11<00:34,  1.55it/s] 29%|█████████████████████████████████                                                                                  | 21/73 [00:12<00:33,  1.54it/s] 30%|██████████████████████████████████▋                                                                                | 22/73 [00:12<00:33,  1.53it/s] 32%|████████████████████████████████████▏                                                                              | 23/73 [00:13<00:32,  1.56it/s] 33%|█████████████████████████████████████▊                                                                             | 24/73 [00:14<00:31,  1.58it/s] 34%|███████████████████████████████████████▍                                                                           | 25/73 [00:14<00:30,  1.59it/s] 36%|████████████████████████████████████████▉                                                                          | 26/73 [00:15<00:29,  1.60it/s] 37%|██████████████████████████████████████████▌                                                                        | 27/73 [00:15<00:25,  1.77it/s] 38%|████████████████████████████████████████████                                                                       | 28/73 [00:16<00:26,  1.72it/s] 40%|█████████████████████████████████████████████▋                                                                     | 29/73 [00:17<00:25,  1.74it/s] 41%|███████████████████████████████████████████████▎                                                                   | 30/73 [00:17<00:24,  1.76it/s] 42%|████████████████████████████████████████████████▊                                                                  | 31/73 [00:18<00:24,  1.69it/s] 44%|██████████████████████████████████████████████████▍                                                                | 32/73 [00:18<00:23,  1.72it/s] 45%|███████████████████████████████████████████████████▉                                                               | 33/73 [00:19<00:22,  1.74it/s] 47%|█████████████████████████████████████████████████████▌                                                             | 34/73 [00:19<00:22,  1.71it/s] 48%|███████████████████████████████████████████████████████▏                                                           | 35/73 [00:20<00:23,  1.63it/s] 49%|████████████████████████████████████████████████████████▋                                                          | 36/73 [00:21<00:22,  1.64it/s] 51%|██████████████████████████████████████████████████████████▎                                                        | 37/73 [00:21<00:22,  1.63it/s] 52%|███████████████████████████████████████████████████████████▊                                                       | 38/73 [00:22<00:20,  1.71it/s] 53%|█████████████████████████████████████████████████████████████▍                                                     | 39/73 [00:23<00:20,  1.64it/s] 55%|███████████████████████████████████████████████████████████████                                                    | 40/73 [00:23<00:19,  1.66it/s] 56%|████████████████████████████████████████████████████████████████▌                                                  | 41/73 [00:24<00:18,  1.72it/s] 58%|██████████████████████████████████████████████████████████████████▏                                                | 42/73 [00:24<00:18,  1.67it/s] 59%|███████████████████████████████████████████████████████████████████▋                                               | 43/73 [00:25<00:17,  1.70it/s] 60%|█████████████████████████████████████████████████████████████████████▎                                             | 44/73 [00:25<00:17,  1.68it/s] 62%|██████████████████████████████████████████████████████████████████████▉                                            | 45/73 [00:26<00:17,  1.61it/s] 63%|████████████████████████████████████████████████████████████████████████▍                                          | 46/73 [00:27<00:16,  1.68it/s] 64%|██████████████████████████████████████████████████████████████████████████                                         | 47/73 [00:27<00:15,  1.65it/s] 66%|███████████████████████████████████████████████████████████████████████████▌                                       | 48/73 [00:28<00:15,  1.64it/s] 67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 49/73 [00:29<00:14,  1.63it/s] 68%|██████████████████████████████████████████████████████████████████████████████▊                                    | 50/73 [00:29<00:14,  1.64it/s] 70%|████████████████████████████████████████████████████████████████████████████████▎                                  | 51/73 [00:30<00:13,  1.62it/s] 71%|█████████████████████████████████████████████████████████████████████████████████▉                                 | 52/73 [00:30<00:13,  1.59it/s] 73%|███████████████████████████████████████████████████████████████████████████████████▍                               | 53/73 [00:31<00:12,  1.56it/s] 74%|█████████████████████████████████████████████████████████████████████████████████████                              | 54/73 [00:32<00:11,  1.66it/s] 75%|██████████████████████████████████████████████████████████████████████████████████████▋                            | 55/73 [00:32<00:10,  1.64it/s] 77%|████████████████████████████████████████████████████████████████████████████████████████▏                          | 56/73 [00:33<00:10,  1.68it/s] 78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 57/73 [00:33<00:09,  1.62it/s] 79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 58/73 [00:34<00:08,  1.69it/s] 81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 59/73 [00:35<00:08,  1.68it/s] 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 60/73 [00:35<00:07,  1.65it/s] 84%|████████████████████████████████████████████████████████████████████████████████████████████████                   | 61/73 [00:36<00:07,  1.64it/s] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 62/73 [00:36<00:06,  1.65it/s] 86%|███████████████████████████████████████████████████████████████████████████████████████████████████▏               | 63/73 [00:37<00:05,  1.74it/s] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 64/73 [00:38<00:05,  1.77it/s] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 65/73 [00:38<00:04,  1.74it/s] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 66/73 [00:39<00:04,  1.67it/s] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 67/73 [00:39<00:03,  1.70it/s] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 68/73 [00:40<00:02,  1.67it/s] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 69/73 [00:41<00:02,  1.64it/s] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 70/73 [00:41<00:01,  1.63it/s] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 71/73 [00:42<00:01,  1.63it/s] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 72/73 [00:42<00:00,  1.63it/s]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.77it/s]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 73/73 [00:43<00:00,  1.68it/s]
***** eval metrics *****
  epoch                        =        1.0
  eval_beta_dpo/beta_used      =     0.0128
  eval_beta_dpo/beta_used_raw  =    -0.3398
  eval_beta_dpo/gap_mean       =    27.2357
  eval_beta_dpo/gap_std        =    24.9926
  eval_beta_dpo/mask_keep_frac =        1.0
  eval_logits/chosen           =    -1.7003
  eval_logits/rejected         =    -1.3726
  eval_loss                    =     0.6577
  eval_runtime                 = 0:00:44.02
  eval_samples                 =       2339
  eval_samples_per_second      =     53.132
  eval_steps_per_second        =      1.681
2026-04-24 02:46:25 - INFO - __main__ - *** Training complete! ***
wandb: - 0.014 MB of 0.014 MB uploadedwandb: \ 0.014 MB of 0.014 MB uploadedwandb: | 0.014 MB of 0.014 MB uploadedwandb: / 0.048 MB of 0.279 MB uploadedwandb: - 0.280 MB of 0.280 MB uploadedwandb: 
wandb: Run history:
wandb:       eval/beta_dpo/beta_used ▇▅▃▁█▅▂
wandb:   eval/beta_dpo/beta_used_raw █▆▄▁▅▃▁
wandb:        eval/beta_dpo/gap_mean ▁▄▆▇▇██
wandb:         eval/beta_dpo/gap_std ▁▄▆▇██▇
wandb:  eval/beta_dpo/mask_keep_frac ▁▁▁▁▁▁▁
wandb:            eval/logits/chosen █▄▂▂▁▂▁
wandb:          eval/logits/rejected █▃▂▂▁▂▁
wandb:                     eval/loss ▅▁▇█▁▅▇
wandb:                  eval/runtime █▄█▇█▅▁
wandb:       eval/samples_per_second ▁▅▁▂▁▄█
wandb:         eval/steps_per_second ▁▅▁▂▁▃█
wandb:      train/beta_dpo/beta_used ▃▃▃▃▃▃▃▁▁▄▄▁▄▁▁▄▅▂▆▃▂▅▃▃█▄▃▅▂▄▅▄▃▂▁▄▆█▂▁
wandb:  train/beta_dpo/beta_used_raw ▄▄▄▄▄▄▄▃▂▅▅▃▅▃▁▅▆▃▆▄▃▆▄▄█▅▄▆▂▅▆▃▄▃▁▆▆▇▃▂
wandb:       train/beta_dpo/gap_mean ▁▁▁▁▁▂▂▃▃▄▄▄▄▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇█▇▇▇█████▇▇█
wandb:        train/beta_dpo/gap_std ▁▁▁▁▂▂▃▄▄▅▅▅▅▅▆▆▆▆▆▆▆▆▇▇▇█▇▇▇█▇▇███████▇
wandb: train/beta_dpo/mask_keep_frac ▄▅▅▅▅▅▆▅▄█▅▅▅▃▅▄▃▅▃▅▃▃▄▅▅▄▅▅▄▅▄▅▆▆▄▅▅▅▁▅
wandb:                   train/epoch ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
wandb:             train/global_step ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
wandb:               train/grad_norm ▄▄▃▃▃▃▃▂▁▄▃▁▄▂▁▄▆▂▅▄▂▅▄▄█▇▄▄▂▃▃▅▇▃▂▆▅▁▂▂
wandb:           train/learning_rate ▂▃▅▇██████▇▇▇▇▇▆▆▆▆▅▅▅▄▄▄▄▃▃▃▂▂▂▂▂▁▁▁▁▁▁
wandb:           train/logits/chosen ▇██▆▇▆▄▄▄▃▅▅▃▅▃▂▂▂▃▅▂▄▃▁▂▄▃▃▄▂▃▂▃▃▄▄▄▅▃▃
wandb:         train/logits/rejected ▇██▇▇▆▅▄▅▄▆▅▄▆▃▃▁▃▄▅▃▄▂▂▃▅▃▅▄▃▄▃▃▄▄▅▆▆▂▃
wandb:                    train/loss ███▇▇▆▆▇█▄▃█▁▆█▂▁▅▁▄▅▁▄▃▂▃▄▃▅▂▁▄▆▅▆▄▃▃▅▆
wandb: 
wandb: Run summary:
wandb:       eval/beta_dpo/beta_used 0.01285
wandb:   eval/beta_dpo/beta_used_raw -0.33979
wandb:        eval/beta_dpo/gap_mean 27.23572
wandb:         eval/beta_dpo/gap_std 24.99256
wandb:  eval/beta_dpo/mask_keep_frac 1.0
wandb:            eval/logits/chosen -1.70028
wandb:          eval/logits/rejected -1.37259
wandb:                     eval/loss 0.65766
wandb:                  eval/runtime 44.0223
wandb:       eval/samples_per_second 53.132
wandb:         eval/steps_per_second 1.681
wandb:                    total_flos 0.0
wandb:      train/beta_dpo/beta_used 0.001
wandb:  train/beta_dpo/beta_used_raw -0.19943
wandb:       train/beta_dpo/gap_mean 27.42999
wandb:        train/beta_dpo/gap_std 24.8599
wandb: train/beta_dpo/mask_keep_frac 0.75
wandb:                   train/epoch 1.0
wandb:             train/global_step 681
wandb:               train/grad_norm 0.68058
wandb:           train/learning_rate 0.0
wandb:           train/logits/chosen -1.46626
wandb:         train/logits/rejected -1.35213
wandb:                    train/loss 1.3642
wandb:                    train_loss 0.99697
wandb:                 train_runtime 3178.2358
wandb:      train_samples_per_second 13.718
wandb:        train_steps_per_second 0.214
wandb: 
wandb: 🚀 View run qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732 at: https://wandb.ai/feng-cheng-northeastern-university/qwen3_hh_4xh200_beta_0.1/runs/h8yq1jx1
wandb: ⭐️ View project at: https://wandb.ai/feng-cheng-northeastern-university/qwen3_hh_4xh200_beta_0.1
wandb: Synced 6 W&B file(s), 0 media file(s), 2 artifact file(s) and 0 other file(s)
wandb: Find logs at: /scratch/qu.yang1/wandb/wandb/run-20260424_015143-h8yq1jx1/logs
wandb: WARNING The new W&B backend becomes opt-out in version 0.18.0; try it out with `wandb.require("core")`! See https://wandb.me/wandb-core for more information.