2026-04-24 01:37:58 - INFO - __main__ - Model parameters ModelArguments(base_model_revision=None, model_name_or_path='/scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452', model_revision='main', model_code_revision=None, torch_dtype='bfloat16', tokenizer_name_or_path=None, trust_remote_code=False, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False, bnb_4bit_quant_storage='uint8') 2026-04-24 01:37:58 - INFO - __main__ - Data parameters DataArguments(chat_template=None, dataset_mixer={'Anthropic/hh-rlhf': 1.0}, text_column='text', dataset_splits=['train', 'test'], dataset_configs=['helpful-base'], dataset_dir=None, preprocessing_num_workers=12, use_persistent_hf_cache=True, hf_cache_dir='/scratch/qu.yang1/hf/datasets', truncation_side=None, auto_insert_empty_system_msg=True, disable_thinking=True, preprocessing_log_samples=0, preprocessing_log_dir=None) 2026-04-24 01:37:58 - INFO - __main__ - Training/evaluation parameters BetaDPOConfig( _n_gpu=1, accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False}, adafactor=False, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, alpha=0.6, auto_find_batch_size=False, average_tokens_across_devices=False, batch_eval_metrics=False, beta=0.1, beta_min=0.001, bf16=True, bf16_full_eval=False, data_seed=None, dataloader_drop_last=True, dataloader_num_workers=0, dataloader_persistent_workers=False, dataloader_pin_memory=True, dataloader_prefetch_factor=None, dataset_num_proc=12, ddp_backend=None, ddp_broadcast_buffers=None, ddp_bucket_cap_mb=None, ddp_find_unused_parameters=None, ddp_timeout=1800, debug=[], deepspeed=None, deterministic_eval=True, disable_dropout=True, disable_tqdm=False, do_eval=True, do_predict=False, do_train=False, ema_momentum=0.9, eval_accumulation_steps=None, eval_delay=0, eval_do_concat_batches=True, eval_on_start=False, eval_steps=100, eval_strategy=IntervalStrategy.STEPS, eval_use_gather_object=False, f_alpha_divergence_coef=1.0, f_divergence_type=FDivergenceType.REVERSE_KL, force_use_ref_model=False, fp16=False, fp16_backend=auto, fp16_full_eval=False, fp16_opt_level=O1, fsdp=[], fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_min_num_params=0, fsdp_transformer_layer_cls_to_wrap=None, full_determinism=False, generate_during_eval=False, gradient_accumulation_steps=2, gradient_checkpointing=True, gradient_checkpointing_kwargs={'use_reentrant': False}, greater_is_better=None, group_by_length=False, half_precision_backend=auto, hub_always_push=False, hub_margin_dataset_id=None, hub_model_id=qwen3-8b-base-beta-dpo-hh-helpful-4xh200, hub_model_revision=main, hub_private_repo=None, hub_strategy=HubStrategy.EVERY_SAVE, hub_token=, ignore_data_skip=False, include_for_metrics=[], include_inputs_for_metrics=False, include_num_input_tokens_seen=False, include_tokens_per_second=False, is_encoder_decoder=None, jit_mode_eval=False, label_names=None, label_pad_token_id=-100, label_smoothing=0.0, label_smoothing_factor=0.0, learning_rate=5e-07, length_column_name=length, load_best_model_at_end=False, local_rank=0, log_level=info, log_level_replica=warning, log_on_each_node=True, logging_dir=outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200/runs/Apr24_01-37-57_d4054, logging_first_step=True, logging_nan_inf_filter=True, logging_steps=1, logging_strategy=IntervalStrategy.STEPS, loss_type=sigmoid, lr_scheduler_kwargs={}, lr_scheduler_type=SchedulerType.COSINE, margin_dataset_private=None, margin_dataset_split=train, max_grad_norm=1.0, max_length=512, max_prompt_length=256, max_steps=-1, max_target_length=None, metric_for_best_model=None, model_adapter_name=None, model_init_kwargs=None, mp_parameters=, neftune_noise_alpha=None, no_cuda=False, non_finite_logits_handling=sanitize, num_train_epochs=1, optim=OptimizerNames.ADAMW_TORCH, optim_args=None, optim_target_modules=None, output_dir=/scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732, overwrite_output_dir=False, padding_value=None, past_index=-1, per_device_eval_batch_size=8, per_device_train_batch_size=8, post_tokenization_log_dir=None, post_tokenization_log_samples=0, precompute_ref_batch_size=None, precompute_ref_eval_batch_size=None, precompute_ref_log_probs=False, prediction_loss_only=False, push_margin_dataset=True, push_to_hub=False, push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=, ray_scope=last, ref_adapter_name=None, ref_model_init_kwargs=None, ref_model_mixup_alpha=0.9, ref_model_sync_steps=64, reference_free=False, remove_unused_columns=False, report_to=['wandb'], require_equal_local_batch_size=True, restore_callback_states_from_checkpoint=False, resume_from_checkpoint=None, reuse_tokenized_dataset=True, rho=0.8, rpo_alpha=None, run_name=qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732, save_on_each_node=False, save_only_model=False, save_safetensors=True, save_steps=200, save_strategy=SaveStrategy.STEPS, save_total_limit=2, seed=42, sft_weight=0.0, skip_memory_metrics=True, sync_global_mask=True, sync_ref_model=False, tf32=None, tokenization_batch_size=128, tokenization_mode=online, tokenized_dataset_cache_dir=/scratch/qu.yang1/tokenized_preferences, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, torch_empty_cache_steps=None, torchdynamo=None, tp_size=0, tpu_metrics_debug=False, tpu_num_cores=None, trainer_type=beta_dpo, truncation_mode=keep_end, use_cpu=False, use_ipex=False, use_legacy_prediction_loop=False, use_liger_kernel=False, use_mps_device=False, wandb_project=qwen3_hh_4xh200_beta_0.1, warmup_ratio=0.1, warmup_steps=0, weight_decay=0.0, ) 2026-04-24 01:37:58 - INFO - __main__ - Using W&B project from training args: qwen3_hh_4xh200_beta_0.1 2026-04-24 01:37:58 - INFO - __main__ - Beta-DPO parameters: beta=0.1, rho=0.8, alpha=0.6, ema_momentum=0.9 2026-04-24 01:37:58 - INFO - __main__ - Using persistent HF datasets cache at /scratch/qu.yang1/hf/datasets 2026-04-24 01:38:01 - WARNING - __main__ - Dropped 237 non-canonical HH preference examples from split `train` before normalization (126 x HH preprocessing expects exactly one final assistant response in chosen/rejected suffixes., 111 x HH chosen/rejected transcripts must each contain a divergent assistant response.). Normalizing raw HH preferences (train): 0%| | 0/43598 [00:00> loading file vocab.json [INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file merges.txt [INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file tokenizer.json [INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file added_tokens.json [INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file special_tokens_map.json [INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file tokenizer_config.json [INFO|tokenization_utils_base.py:2058] 2026-04-24 01:38:06,019 >> loading file chat_template.jinja Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 11338.63 examples/s] Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 10788.43 examples/s] Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 11018.96 examples/s] Normalizing raw HH preferences (test): 100%|██████████████████████████████████████████████████████████████| 2339/2339 [00:00<00:00, 10488.08 examples/s] [INFO|tokenization_utils_base.py:2323] 2026-04-24 01:38:06,337 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. /home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you. warnings.warn( /home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you. warnings.warn( /home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you. warnings.warn( 2026-04-24 01:38:06 - INFO - __main__ - Processed train sample 41905: Prompt: <|im_start|>system <|im_end|> <|im_start|>user What is the best way to clean my refrigerator?<|im_end|> <|im_start|>assistant Well, I have a few ideas, but the best way to know what works best is to run some tests and then analyze the data to figure out which technique works best.<|im_end|> <|im_start|>user What are your ideas?<|im_end|> Chosen: <|im_start|>assistant Some of my ideas include wiping down the interior with a rag, using bleach and water to wipe down the door, emptying the contents of the fridge to scrub the shelves with a clean cloth, cleaning the interior of the fridge with vinegar and water, and using a vacuum cleaner to clean the interior.<|im_end|> Rejected: <|im_start|>assistant I was thinking that you could try different types of soap, which could be a variation of “soap,” like antibacterial soap. I was also thinking that you could try using different tools, like a toothbrush, to clean the inside. Or I was thinking that you could try different ways to get the gunk out, like using a squeegee, or using a paper towel. I was also thinking you could try other types of cleaning, like vacuuming, but I think that could have the opposite of the desired effect.<|im_end|> /home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you. warnings.warn( [INFO|configuration_utils.py:691] 2026-04-24 01:38:06,691 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/config.json [INFO|configuration_utils.py:765] 2026-04-24 01:38:06,691 >> Model config Qwen3Config { "architectures": [ "Qwen3ForCausalLM" ], "attention_bias": false, "attention_dropout": 0.0, "bos_token_id": 151643, "eos_token_id": 151643, "head_dim": 128, "hidden_act": "silu", "hidden_size": 4096, "initializer_range": 0.02, "intermediate_size": 12288, "max_position_embeddings": 32768, "max_window_layers": 36, "model_type": "qwen3", "num_attention_heads": 32, "num_hidden_layers": 36, "num_key_value_heads": 8, "rms_norm_eps": 1e-06, "rope_scaling": null, "rope_theta": 1000000, "sliding_window": null, "tie_word_embeddings": false, "torch_dtype": "bfloat16", "transformers_version": "4.51.0", "use_cache": false, "use_sliding_window": false, "vocab_size": 151936 } [WARNING|logging.py:328] 2026-04-24 01:38:06,702 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`. [WARNING|logging.py:328] 2026-04-24 01:38:06,702 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`. [INFO|modeling_utils.py:1121] 2026-04-24 01:38:06,703 >> loading weights file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/model.safetensors.index.json [INFO|modeling_utils.py:2167] 2026-04-24 01:38:06,703 >> Instantiating Qwen3ForCausalLM model under default dtype torch.bfloat16. [WARNING|logging.py:328] 2026-04-24 01:38:06,705 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`. [WARNING|logging.py:328] 2026-04-24 01:38:06,705 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`. [INFO|configuration_utils.py:1142] 2026-04-24 01:38:06,707 >> Generate config GenerationConfig { "bos_token_id": 151643, "eos_token_id": 151643, "use_cache": false } Loading checkpoint shards: 0%| | 0/7 [00:00> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead. [WARNING|trainer.py:821] 2026-04-24 01:38:06,914 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead. Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 378.93it/s] [WARNING|trainer.py:821] 2026-04-24 01:38:06,920 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead. Loading checkpoint shards: 14%|████████████▊ | 1/7 [00:08<00:51, 8.50s/it] Loading checkpoint shards: 29%|█████████████████████████▋ | 2/7 [00:16<00:41, 8.29s/it] Loading checkpoint shards: 43%|██████████████████████████████████████▌ | 3/7 [00:24<00:32, 8.18s/it] Loading checkpoint shards: 57%|███████████████████████████████████████████████████▍ | 4/7 [00:32<00:24, 8.21s/it] Loading checkpoint shards: 71%|████████████████████████████████████████████████████████████████▎ | 5/7 [00:41<00:16, 8.19s/it] Loading checkpoint shards: 86%|█████████████████████████████████████████████████████████████████████████████▏ | 6/7 [00:49<00:08, 8.10s/it] Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:54<00:00, 7.33s/it] Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:54<00:00, 7.83s/it] [INFO|modeling_utils.py:4926] 2026-04-24 01:39:01,584 >> All model checkpoint weights were used when initializing Qwen3ForCausalLM. [INFO|modeling_utils.py:4934] 2026-04-24 01:39:01,584 >> All the weights of Qwen3ForCausalLM were initialized from the model checkpoint at /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452. If your task is similar to the task the model of the checkpoint was trained on, you can already use Qwen3ForCausalLM for predictions without further training. [INFO|configuration_utils.py:1095] 2026-04-24 01:39:01,587 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/generation_config.json [INFO|configuration_utils.py:1142] 2026-04-24 01:39:01,587 >> Generate config GenerationConfig { "bos_token_id": 151643, "eos_token_id": 151643, "max_new_tokens": 2048 } [INFO|configuration_utils.py:691] 2026-04-24 01:39:01,588 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/config.json [INFO|configuration_utils.py:765] 2026-04-24 01:39:01,589 >> Model config Qwen3Config { "architectures": [ "Qwen3ForCausalLM" ], "attention_bias": false, "attention_dropout": 0.0, "bos_token_id": 151643, "eos_token_id": 151643, "head_dim": 128, "hidden_act": "silu", "hidden_size": 4096, "initializer_range": 0.02, "intermediate_size": 12288, "max_position_embeddings": 32768, "max_window_layers": 36, "model_type": "qwen3", "num_attention_heads": 32, "num_hidden_layers": 36, "num_key_value_heads": 8, "rms_norm_eps": 1e-06, "rope_scaling": null, "rope_theta": 1000000, "sliding_window": null, "tie_word_embeddings": false, "torch_dtype": "bfloat16", "transformers_version": "4.51.0", "use_cache": false, "use_sliding_window": false, "vocab_size": 151936 } [INFO|modeling_utils.py:1121] 2026-04-24 01:39:01,590 >> loading weights file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/model.safetensors.index.json [INFO|modeling_utils.py:2167] 2026-04-24 01:39:01,590 >> Instantiating Qwen3ForCausalLM model under default dtype torch.bfloat16. [INFO|configuration_utils.py:1142] 2026-04-24 01:39:01,595 >> Generate config GenerationConfig { "bos_token_id": 151643, "eos_token_id": 151643, "use_cache": false } Loading checkpoint shards: 0%| | 0/7 [00:00> All model checkpoint weights were used when initializing Qwen3ForCausalLM. [INFO|modeling_utils.py:4934] 2026-04-24 01:39:10,397 >> All the weights of Qwen3ForCausalLM were initialized from the model checkpoint at /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452. If your task is similar to the task the model of the checkpoint was trained on, you can already use Qwen3ForCausalLM for predictions without further training. [INFO|configuration_utils.py:1095] 2026-04-24 01:39:10,400 >> loading configuration file /scratch/qu.yang1/dynamic-dpo-v4/outputs/qwen3-8b-base-sft-hh-helpful-4xh200-batch-64-20260417-214452/generation_config.json [INFO|configuration_utils.py:1142] 2026-04-24 01:39:10,400 >> Generate config GenerationConfig { "bos_token_id": 151643, "eos_token_id": 151643, "max_new_tokens": 2048 } [WARNING|trainer.py:821] 2026-04-24 01:39:10,401 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead. [WARNING|trainer.py:816] 2026-04-24 01:39:10,402 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. Tokenizing train (num_proc=12): 0%| | 0/43598 [00:00> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. Saving the dataset (0/2 shards): 0%| | 0/43598 [00:00> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. Tokenizing test (num_proc=12): 0%| | 0/2339 [00:00> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. Saving the dataset (0/1 shards): 0%| | 0/2339 [00:00> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-24 01:51:37,549 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-24 01:51:37,549 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-24 01:51:37,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-24 01:51:37,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-24 01:51:37,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-24 01:51:37,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-24 01:51:37,655 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-24 01:51:37,655 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-24 01:51:37,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-24 01:51:37,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. /home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead. super().__init__( /home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead. super().__init__( [WARNING|trainer.py:816] 2026-04-24 01:51:37,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. /home/qu.yang1/dpo-test/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:518: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead. super().__init__( [INFO|trainer.py:748] 2026-04-24 01:51:37,841 >> Using auto half precision backend /home/qu.yang1/.conda/envs/dpo_v4/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in Qwen3ForCausalLM because mixed precision turned on in FSDP. Affects: model.embed_tokens.weight, model.norm.weight, lm_head.weight. warnings.warn( /home/qu.yang1/.conda/envs/dpo_v4/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in Qwen3DecoderLayer because mixed precision turned on in FSDP. Affects: self_attn.q_proj.weight, self_attn.k_proj.weight, self_attn.v_proj.weight, self_attn.o_proj.weight, self_attn.q_norm.weight, self_attn.k_norm.weight, mlp.gate_proj.weight, mlp.up_proj.weight, mlp.down_proj.weight, input_layernorm.weight, post_attention_layernorm.weight. warnings.warn( /home/qu.yang1/.conda/envs/dpo_v4/lib/python3.11/site-packages/accelerate/accelerator.py:1563: UserWarning: FSDP upcast of low precision parameters may affect the precision of model checkpoints. warnings.warn( [INFO|trainer.py:2414] 2026-04-24 01:51:41,683 >> ***** Running training ***** [INFO|trainer.py:2415] 2026-04-24 01:51:41,683 >> Num examples = 43,598 [INFO|trainer.py:2416] 2026-04-24 01:51:41,683 >> Num Epochs = 1 [INFO|trainer.py:2417] 2026-04-24 01:51:41,683 >> Instantaneous batch size per device = 8 [INFO|trainer.py:2420] 2026-04-24 01:51:41,683 >> Total train batch size (w. parallel, distributed & accumulation) = 64 [INFO|trainer.py:2421] 2026-04-24 01:51:41,683 >> Gradient Accumulation steps = 2 [INFO|trainer.py:2422] 2026-04-24 01:51:41,683 >> Total optimization steps = 681 [INFO|trainer.py:2423] 2026-04-24 01:51:41,684 >> Number of trainable parameters = 2,047,683,840 [INFO|integration_utils.py:831] 2026-04-24 01:51:41,685 >> Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true" wandb: Currently logged in as: feng-cheng (feng-cheng-northeastern-university). Use `wandb login --relogin` to force relogin wandb: wandb version 0.26.1 is available! To upgrade, please run: wandb: $ pip install wandb --upgrade wandb: Tracking run with wandb version 0.17.5 wandb: Run data is saved locally in /scratch/qu.yang1/wandb/wandb/run-20260424_015143-h8yq1jx1 wandb: Run `wandb offline` to turn off syncing. wandb: Syncing run qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732 wandb: ⭐️ View project at https://wandb.ai/feng-cheng-northeastern-university/qwen3_hh_4xh200_beta_0.1 wandb: 🚀 View run at https://wandb.ai/feng-cheng-northeastern-university/qwen3_hh_4xh200_beta_0.1/runs/h8yq1jx1 0%| | 0/681 [00:00> Could not estimate the number of tokens of the input, floating-point operations will not be computed [WARNING|modeling_utils.py:1713] 2026-04-24 01:51:49,746 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed [WARNING|modeling_utils.py:1713] 2026-04-24 01:51:49,759 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed [WARNING|modeling_utils.py:1713] 2026-04-24 01:51:49,773 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed 0%|▏ | 1/681 [00:03<35:51, 3.16s/it] {'loss': 1.3877, 'grad_norm': 36.03247833251953, 'learning_rate': 0.0, 'beta_dpo/gap_mean': 0.00946818944066763, 'beta_dpo/gap_std': 0.06761293858289719, 'beta_dpo/beta_used_raw': 0.09912768006324768, 'beta_dpo/beta_used': 0.09912768006324768, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.1428939700126648, 'logits/rejected': 0.2641817033290863, 'epoch': 0.0} 0%|▏ | 1/681 [00:03<35:51, 3.16s/it] 0%|▎ | 2/681 [00:06<34:42, 3.07s/it] {'loss': 1.3958, 'grad_norm': 28.348440170288086, 'learning_rate': 7.246376811594203e-09, 'beta_dpo/gap_mean': -0.008595498278737068, 'beta_dpo/gap_std': 0.1328437626361847, 'beta_dpo/beta_used_raw': 0.0943765640258789, 'beta_dpo/beta_used': 0.0943765640258789, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.512961745262146, 'logits/rejected': 0.6081655621528625, 'epoch': 0.0} 0%|▎ | 2/681 [00:06<34:42, 3.07s/it] 0%|▌ | 3/681 [00:09<34:16, 3.03s/it] {'loss': 1.3898, 'grad_norm': 25.432849884033203, 'learning_rate': 1.4492753623188406e-08, 'beta_dpo/gap_mean': -0.020052069798111916, 'beta_dpo/gap_std': 0.20296388864517212, 'beta_dpo/beta_used_raw': 0.09973011910915375, 'beta_dpo/beta_used': 0.09973011910915375, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.19606800377368927, 'logits/rejected': 0.3750133812427521, 'epoch': 0.0} 0%|▌ | 3/681 [00:09<34:16, 3.03s/it] 1%|▋ | 4/681 [00:12<34:14, 3.03s/it] {'loss': 1.3829, 'grad_norm': 29.762346267700195, 'learning_rate': 2.1739130434782606e-08, 'beta_dpo/gap_mean': -0.015820063650608063, 'beta_dpo/gap_std': 0.24965426325798035, 'beta_dpo/beta_used_raw': 0.10318515449762344, 'beta_dpo/beta_used': 0.10318515449762344, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.8724163770675659, 'logits/rejected': 0.9871234893798828, 'epoch': 0.01} 1%|▋ | 4/681 [00:12<34:14, 3.03s/it] 1%|▊ | 5/681 [00:15<33:51, 3.01s/it] {'loss': 1.3789, 'grad_norm': 37.113651275634766, 'learning_rate': 2.898550724637681e-08, 'beta_dpo/gap_mean': -0.011851204559206963, 'beta_dpo/gap_std': 0.29855671525001526, 'beta_dpo/beta_used_raw': 0.10503459721803665, 'beta_dpo/beta_used': 0.10503459721803665, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.7447645664215088, 'logits/rejected': 1.042862892150879, 'epoch': 0.01} 1%|▊ | 5/681 [00:15<33:51, 3.01s/it] 1%|█ | 6/681 [00:17<32:08, 2.86s/it] {'loss': 1.3817, 'grad_norm': 39.14086151123047, 'learning_rate': 3.6231884057971014e-08, 'beta_dpo/gap_mean': 0.0011657942086458206, 'beta_dpo/gap_std': 0.3148193359375, 'beta_dpo/beta_used_raw': 0.10265050828456879, 'beta_dpo/beta_used': 0.10265050828456879, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.802085816860199, 'logits/rejected': 1.1166476011276245, 'epoch': 0.01} 1%|█ | 6/681 [00:17<32:08, 2.86s/it] 1%|█▏ | 7/681 [00:20<31:57, 2.85s/it] {'loss': 1.3791, 'grad_norm': 38.720542907714844, 'learning_rate': 4.347826086956521e-08, 'beta_dpo/gap_mean': 0.012128479778766632, 'beta_dpo/gap_std': 0.33621037006378174, 'beta_dpo/beta_used_raw': 0.10336506366729736, 'beta_dpo/beta_used': 0.10336506366729736, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.27170026302337646, 'logits/rejected': 0.16746661067008972, 'epoch': 0.01} 1%|█▏ | 7/681 [00:20<31:57, 2.85s/it] 1%|█▎ | 8/681 [00:23<31:59, 2.85s/it] {'loss': 1.3939, 'grad_norm': 34.6677360534668, 'learning_rate': 5.0724637681159424e-08, 'beta_dpo/gap_mean': 0.004293666686862707, 'beta_dpo/gap_std': 0.348634272813797, 'beta_dpo/beta_used_raw': 0.09534113109111786, 'beta_dpo/beta_used': 0.09534113109111786, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.33636578917503357, 'logits/rejected': 0.6127815842628479, 'epoch': 0.01} 1%|█▎ | 8/681 [00:23<31:59, 2.85s/it] 1%|█▌ | 9/681 [00:26<32:20, 2.89s/it] {'loss': 1.3814, 'grad_norm': 39.09025573730469, 'learning_rate': 5.797101449275362e-08, 'beta_dpo/gap_mean': 0.006271847989410162, 'beta_dpo/gap_std': 0.365943044424057, 'beta_dpo/beta_used_raw': 0.10228224098682404, 'beta_dpo/beta_used': 0.10228224098682404, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': 0.983077883720398, 'logits/rejected': 1.1696516275405884, 'epoch': 0.01} 1%|█▌ | 9/681 [00:26<32:20, 2.89s/it] 1%|█▋ | 10/681 [00:29<32:19, 2.89s/it] {'loss': 1.3938, 'grad_norm': 27.551111221313477, 'learning_rate': 6.521739130434782e-08, 'beta_dpo/gap_mean': -0.009593424387276173, 'beta_dpo/gap_std': 0.37053757905960083, 'beta_dpo/beta_used_raw': 0.09608335793018341, 'beta_dpo/beta_used': 0.09608335793018341, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.4329628348350525, 'logits/rejected': 0.5324227809906006, 'epoch': 0.01} 1%|█▋ | 10/681 [00:29<32:19, 2.89s/it] 2%|█▊ | 11/681 [00:32<32:27, 2.91s/it] {'loss': 1.3881, 'grad_norm': 36.65106201171875, 'learning_rate': 7.246376811594203e-08, 'beta_dpo/gap_mean': -0.008158953860402107, 'beta_dpo/gap_std': 0.38943251967430115, 'beta_dpo/beta_used_raw': 0.10036857426166534, 'beta_dpo/beta_used': 0.10036857426166534, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.7284325361251831, 'logits/rejected': 0.9985450506210327, 'epoch': 0.02} 2%|█▊ | 11/681 [00:32<32:27, 2.91s/it] 2%|██ | 12/681 [00:35<32:43, 2.93s/it] {'loss': 1.3808, 'grad_norm': 41.69594955444336, 'learning_rate': 7.971014492753623e-08, 'beta_dpo/gap_mean': 0.002900504507124424, 'beta_dpo/gap_std': 0.4011257290840149, 'beta_dpo/beta_used_raw': 0.10221745073795319, 'beta_dpo/beta_used': 0.10221745073795319, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -0.2577040195465088, 'logits/rejected': -0.08773193508386612, 'epoch': 0.02} 2%|██ | 12/681 [00:35<32:43, 2.93s/it] 2%|██▏ | 13/681 [00:38<33:15, 2.99s/it] {'loss': 1.3896, 'grad_norm': 37.253273010253906, 'learning_rate': 8.695652173913042e-08, 'beta_dpo/gap_mean': 0.010516807436943054, 'beta_dpo/gap_std': 0.4214455485343933, 'beta_dpo/beta_used_raw': 0.09779460728168488, 'beta_dpo/beta_used': 0.09779460728168488, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.40396368503570557, 'logits/rejected': 0.7425417900085449, 'epoch': 0.02} 2%|██▏ | 13/681 [00:38<33:15, 2.99s/it] 2%|██▎ | 14/681 [00:41<32:55, 2.96s/it] {'loss': 1.3853, 'grad_norm': 35.80532455444336, 'learning_rate': 9.420289855072464e-08, 'beta_dpo/gap_mean': 0.0034803529269993305, 'beta_dpo/gap_std': 0.42071378231048584, 'beta_dpo/beta_used_raw': 0.09969929605722427, 'beta_dpo/beta_used': 0.09969929605722427, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': 0.5135482549667358, 'logits/rejected': 0.63726806640625, 'epoch': 0.02} 2%|██▎ | 14/681 [00:41<32:55, 2.96s/it] 2%|██▌ | 15/681 [00:44<33:53, 3.05s/it] {'loss': 1.3869, 'grad_norm': 33.884681701660156, 'learning_rate': 1.0144927536231885e-07, 'beta_dpo/gap_mean': 0.00040535128209739923, 'beta_dpo/gap_std': 0.437721848487854, 'beta_dpo/beta_used_raw': 0.09926551580429077, 'beta_dpo/beta_used': 0.09926551580429077, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': 0.34413981437683105, 'logits/rejected': 0.5353966951370239, 'epoch': 0.02} 2%|██▌ | 15/681 [00:44<33:53, 3.05s/it] 2%|██▋ | 16/681 [00:47<33:10, 2.99s/it] {'loss': 1.3835, 'grad_norm': 34.41832733154297, 'learning_rate': 1.0869565217391303e-07, 'beta_dpo/gap_mean': 0.005474040750414133, 'beta_dpo/gap_std': 0.44184213876724243, 'beta_dpo/beta_used_raw': 0.10161672532558441, 'beta_dpo/beta_used': 0.10161672532558441, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.02781546115875244, 'logits/rejected': 0.3703967332839966, 'epoch': 0.02} 2%|██▋ | 16/681 [00:47<33:10, 2.99s/it] 2%|██▊ | 17/681 [00:50<32:35, 2.95s/it] {'loss': 1.381, 'grad_norm': 38.5697021484375, 'learning_rate': 1.1594202898550725e-07, 'beta_dpo/gap_mean': 0.020230602473020554, 'beta_dpo/gap_std': 0.4481740891933441, 'beta_dpo/beta_used_raw': 0.10158823430538177, 'beta_dpo/beta_used': 0.10158823430538177, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.17520441114902496, 'logits/rejected': 0.4109325110912323, 'epoch': 0.02} 2%|██▊ | 17/681 [00:50<32:35, 2.95s/it] 3%|███ | 18/681 [00:52<32:02, 2.90s/it] {'loss': 1.3868, 'grad_norm': 31.3992862701416, 'learning_rate': 1.2318840579710146e-07, 'beta_dpo/gap_mean': 0.022835951298475266, 'beta_dpo/gap_std': 0.45730656385421753, 'beta_dpo/beta_used_raw': 0.09817768633365631, 'beta_dpo/beta_used': 0.09817768633365631, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.11811737716197968, 'logits/rejected': 0.37715792655944824, 'epoch': 0.03} 3%|███ | 18/681 [00:53<32:02, 2.90s/it] 3%|███▏ | 19/681 [00:55<32:12, 2.92s/it] {'loss': 1.3843, 'grad_norm': 32.43757247924805, 'learning_rate': 1.3043478260869563e-07, 'beta_dpo/gap_mean': 0.021170007064938545, 'beta_dpo/gap_std': 0.45264753699302673, 'beta_dpo/beta_used_raw': 0.10017681121826172, 'beta_dpo/beta_used': 0.10017681121826172, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.14852826297283173, 'logits/rejected': 0.4215266704559326, 'epoch': 0.03} 3%|███▏ | 19/681 [00:55<32:12, 2.92s/it] 3%|███▎ | 20/681 [00:58<32:08, 2.92s/it] {'loss': 1.3813, 'grad_norm': 32.24197006225586, 'learning_rate': 1.3768115942028986e-07, 'beta_dpo/gap_mean': 0.024478904902935028, 'beta_dpo/gap_std': 0.4402172565460205, 'beta_dpo/beta_used_raw': 0.10059511661529541, 'beta_dpo/beta_used': 0.10059511661529541, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.02626686543226242, 'logits/rejected': 0.23224107921123505, 'epoch': 0.03} 3%|███▎ | 20/681 [00:58<32:08, 2.92s/it] 3%|███▌ | 21/681 [01:01<31:52, 2.90s/it] {'loss': 1.3807, 'grad_norm': 32.54502487182617, 'learning_rate': 1.4492753623188405e-07, 'beta_dpo/gap_mean': 0.03433241322636604, 'beta_dpo/gap_std': 0.4314417243003845, 'beta_dpo/beta_used_raw': 0.10132542252540588, 'beta_dpo/beta_used': 0.10132542252540588, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.8274613618850708, 'logits/rejected': 1.209240436553955, 'epoch': 0.03} 3%|███▌ | 21/681 [01:01<31:52, 2.90s/it] 3%|███▋ | 22/681 [01:04<32:50, 2.99s/it] {'loss': 1.3895, 'grad_norm': 44.07844161987305, 'learning_rate': 1.5217391304347825e-07, 'beta_dpo/gap_mean': 0.047481901943683624, 'beta_dpo/gap_std': 0.4284280240535736, 'beta_dpo/beta_used_raw': 0.09770512580871582, 'beta_dpo/beta_used': 0.09770512580871582, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': 0.7793359160423279, 'logits/rejected': 0.6676016449928284, 'epoch': 0.03} 3%|███▋ | 22/681 [01:04<32:50, 2.99s/it] 3%|███▊ | 23/681 [01:07<32:53, 3.00s/it] {'loss': 1.3847, 'grad_norm': 34.02887725830078, 'learning_rate': 1.5942028985507245e-07, 'beta_dpo/gap_mean': 0.04389035701751709, 'beta_dpo/gap_std': 0.4313211441040039, 'beta_dpo/beta_used_raw': 0.09836747497320175, 'beta_dpo/beta_used': 0.09836747497320175, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.6295610070228577, 'logits/rejected': 0.6386342644691467, 'epoch': 0.03} 3%|███▊ | 23/681 [01:07<32:53, 3.00s/it] 4%|████ | 24/681 [01:10<33:00, 3.01s/it] {'loss': 1.3825, 'grad_norm': 45.06439971923828, 'learning_rate': 1.6666666666666665e-07, 'beta_dpo/gap_mean': 0.03594818338751793, 'beta_dpo/gap_std': 0.4390791654586792, 'beta_dpo/beta_used_raw': 0.10079745948314667, 'beta_dpo/beta_used': 0.10079745948314667, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.6740798354148865, 'logits/rejected': 0.7973790168762207, 'epoch': 0.04} 4%|████ | 24/681 [01:11<33:00, 3.01s/it] 4%|████▏ | 25/681 [01:13<32:59, 3.02s/it] {'loss': 1.3783, 'grad_norm': 39.44239807128906, 'learning_rate': 1.7391304347826085e-07, 'beta_dpo/gap_mean': 0.033481329679489136, 'beta_dpo/gap_std': 0.444084495306015, 'beta_dpo/beta_used_raw': 0.10290396213531494, 'beta_dpo/beta_used': 0.10290396213531494, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.8647956848144531, 'logits/rejected': 0.9377778768539429, 'epoch': 0.04} 4%|████▏ | 25/681 [01:14<32:59, 3.02s/it] 4%|████▎ | 26/681 [01:16<31:28, 2.88s/it] {'loss': 1.3868, 'grad_norm': 42.32288360595703, 'learning_rate': 1.8115942028985507e-07, 'beta_dpo/gap_mean': 0.03490423411130905, 'beta_dpo/gap_std': 0.44243302941322327, 'beta_dpo/beta_used_raw': 0.096158966422081, 'beta_dpo/beta_used': 0.096158966422081, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.4755552411079407, 'logits/rejected': 0.6985275745391846, 'epoch': 0.04} 4%|████▎ | 26/681 [01:16<31:28, 2.88s/it] 4%|████▌ | 27/681 [01:19<31:14, 2.87s/it] {'loss': 1.378, 'grad_norm': 41.91151809692383, 'learning_rate': 1.8840579710144927e-07, 'beta_dpo/gap_mean': 0.04747733473777771, 'beta_dpo/gap_std': 0.444235622882843, 'beta_dpo/beta_used_raw': 0.10245074331760406, 'beta_dpo/beta_used': 0.10245074331760406, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.21072596311569214, 'logits/rejected': 0.08524161577224731, 'epoch': 0.04} 4%|████▌ | 27/681 [01:19<31:14, 2.87s/it] 4%|████▋ | 28/681 [01:22<31:18, 2.88s/it] {'loss': 1.3738, 'grad_norm': 37.31840896606445, 'learning_rate': 1.9565217391304347e-07, 'beta_dpo/gap_mean': 0.058281153440475464, 'beta_dpo/gap_std': 0.44807279109954834, 'beta_dpo/beta_used_raw': 0.10306209325790405, 'beta_dpo/beta_used': 0.10306209325790405, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.6112695932388306, 'logits/rejected': 0.714950680732727, 'epoch': 0.04} 4%|████▋ | 28/681 [01:22<31:18, 2.88s/it] 4%|████▊ | 29/681 [01:24<30:06, 2.77s/it] {'loss': 1.381, 'grad_norm': 47.05006790161133, 'learning_rate': 2.028985507246377e-07, 'beta_dpo/gap_mean': 0.07269902527332306, 'beta_dpo/gap_std': 0.44637590646743774, 'beta_dpo/beta_used_raw': 0.09879401326179504, 'beta_dpo/beta_used': 0.09879401326179504, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.7314038276672363, 'logits/rejected': 0.8412085771560669, 'epoch': 0.04} 4%|████▊ | 29/681 [01:24<30:06, 2.77s/it] 4%|█████ | 30/681 [01:28<31:46, 2.93s/it] {'loss': 1.3764, 'grad_norm': 44.45933151245117, 'learning_rate': 2.1014492753623187e-07, 'beta_dpo/gap_mean': 0.07155513763427734, 'beta_dpo/gap_std': 0.44477319717407227, 'beta_dpo/beta_used_raw': 0.1020648330450058, 'beta_dpo/beta_used': 0.1020648330450058, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 1.1050382852554321, 'logits/rejected': 1.16668701171875, 'epoch': 0.04} 4%|█████ | 30/681 [01:28<31:46, 2.93s/it] 5%|█████▏ | 31/681 [01:31<32:13, 2.98s/it] {'loss': 1.3836, 'grad_norm': 33.403358459472656, 'learning_rate': 2.1739130434782607e-07, 'beta_dpo/gap_mean': 0.06911972165107727, 'beta_dpo/gap_std': 0.4422132968902588, 'beta_dpo/beta_used_raw': 0.0970248281955719, 'beta_dpo/beta_used': 0.0970248281955719, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.8101310133934021, 'logits/rejected': 1.0011759996414185, 'epoch': 0.05} 5%|█████▏ | 31/681 [01:31<32:13, 2.98s/it] 5%|█████▎ | 32/681 [01:34<32:12, 2.98s/it] {'loss': 1.384, 'grad_norm': 33.10820007324219, 'learning_rate': 2.2463768115942027e-07, 'beta_dpo/gap_mean': 0.07079443335533142, 'beta_dpo/gap_std': 0.4461364150047302, 'beta_dpo/beta_used_raw': 0.09790567308664322, 'beta_dpo/beta_used': 0.09790567308664322, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.8439233303070068, 'logits/rejected': 0.950434684753418, 'epoch': 0.05} 5%|█████▎ | 32/681 [01:34<32:12, 2.98s/it] 5%|█████▌ | 33/681 [01:36<31:21, 2.90s/it] {'loss': 1.3753, 'grad_norm': 34.716880798339844, 'learning_rate': 2.318840579710145e-07, 'beta_dpo/gap_mean': 0.06464250385761261, 'beta_dpo/gap_std': 0.44462600350379944, 'beta_dpo/beta_used_raw': 0.10266172885894775, 'beta_dpo/beta_used': 0.10266172885894775, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.6662931442260742, 'logits/rejected': 0.8440811634063721, 'epoch': 0.05} 5%|█████▌ | 33/681 [01:36<31:21, 2.90s/it] 5%|█████▋ | 34/681 [01:39<31:34, 2.93s/it] {'loss': 1.37, 'grad_norm': 36.31764602661133, 'learning_rate': 2.391304347826087e-07, 'beta_dpo/gap_mean': 0.09583105146884918, 'beta_dpo/gap_std': 0.46839314699172974, 'beta_dpo/beta_used_raw': 0.10402781516313553, 'beta_dpo/beta_used': 0.10402781516313553, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.3044871687889099, 'logits/rejected': 0.7843359112739563, 'epoch': 0.05} 5%|█████▋ | 34/681 [01:39<31:34, 2.93s/it] 5%|█████▊ | 35/681 [01:42<31:18, 2.91s/it] {'loss': 1.371, 'grad_norm': 39.71388626098633, 'learning_rate': 2.463768115942029e-07, 'beta_dpo/gap_mean': 0.11586057394742966, 'beta_dpo/gap_std': 0.4675544500350952, 'beta_dpo/beta_used_raw': 0.10199436545372009, 'beta_dpo/beta_used': 0.10199436545372009, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.5839816331863403, 'logits/rejected': 0.8258933424949646, 'epoch': 0.05} 5%|█████▊ | 35/681 [01:42<31:18, 2.91s/it] 5%|██████ | 36/681 [01:45<31:34, 2.94s/it] {'loss': 1.378, 'grad_norm': 29.94068145751953, 'learning_rate': 2.536231884057971e-07, 'beta_dpo/gap_mean': 0.12648111581802368, 'beta_dpo/gap_std': 0.4649723768234253, 'beta_dpo/beta_used_raw': 0.09709247946739197, 'beta_dpo/beta_used': 0.09709247946739197, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.40314602851867676, 'logits/rejected': 0.5354802012443542, 'epoch': 0.05} 5%|██████ | 36/681 [01:45<31:34, 2.94s/it] 5%|██████▏ | 37/681 [01:48<31:36, 2.95s/it] {'loss': 1.3676, 'grad_norm': 31.40448570251465, 'learning_rate': 2.6086956521739126e-07, 'beta_dpo/gap_mean': 0.1381409764289856, 'beta_dpo/gap_std': 0.4927595257759094, 'beta_dpo/beta_used_raw': 0.10307516157627106, 'beta_dpo/beta_used': 0.10307516157627106, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': 0.35831230878829956, 'logits/rejected': 0.6434404850006104, 'epoch': 0.05} 5%|██████▏ | 37/681 [01:48<31:36, 2.95s/it] 6%|██████▎ | 38/681 [01:51<31:12, 2.91s/it] {'loss': 1.3781, 'grad_norm': 27.932357788085938, 'learning_rate': 2.681159420289855e-07, 'beta_dpo/gap_mean': 0.156931072473526, 'beta_dpo/gap_std': 0.5091784000396729, 'beta_dpo/beta_used_raw': 0.09714777767658234, 'beta_dpo/beta_used': 0.09714777767658234, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': 0.563934326171875, 'logits/rejected': 0.6664830446243286, 'epoch': 0.06} 6%|██████▎ | 38/681 [01:51<31:12, 2.91s/it] 6%|██████▌ | 39/681 [01:54<31:00, 2.90s/it] {'loss': 1.3578, 'grad_norm': 39.61822509765625, 'learning_rate': 2.753623188405797e-07, 'beta_dpo/gap_mean': 0.1700209379196167, 'beta_dpo/gap_std': 0.5124276876449585, 'beta_dpo/beta_used_raw': 0.10663290321826935, 'beta_dpo/beta_used': 0.10663290321826935, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.48427289724349976, 'logits/rejected': 0.8242242336273193, 'epoch': 0.06} 6%|██████▌ | 39/681 [01:54<31:00, 2.90s/it] 6%|██████▋ | 40/681 [01:57<30:43, 2.88s/it] {'loss': 1.3658, 'grad_norm': 32.475460052490234, 'learning_rate': 2.8260869565217386e-07, 'beta_dpo/gap_mean': 0.17161959409713745, 'beta_dpo/gap_std': 0.5042372941970825, 'beta_dpo/beta_used_raw': 0.10216629505157471, 'beta_dpo/beta_used': 0.10216629505157471, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.920052170753479, 'logits/rejected': 0.9896578788757324, 'epoch': 0.06} 6%|██████▋ | 40/681 [01:57<30:43, 2.88s/it] 6%|██████▊ | 41/681 [02:00<30:55, 2.90s/it] {'loss': 1.3738, 'grad_norm': 30.475223541259766, 'learning_rate': 2.898550724637681e-07, 'beta_dpo/gap_mean': 0.18380120396614075, 'beta_dpo/gap_std': 0.5123995542526245, 'beta_dpo/beta_used_raw': 0.09696967899799347, 'beta_dpo/beta_used': 0.09696967899799347, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': 1.0419857501983643, 'logits/rejected': 1.2172199487686157, 'epoch': 0.06} 6%|██████▊ | 41/681 [02:00<30:55, 2.90s/it] 6%|███████ | 42/681 [02:03<30:53, 2.90s/it] {'loss': 1.3524, 'grad_norm': 43.8969841003418, 'learning_rate': 2.971014492753623e-07, 'beta_dpo/gap_mean': 0.20398783683776855, 'beta_dpo/gap_std': 0.5257683992385864, 'beta_dpo/beta_used_raw': 0.1069054901599884, 'beta_dpo/beta_used': 0.1069054901599884, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.42500317096710205, 'logits/rejected': 0.5260858535766602, 'epoch': 0.06} 6%|███████ | 42/681 [02:03<30:53, 2.90s/it] 6%|███████▏ | 43/681 [02:06<30:57, 2.91s/it] {'loss': 1.3579, 'grad_norm': 32.977210998535156, 'learning_rate': 3.043478260869565e-07, 'beta_dpo/gap_mean': 0.24691221117973328, 'beta_dpo/gap_std': 0.5559054017066956, 'beta_dpo/beta_used_raw': 0.10209308564662933, 'beta_dpo/beta_used': 0.10209308564662933, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.5705319046974182, 'logits/rejected': 0.6937817931175232, 'epoch': 0.06} 6%|███████▏ | 43/681 [02:06<30:57, 2.91s/it] 6%|███████▎ | 44/681 [02:08<30:49, 2.90s/it] {'loss': 1.3587, 'grad_norm': 34.141815185546875, 'learning_rate': 3.115942028985507e-07, 'beta_dpo/gap_mean': 0.2685306966304779, 'beta_dpo/gap_std': 0.5704429149627686, 'beta_dpo/beta_used_raw': 0.10147799551486969, 'beta_dpo/beta_used': 0.10147799551486969, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.5468135476112366, 'logits/rejected': 0.7769373059272766, 'epoch': 0.06} 6%|███████▎ | 44/681 [02:08<30:49, 2.90s/it] 7%|███████▌ | 45/681 [02:12<31:29, 2.97s/it] {'loss': 1.3699, 'grad_norm': 26.028532028198242, 'learning_rate': 3.188405797101449e-07, 'beta_dpo/gap_mean': 0.2547299265861511, 'beta_dpo/gap_std': 0.5621392726898193, 'beta_dpo/beta_used_raw': 0.0953749343752861, 'beta_dpo/beta_used': 0.0953749343752861, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.6253921985626221, 'logits/rejected': 0.7837856411933899, 'epoch': 0.07} 7%|███████▌ | 45/681 [02:12<31:29, 2.97s/it] 7%|███████▋ | 46/681 [02:15<32:01, 3.03s/it] {'loss': 1.3537, 'grad_norm': 33.697540283203125, 'learning_rate': 3.260869565217391e-07, 'beta_dpo/gap_mean': 0.27350008487701416, 'beta_dpo/gap_std': 0.5653533339500427, 'beta_dpo/beta_used_raw': 0.10346020013093948, 'beta_dpo/beta_used': 0.10346020013093948, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.9563829898834229, 'logits/rejected': 1.276297926902771, 'epoch': 0.07} 7%|███████▋ | 46/681 [02:15<32:01, 3.03s/it] 7%|███████▊ | 47/681 [02:18<31:58, 3.03s/it] {'loss': 1.3657, 'grad_norm': 33.535667419433594, 'learning_rate': 3.333333333333333e-07, 'beta_dpo/gap_mean': 0.28601908683776855, 'beta_dpo/gap_std': 0.5872968435287476, 'beta_dpo/beta_used_raw': 0.09652406722307205, 'beta_dpo/beta_used': 0.09652406722307205, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.003040153533220291, 'logits/rejected': 0.20534364879131317, 'epoch': 0.07} 7%|███████▊ | 47/681 [02:18<31:58, 3.03s/it] 7%|████████ | 48/681 [02:21<31:51, 3.02s/it] {'loss': 1.3473, 'grad_norm': 36.597084045410156, 'learning_rate': 3.4057971014492755e-07, 'beta_dpo/gap_mean': 0.3253113031387329, 'beta_dpo/gap_std': 0.6272794604301453, 'beta_dpo/beta_used_raw': 0.103759765625, 'beta_dpo/beta_used': 0.103759765625, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': 0.16515415906906128, 'logits/rejected': 0.25872254371643066, 'epoch': 0.07} 7%|████████ | 48/681 [02:21<31:51, 3.02s/it] 7%|████████▏ | 49/681 [02:24<31:27, 2.99s/it] {'loss': 1.3397, 'grad_norm': 35.3515625, 'learning_rate': 3.478260869565217e-07, 'beta_dpo/gap_mean': 0.37170833349227905, 'beta_dpo/gap_std': 0.6765430569648743, 'beta_dpo/beta_used_raw': 0.10399220883846283, 'beta_dpo/beta_used': 0.10399220883846283, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.1696886569261551, 'logits/rejected': 0.33062222599983215, 'epoch': 0.07} 7%|████████▏ | 49/681 [02:24<31:27, 2.99s/it] 7%|████████▎ | 50/681 [02:26<30:56, 2.94s/it] {'loss': 1.3456, 'grad_norm': 31.9883975982666, 'learning_rate': 3.5507246376811595e-07, 'beta_dpo/gap_mean': 0.4253373444080353, 'beta_dpo/gap_std': 0.7102055549621582, 'beta_dpo/beta_used_raw': 0.09910602867603302, 'beta_dpo/beta_used': 0.09910602867603302, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': 0.8714113235473633, 'logits/rejected': 1.1603641510009766, 'epoch': 0.07} 7%|████████▎ | 50/681 [02:27<30:56, 2.94s/it] 7%|████████▌ | 51/681 [02:29<31:03, 2.96s/it] {'loss': 1.3414, 'grad_norm': 29.27351951599121, 'learning_rate': 3.6231884057971015e-07, 'beta_dpo/gap_mean': 0.4460796117782593, 'beta_dpo/gap_std': 0.7467154264450073, 'beta_dpo/beta_used_raw': 0.10119134932756424, 'beta_dpo/beta_used': 0.10119134932756424, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.7564854621887207, 'logits/rejected': 1.1092755794525146, 'epoch': 0.07} 7%|████████▌ | 51/681 [02:30<31:03, 2.96s/it] 8%|████████▋ | 52/681 [02:32<30:25, 2.90s/it] {'loss': 1.3309, 'grad_norm': 31.185443878173828, 'learning_rate': 3.695652173913043e-07, 'beta_dpo/gap_mean': 0.5001685619354248, 'beta_dpo/gap_std': 0.7689269185066223, 'beta_dpo/beta_used_raw': 0.10360611975193024, 'beta_dpo/beta_used': 0.10360611975193024, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': 0.1388968527317047, 'logits/rejected': 0.3441314697265625, 'epoch': 0.08} 8%|████████▋ | 52/681 [02:32<30:25, 2.90s/it] 8%|████████▊ | 53/681 [02:35<31:14, 2.98s/it] {'loss': 1.3325, 'grad_norm': 31.37520980834961, 'learning_rate': 3.7681159420289855e-07, 'beta_dpo/gap_mean': 0.5589120388031006, 'beta_dpo/gap_std': 0.8447322845458984, 'beta_dpo/beta_used_raw': 0.10029203444719315, 'beta_dpo/beta_used': 0.10029203444719315, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.6295239329338074, 'logits/rejected': 0.7122503519058228, 'epoch': 0.08} 8%|████████▊ | 53/681 [02:35<31:14, 2.98s/it] 8%|█████████ | 54/681 [02:38<30:19, 2.90s/it] {'loss': 1.3147, 'grad_norm': 35.64163589477539, 'learning_rate': 3.8405797101449274e-07, 'beta_dpo/gap_mean': 0.6512259840965271, 'beta_dpo/gap_std': 0.8958290815353394, 'beta_dpo/beta_used_raw': 0.10459037125110626, 'beta_dpo/beta_used': 0.10459037125110626, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.9176524877548218, 'logits/rejected': 1.011580228805542, 'epoch': 0.08} 8%|█████████ | 54/681 [02:38<30:19, 2.90s/it] 8%|█████████▏ | 55/681 [02:41<29:13, 2.80s/it] {'loss': 1.3113, 'grad_norm': 35.24003601074219, 'learning_rate': 3.9130434782608694e-07, 'beta_dpo/gap_mean': 0.7022398710250854, 'beta_dpo/gap_std': 0.9507501125335693, 'beta_dpo/beta_used_raw': 0.1026381105184555, 'beta_dpo/beta_used': 0.1026381105184555, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.29505473375320435, 'logits/rejected': -0.09624499082565308, 'epoch': 0.08} 8%|█████████▏ | 55/681 [02:41<29:13, 2.80s/it] 8%|█████████▎ | 56/681 [02:44<29:45, 2.86s/it] {'loss': 1.3044, 'grad_norm': 32.721805572509766, 'learning_rate': 3.9855072463768114e-07, 'beta_dpo/gap_mean': 0.772992730140686, 'beta_dpo/gap_std': 1.0654406547546387, 'beta_dpo/beta_used_raw': 0.1019178181886673, 'beta_dpo/beta_used': 0.1019178181886673, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.0909002423286438, 'logits/rejected': 0.28411364555358887, 'epoch': 0.08} 8%|█████████▎ | 56/681 [02:44<29:45, 2.86s/it] 8%|█████████▌ | 57/681 [02:47<29:37, 2.85s/it] {'loss': 1.3245, 'grad_norm': 31.025205612182617, 'learning_rate': 4.057971014492754e-07, 'beta_dpo/gap_mean': 0.7895393371582031, 'beta_dpo/gap_std': 1.1319793462753296, 'beta_dpo/beta_used_raw': 0.09452690184116364, 'beta_dpo/beta_used': 0.09452690184116364, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.24088265001773834, 'logits/rejected': 0.3191375136375427, 'epoch': 0.08} 8%|█████████▌ | 57/681 [02:47<29:37, 2.85s/it] 9%|█████████▋ | 58/681 [02:50<30:03, 2.89s/it] {'loss': 1.2914, 'grad_norm': 35.668453216552734, 'learning_rate': 4.1304347826086954e-07, 'beta_dpo/gap_mean': 0.8548910021781921, 'beta_dpo/gap_std': 1.1864020824432373, 'beta_dpo/beta_used_raw': 0.10477735102176666, 'beta_dpo/beta_used': 0.10477735102176666, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -0.08373896777629852, 'logits/rejected': 0.29527297616004944, 'epoch': 0.09} 9%|█████████▋ | 58/681 [02:50<30:03, 2.89s/it] 9%|█████████▉ | 59/681 [02:52<30:01, 2.90s/it] {'loss': 1.2938, 'grad_norm': 33.82415008544922, 'learning_rate': 4.2028985507246374e-07, 'beta_dpo/gap_mean': 0.922788143157959, 'beta_dpo/gap_std': 1.215921401977539, 'beta_dpo/beta_used_raw': 0.10405892133712769, 'beta_dpo/beta_used': 0.10405892133712769, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': 0.3770354986190796, 'logits/rejected': 0.5427916646003723, 'epoch': 0.09} 9%|█████████▉ | 59/681 [02:52<30:01, 2.90s/it] 9%|██████████ | 60/681 [02:55<29:25, 2.84s/it] {'loss': 1.3151, 'grad_norm': 25.01860809326172, 'learning_rate': 4.2753623188405794e-07, 'beta_dpo/gap_mean': 0.9623857736587524, 'beta_dpo/gap_std': 1.2300928831100464, 'beta_dpo/beta_used_raw': 0.08976569026708603, 'beta_dpo/beta_used': 0.08976569026708603, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.3236808180809021, 'logits/rejected': 0.7505677938461304, 'epoch': 0.09} 9%|██████████ | 60/681 [02:55<29:25, 2.84s/it] 9%|██████████▏ | 61/681 [02:58<30:21, 2.94s/it] {'loss': 1.3396, 'grad_norm': 22.11328887939453, 'learning_rate': 4.3478260869565214e-07, 'beta_dpo/gap_mean': 0.9610786437988281, 'beta_dpo/gap_std': 1.3071849346160889, 'beta_dpo/beta_used_raw': 0.07914106547832489, 'beta_dpo/beta_used': 0.07914106547832489, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.2516426146030426, 'logits/rejected': -0.02317236363887787, 'epoch': 0.09} 9%|██████████▏ | 61/681 [02:58<30:21, 2.94s/it] 9%|██████████▍ | 62/681 [03:01<30:45, 2.98s/it] {'loss': 1.3037, 'grad_norm': 26.365983963012695, 'learning_rate': 4.420289855072464e-07, 'beta_dpo/gap_mean': 0.9768849611282349, 'beta_dpo/gap_std': 1.3115894794464111, 'beta_dpo/beta_used_raw': 0.09530578553676605, 'beta_dpo/beta_used': 0.09530578553676605, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': 0.27271533012390137, 'logits/rejected': 0.268252432346344, 'epoch': 0.09} 9%|██████████▍ | 62/681 [03:01<30:45, 2.98s/it] 9%|██████████▌ | 63/681 [03:04<30:17, 2.94s/it] {'loss': 1.2743, 'grad_norm': 35.525062561035156, 'learning_rate': 4.4927536231884053e-07, 'beta_dpo/gap_mean': 1.0516126155853271, 'beta_dpo/gap_std': 1.3722937107086182, 'beta_dpo/beta_used_raw': 0.10470438003540039, 'beta_dpo/beta_used': 0.10470438003540039, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.27358633279800415, 'logits/rejected': 0.5209922790527344, 'epoch': 0.09} 9%|██████████▌ | 63/681 [03:04<30:17, 2.94s/it] 9%|██████████▋ | 64/681 [03:07<29:58, 2.91s/it] {'loss': 1.2742, 'grad_norm': 31.30100440979004, 'learning_rate': 4.5652173913043473e-07, 'beta_dpo/gap_mean': 1.142209529876709, 'beta_dpo/gap_std': 1.4562242031097412, 'beta_dpo/beta_used_raw': 0.09943975508213043, 'beta_dpo/beta_used': 0.09943975508213043, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.8951408863067627, 'logits/rejected': 1.089853048324585, 'epoch': 0.09} 9%|██████████▋ | 64/681 [03:07<29:58, 2.91s/it] 10%|██████████▉ | 65/681 [03:10<30:02, 2.93s/it] {'loss': 1.2767, 'grad_norm': 34.030433654785156, 'learning_rate': 4.63768115942029e-07, 'beta_dpo/gap_mean': 1.2123044729232788, 'beta_dpo/gap_std': 1.492063045501709, 'beta_dpo/beta_used_raw': 0.09851166605949402, 'beta_dpo/beta_used': 0.09851166605949402, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': 0.39446431398391724, 'logits/rejected': 0.29857978224754333, 'epoch': 0.1} 10%|██████████▉ | 65/681 [03:10<30:02, 2.93s/it] 10%|███████████ | 66/681 [03:13<30:08, 2.94s/it] {'loss': 1.3196, 'grad_norm': 21.924297332763672, 'learning_rate': 4.7101449275362313e-07, 'beta_dpo/gap_mean': 1.2385344505310059, 'beta_dpo/gap_std': 1.5351271629333496, 'beta_dpo/beta_used_raw': 0.08195464313030243, 'beta_dpo/beta_used': 0.08195464313030243, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.015095788985490799, 'logits/rejected': 0.257466584444046, 'epoch': 0.1} 10%|███████████ | 66/681 [03:13<30:08, 2.94s/it] 10%|███████████▏ | 67/681 [03:16<29:12, 2.85s/it] {'loss': 1.3397, 'grad_norm': 17.05328941345215, 'learning_rate': 4.782608695652174e-07, 'beta_dpo/gap_mean': 1.1743882894515991, 'beta_dpo/gap_std': 1.622124195098877, 'beta_dpo/beta_used_raw': 0.07061232626438141, 'beta_dpo/beta_used': 0.07061232626438141, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.6905490159988403, 'logits/rejected': 0.8179426193237305, 'epoch': 0.1} 10%|███████████▏ | 67/681 [03:16<29:12, 2.85s/it] 10%|███████████▍ | 68/681 [03:18<28:45, 2.81s/it] {'loss': 1.2867, 'grad_norm': 24.639341354370117, 'learning_rate': 4.855072463768116e-07, 'beta_dpo/gap_mean': 1.2332521677017212, 'beta_dpo/gap_std': 1.7263941764831543, 'beta_dpo/beta_used_raw': 0.09138956665992737, 'beta_dpo/beta_used': 0.09138956665992737, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.910900354385376, 'logits/rejected': -0.7187647223472595, 'epoch': 0.1} 10%|███████████▍ | 68/681 [03:18<28:45, 2.81s/it] 10%|███████████▌ | 69/681 [03:22<30:28, 2.99s/it] {'loss': 1.268, 'grad_norm': 30.226844787597656, 'learning_rate': 4.927536231884058e-07, 'beta_dpo/gap_mean': 1.3337668180465698, 'beta_dpo/gap_std': 1.8452472686767578, 'beta_dpo/beta_used_raw': 0.09712530672550201, 'beta_dpo/beta_used': 0.09712530672550201, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.2648603320121765, 'logits/rejected': 0.3073993921279907, 'epoch': 0.1} 10%|███████████▌ | 69/681 [03:22<30:28, 2.99s/it] 10%|███████████▋ | 70/681 [03:25<29:42, 2.92s/it] {'loss': 1.286, 'grad_norm': 22.558631896972656, 'learning_rate': 5e-07, 'beta_dpo/gap_mean': 1.459987998008728, 'beta_dpo/gap_std': 1.982649564743042, 'beta_dpo/beta_used_raw': 0.08421066403388977, 'beta_dpo/beta_used': 0.08421066403388977, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.3340024948120117, 'logits/rejected': 0.5476035475730896, 'epoch': 0.1} 10%|███████████▋ | 70/681 [03:25<29:42, 2.92s/it] 10%|███████████▉ | 71/681 [03:27<29:32, 2.90s/it] {'loss': 1.2169, 'grad_norm': 32.90518569946289, 'learning_rate': 4.999967061337492e-07, 'beta_dpo/gap_mean': 1.7209677696228027, 'beta_dpo/gap_std': 2.2336602210998535, 'beta_dpo/beta_used_raw': 0.10257969796657562, 'beta_dpo/beta_used': 0.10257969796657562, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': 0.2438286542892456, 'logits/rejected': 0.43359801173210144, 'epoch': 0.1} 10%|███████████▉ | 71/681 [03:27<29:32, 2.90s/it] 11%|████████████ | 72/681 [03:30<29:10, 2.87s/it] {'loss': 1.2618, 'grad_norm': 24.293167114257812, 'learning_rate': 4.999868246217933e-07, 'beta_dpo/gap_mean': 1.8638193607330322, 'beta_dpo/gap_std': 2.3361806869506836, 'beta_dpo/beta_used_raw': 0.08484944701194763, 'beta_dpo/beta_used': 0.08484944701194763, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': 0.16392625868320465, 'logits/rejected': 0.36707645654678345, 'epoch': 0.11} 11%|████████████ | 72/681 [03:30<29:10, 2.87s/it] 11%|████████████▏ | 73/681 [03:33<29:14, 2.89s/it] {'loss': 1.3011, 'grad_norm': 20.27967643737793, 'learning_rate': 4.999703557245192e-07, 'beta_dpo/gap_mean': 1.9632892608642578, 'beta_dpo/gap_std': 2.580928087234497, 'beta_dpo/beta_used_raw': 0.06621776521205902, 'beta_dpo/beta_used': 0.06621776521205902, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.8935944437980652, 'logits/rejected': -0.34290611743927, 'epoch': 0.11} 11%|████████████▏ | 73/681 [03:33<29:14, 2.89s/it] 11%|████████████▍ | 74/681 [03:36<29:11, 2.89s/it] {'loss': 1.2112, 'grad_norm': 30.242183685302734, 'learning_rate': 4.999472998758977e-07, 'beta_dpo/gap_mean': 2.124460220336914, 'beta_dpo/gap_std': 2.7994680404663086, 'beta_dpo/beta_used_raw': 0.09418769180774689, 'beta_dpo/beta_used': 0.09418769180774689, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.3257332146167755, 'logits/rejected': -0.3129286468029022, 'epoch': 0.11} 11%|████████████▍ | 74/681 [03:36<29:11, 2.89s/it] 11%|████████████▌ | 75/681 [03:39<28:59, 2.87s/it] {'loss': 1.109, 'grad_norm': 39.98731231689453, 'learning_rate': 4.999176576834721e-07, 'beta_dpo/gap_mean': 2.335268974304199, 'beta_dpo/gap_std': 3.031240940093994, 'beta_dpo/beta_used_raw': 0.11877734959125519, 'beta_dpo/beta_used': 0.11877734959125519, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.41363754868507385, 'logits/rejected': 0.28612393140792847, 'epoch': 0.11} 11%|████████████▌ | 75/681 [03:39<28:59, 2.87s/it] 11%|████████████▋ | 76/681 [03:42<29:46, 2.95s/it] {'loss': 1.1912, 'grad_norm': 25.231731414794922, 'learning_rate': 4.998814299283415e-07, 'beta_dpo/gap_mean': 2.4628543853759766, 'beta_dpo/gap_std': 3.2532970905303955, 'beta_dpo/beta_used_raw': 0.08970046043395996, 'beta_dpo/beta_used': 0.08970046043395996, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2684142589569092, 'logits/rejected': -0.9033623933792114, 'epoch': 0.11} 11%|████████████▋ | 76/681 [03:42<29:46, 2.95s/it] 11%|████████████▉ | 77/681 [03:45<28:30, 2.83s/it] {'loss': 1.1905, 'grad_norm': 29.32447624206543, 'learning_rate': 4.998386175651409e-07, 'beta_dpo/gap_mean': 2.5265262126922607, 'beta_dpo/gap_std': 3.3844351768493652, 'beta_dpo/beta_used_raw': 0.09582079946994781, 'beta_dpo/beta_used': 0.09582079946994781, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.20256809890270233, 'logits/rejected': -0.08170560747385025, 'epoch': 0.11} 11%|████████████▉ | 77/681 [03:45<28:30, 2.83s/it] 11%|█████████████ | 78/681 [03:48<29:09, 2.90s/it] {'loss': 1.2294, 'grad_norm': 20.592315673828125, 'learning_rate': 4.997892217220159e-07, 'beta_dpo/gap_mean': 2.600193977355957, 'beta_dpo/gap_std': 3.4132637977600098, 'beta_dpo/beta_used_raw': 0.07637983560562134, 'beta_dpo/beta_used': 0.07637983560562134, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': 0.5006381273269653, 'logits/rejected': 0.6229469180107117, 'epoch': 0.11} 11%|█████████████ | 78/681 [03:48<29:09, 2.90s/it] 12%|█████████████▏ | 79/681 [03:51<29:15, 2.92s/it] {'loss': 1.0555, 'grad_norm': 36.98799514770508, 'learning_rate': 4.997332437005931e-07, 'beta_dpo/gap_mean': 2.8109922409057617, 'beta_dpo/gap_std': 3.607632637023926, 'beta_dpo/beta_used_raw': 0.12261506170034409, 'beta_dpo/beta_used': 0.12261506170034409, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -0.14069265127182007, 'logits/rejected': 0.381592333316803, 'epoch': 0.12} 12%|█████████████▏ | 79/681 [03:51<29:15, 2.92s/it] 12%|█████████████▍ | 80/681 [03:53<29:06, 2.91s/it] {'loss': 1.263, 'grad_norm': 18.50529670715332, 'learning_rate': 4.996706849759452e-07, 'beta_dpo/gap_mean': 2.924854278564453, 'beta_dpo/gap_std': 3.7584455013275146, 'beta_dpo/beta_used_raw': 0.05763671547174454, 'beta_dpo/beta_used': 0.05763671547174454, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.5511586666107178, 'logits/rejected': 0.2598066031932831, 'epoch': 0.12} 12%|█████████████▍ | 80/681 [03:53<29:06, 2.91s/it] 12%|█████████████▌ | 81/681 [03:57<29:32, 2.95s/it] {'loss': 1.2039, 'grad_norm': 22.593578338623047, 'learning_rate': 4.996015471965529e-07, 'beta_dpo/gap_mean': 3.1903529167175293, 'beta_dpo/gap_std': 4.072197914123535, 'beta_dpo/beta_used_raw': 0.0756058320403099, 'beta_dpo/beta_used': 0.0756058320403099, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.4839993119239807, 'logits/rejected': 0.11238844692707062, 'epoch': 0.12} 12%|█████████████▌ | 81/681 [03:57<29:32, 2.95s/it] 12%|█████████████▋ | 82/681 [03:59<28:52, 2.89s/it] {'loss': 1.2371, 'grad_norm': 21.1937313079834, 'learning_rate': 4.995258321842611e-07, 'beta_dpo/gap_mean': 3.1580824851989746, 'beta_dpo/gap_std': 4.085663795471191, 'beta_dpo/beta_used_raw': 0.06392714381217957, 'beta_dpo/beta_used': 0.06392714381217957, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.18834875524044037, 'logits/rejected': 0.010252445936203003, 'epoch': 0.12} 12%|█████████████▋ | 82/681 [03:59<28:52, 2.89s/it] 12%|█████████████▉ | 83/681 [04:02<28:28, 2.86s/it] {'loss': 1.279, 'grad_norm': 16.829927444458008, 'learning_rate': 4.994435419342304e-07, 'beta_dpo/gap_mean': 3.2494096755981445, 'beta_dpo/gap_std': 4.285775661468506, 'beta_dpo/beta_used_raw': 0.051595039665699005, 'beta_dpo/beta_used': 0.051595039665699005, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.4440305233001709, 'logits/rejected': -0.3782370090484619, 'epoch': 0.12} 12%|█████████████▉ | 83/681 [04:02<28:28, 2.86s/it] 12%|██████████████ | 84/681 [04:05<29:55, 3.01s/it] {'loss': 1.3021, 'grad_norm': 14.960714340209961, 'learning_rate': 4.993546786148857e-07, 'beta_dpo/gap_mean': 3.168778896331787, 'beta_dpo/gap_std': 4.352312088012695, 'beta_dpo/beta_used_raw': 0.026219218969345093, 'beta_dpo/beta_used': 0.035387977957725525, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.734527587890625, 'logits/rejected': -0.41321492195129395, 'epoch': 0.12} 12%|██████████████ | 84/681 [04:05<29:55, 3.01s/it] 12%|██████████████▏ | 85/681 [04:08<29:48, 3.00s/it] {'loss': 1.1866, 'grad_norm': 26.920080184936523, 'learning_rate': 4.992592445678582e-07, 'beta_dpo/gap_mean': 3.0220541954040527, 'beta_dpo/gap_std': 4.437371253967285, 'beta_dpo/beta_used_raw': 0.09027501940727234, 'beta_dpo/beta_used': 0.09027501940727234, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': 0.3732537031173706, 'logits/rejected': 0.6761988997459412, 'epoch': 0.12} 12%|██████████████▏ | 85/681 [04:08<29:48, 3.00s/it] 13%|██████████████▍ | 86/681 [04:11<29:15, 2.95s/it] {'loss': 1.2988, 'grad_norm': 12.763246536254883, 'learning_rate': 4.991572423079235e-07, 'beta_dpo/gap_mean': 3.152754783630371, 'beta_dpo/gap_std': 4.687079429626465, 'beta_dpo/beta_used_raw': 0.04152470454573631, 'beta_dpo/beta_used': 0.04152470454573631, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7253550887107849, 'logits/rejected': -0.5855756998062134, 'epoch': 0.13} 13%|██████████████▍ | 86/681 [04:11<29:15, 2.95s/it] 13%|██████████████▌ | 87/681 [04:14<29:13, 2.95s/it] {'loss': 1.2483, 'grad_norm': 19.533201217651367, 'learning_rate': 4.990486745229364e-07, 'beta_dpo/gap_mean': 3.322826862335205, 'beta_dpo/gap_std': 4.999612808227539, 'beta_dpo/beta_used_raw': 0.06223129481077194, 'beta_dpo/beta_used': 0.06223129481077194, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.8896793723106384, 'logits/rejected': -0.609255313873291, 'epoch': 0.13} 13%|██████████████▌ | 87/681 [04:14<29:13, 2.95s/it] 13%|██████████████▋ | 88/681 [04:17<29:15, 2.96s/it] {'loss': 1.1191, 'grad_norm': 28.452533721923828, 'learning_rate': 4.989335440737586e-07, 'beta_dpo/gap_mean': 3.3977251052856445, 'beta_dpo/gap_std': 5.225910186767578, 'beta_dpo/beta_used_raw': 0.10454927384853363, 'beta_dpo/beta_used': 0.10454927384853363, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.383707731962204, 'logits/rejected': -0.38696473836898804, 'epoch': 0.13} 13%|██████████████▋ | 88/681 [04:17<29:15, 2.96s/it] 13%|██████████████▉ | 89/681 [04:20<28:42, 2.91s/it] {'loss': 1.3119, 'grad_norm': 11.382292747497559, 'learning_rate': 4.988118539941847e-07, 'beta_dpo/gap_mean': 3.3997325897216797, 'beta_dpo/gap_std': 5.348217010498047, 'beta_dpo/beta_used_raw': 0.03293079510331154, 'beta_dpo/beta_used': 0.03293079510331154, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.12446750700473785, 'logits/rejected': 0.03424917906522751, 'epoch': 0.13} 13%|██████████████▉ | 89/681 [04:20<28:42, 2.91s/it] 13%|███████████████ | 90/681 [04:23<28:11, 2.86s/it] {'loss': 1.063, 'grad_norm': 32.30577850341797, 'learning_rate': 4.986836074908615e-07, 'beta_dpo/gap_mean': 3.538516044616699, 'beta_dpo/gap_std': 5.529797554016113, 'beta_dpo/beta_used_raw': 0.11191559582948685, 'beta_dpo/beta_used': 0.11191559582948685, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.3827494978904724, 'logits/rejected': -0.2031489610671997, 'epoch': 0.13} 13%|███████████████ | 90/681 [04:23<28:11, 2.86s/it] 13%|███████████████▏ | 91/681 [04:26<28:51, 2.94s/it] {'loss': 1.2361, 'grad_norm': 19.282800674438477, 'learning_rate': 4.985488079432037e-07, 'beta_dpo/gap_mean': 3.693659782409668, 'beta_dpo/gap_std': 5.714102745056152, 'beta_dpo/beta_used_raw': 0.0587504506111145, 'beta_dpo/beta_used': 0.0587504506111145, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.5610724687576294, 'logits/rejected': -0.07184645533561707, 'epoch': 0.13} 13%|███████████████▏ | 91/681 [04:26<28:51, 2.94s/it] 14%|███████████████▍ | 92/681 [04:29<28:46, 2.93s/it] {'loss': 1.3362, 'grad_norm': 9.117363929748535, 'learning_rate': 4.984074589033043e-07, 'beta_dpo/gap_mean': 3.6730222702026367, 'beta_dpo/gap_std': 5.738746166229248, 'beta_dpo/beta_used_raw': 0.021044503897428513, 'beta_dpo/beta_used': 0.021044503897428513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3292481899261475, 'logits/rejected': -1.0745368003845215, 'epoch': 0.14} 14%|███████████████▍ | 92/681 [04:29<28:46, 2.93s/it] 14%|███████████████▌ | 93/681 [04:31<27:14, 2.78s/it] {'loss': 1.2159, 'grad_norm': 18.065797805786133, 'learning_rate': 4.982595640958425e-07, 'beta_dpo/gap_mean': 3.622422933578491, 'beta_dpo/gap_std': 5.81143856048584, 'beta_dpo/beta_used_raw': 0.06564544886350632, 'beta_dpo/beta_used': 0.06564544886350632, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.129691481590271, 'logits/rejected': -0.4519658386707306, 'epoch': 0.14} 14%|███████████████▌ | 93/681 [04:31<27:14, 2.78s/it] 14%|███████████████▋ | 94/681 [04:34<28:10, 2.88s/it] {'loss': 1.1855, 'grad_norm': 30.44569206237793, 'learning_rate': 4.98105127417984e-07, 'beta_dpo/gap_mean': 3.922881603240967, 'beta_dpo/gap_std': 5.974148273468018, 'beta_dpo/beta_used_raw': 0.07418715953826904, 'beta_dpo/beta_used': 0.07418715953826904, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.7543771266937256, 'logits/rejected': -0.3432539701461792, 'epoch': 0.14} 14%|███████████████▋ | 94/681 [04:34<28:10, 2.88s/it] 14%|███████████████▉ | 95/681 [04:37<27:49, 2.85s/it] {'loss': 1.3438, 'grad_norm': 4.844404220581055, 'learning_rate': 4.979441529392784e-07, 'beta_dpo/gap_mean': 3.914681911468506, 'beta_dpo/gap_std': 6.0327043533325195, 'beta_dpo/beta_used_raw': 0.016762804239988327, 'beta_dpo/beta_used': 0.016762804239988327, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3417716026306152, 'logits/rejected': -0.5555290579795837, 'epoch': 0.14} 14%|███████████████▉ | 95/681 [04:37<27:49, 2.85s/it] 14%|████████████████ | 96/681 [04:40<27:47, 2.85s/it] {'loss': 1.1501, 'grad_norm': 20.949954986572266, 'learning_rate': 4.977766449015534e-07, 'beta_dpo/gap_mean': 4.16600227355957, 'beta_dpo/gap_std': 6.302978515625, 'beta_dpo/beta_used_raw': 0.07483043521642685, 'beta_dpo/beta_used': 0.07483043521642685, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.09304308891296387, 'logits/rejected': 0.17778439819812775, 'epoch': 0.14} 14%|████████████████ | 96/681 [04:40<27:47, 2.85s/it] 14%|████████████████▏ | 97/681 [04:43<27:57, 2.87s/it] {'loss': 1.0978, 'grad_norm': 24.92792320251465, 'learning_rate': 4.976026077188012e-07, 'beta_dpo/gap_mean': 4.1845598220825195, 'beta_dpo/gap_std': 6.200246810913086, 'beta_dpo/beta_used_raw': 0.08849300444126129, 'beta_dpo/beta_used': 0.08849300444126129, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.6613257527351379, 'logits/rejected': -0.10425081849098206, 'epoch': 0.14} 14%|████████████████▏ | 97/681 [04:43<27:57, 2.87s/it] 14%|████████████████▍ | 98/681 [04:46<27:26, 2.82s/it] {'loss': 1.0047, 'grad_norm': 31.26581573486328, 'learning_rate': 4.974220459770639e-07, 'beta_dpo/gap_mean': 4.468649387359619, 'beta_dpo/gap_std': 6.226131439208984, 'beta_dpo/beta_used_raw': 0.11061571538448334, 'beta_dpo/beta_used': 0.11061571538448334, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.2658594846725464, 'logits/rejected': -0.22771313786506653, 'epoch': 0.14} 14%|████████████████▍ | 98/681 [04:46<27:26, 2.82s/it] 15%|████████████████▌ | 99/681 [04:48<26:58, 2.78s/it] {'loss': 1.16, 'grad_norm': 21.47028160095215, 'learning_rate': 4.972349644343108e-07, 'beta_dpo/gap_mean': 4.65333366394043, 'beta_dpo/gap_std': 6.376982688903809, 'beta_dpo/beta_used_raw': 0.06567872315645218, 'beta_dpo/beta_used': 0.06567872315645218, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.632530152797699, 'logits/rejected': -0.23820585012435913, 'epoch': 0.15} 15%|████████████████▌ | 99/681 [04:48<26:58, 2.78s/it] 15%|████████████████▌ | 100/681 [04:51<27:52, 2.88s/it] {'loss': 1.1246, 'grad_norm': 20.208816528320312, 'learning_rate': 4.970413680203148e-07, 'beta_dpo/gap_mean': 4.682595252990723, 'beta_dpo/gap_std': 6.322968482971191, 'beta_dpo/beta_used_raw': 0.07161588966846466, 'beta_dpo/beta_used': 0.07161588966846466, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -0.9340729117393494, 'logits/rejected': -0.8069697618484497, 'epoch': 0.15} 15%|████████████████▌ | 100/681 [04:51<27:52, 2.88s/it][INFO|trainer.py:4307] 2026-04-24 01:56:39,715 >> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-24 01:56:39,715 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-24 01:56:39,715 >> Batch size = 8 0%| | 0/73 [00:00> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-24 02:02:12,217 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-24 02:02:12,217 >> Batch size = 8 0%| | 0/73 [00:00> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200 [INFO|configuration_utils.py:419] 2026-04-24 02:03:10,552 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200/config.json [INFO|configuration_utils.py:911] 2026-04-24 02:03:10,555 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200/generation_config.json [INFO|modeling_utils.py:3580] 2026-04-24 02:03:49,896 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200/model.safetensors.index.json. [INFO|tokenization_utils_base.py:2510] 2026-04-24 02:03:49,899 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200/tokenizer_config.json [INFO|tokenization_utils_base.py:2519] 2026-04-24 02:03:49,901 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200/special_tokens_map.json 30%|████████████████████████████████▍ | 201/681 [14:55<11:06:44, 83.34s/it] {'loss': 1.0486, 'grad_norm': 16.888778686523438, 'learning_rate': 4.455721242469372e-07, 'beta_dpo/gap_mean': 12.999302864074707, 'beta_dpo/gap_std': 14.945844650268555, 'beta_dpo/beta_used_raw': 0.03660256415605545, 'beta_dpo/beta_used': 0.04337719827890396, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.4362549781799316, 'logits/rejected': -0.8436669707298279, 'epoch': 0.3} 30%|████████████████████████████████▍ | 201/681 [14:55<11:06:44, 83.34s/it] 30%|████████████████████████████████▉ | 202/681 [14:58<7:52:46, 59.22s/it] {'loss': 1.3289, 'grad_norm': 2.7122955322265625, 'learning_rate': 4.4477014363141755e-07, 'beta_dpo/gap_mean': 12.948795318603516, 'beta_dpo/gap_std': 15.3850679397583, 'beta_dpo/beta_used_raw': -0.022527314722537994, 'beta_dpo/beta_used': 0.005111072212457657, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2722792625427246, 'logits/rejected': -1.0189919471740723, 'epoch': 0.3} 30%|████████████████████████████████▉ | 202/681 [14:58<7:52:46, 59.22s/it] 30%|█████████████████████████████████ | 203/681 [15:01<5:37:37, 42.38s/it] {'loss': 0.8579, 'grad_norm': 56.114437103271484, 'learning_rate': 4.439630306414758e-07, 'beta_dpo/gap_mean': 13.006298065185547, 'beta_dpo/gap_std': 15.015997886657715, 'beta_dpo/beta_used_raw': 0.12862522900104523, 'beta_dpo/beta_used': 0.12862522900104523, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -1.3585411310195923, 'logits/rejected': -1.1620537042617798, 'epoch': 0.3} 30%|█████████████████████████████████ | 203/681 [15:01<5:37:37, 42.38s/it] 30%|█████████████████████████████████▎ | 204/681 [15:04<4:03:10, 30.59s/it] {'loss': 0.8967, 'grad_norm': 21.43082618713379, 'learning_rate': 4.431508065452897e-07, 'beta_dpo/gap_mean': 12.737507820129395, 'beta_dpo/gap_std': 15.283018112182617, 'beta_dpo/beta_used_raw': 0.054740045219659805, 'beta_dpo/beta_used': 0.0850096344947815, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5987844467163086, 'logits/rejected': -1.1546014547348022, 'epoch': 0.3} 30%|█████████████████████████████████▎ | 204/681 [15:04<4:03:10, 30.59s/it] 30%|█████████████████████████████████▍ | 205/681 [15:07<2:56:42, 22.27s/it] {'loss': 0.6706, 'grad_norm': 23.453872680664062, 'learning_rate': 4.4233349274571974e-07, 'beta_dpo/gap_mean': 13.173287391662598, 'beta_dpo/gap_std': 14.941397666931152, 'beta_dpo/beta_used_raw': 0.0995965451002121, 'beta_dpo/beta_used': 0.0995965451002121, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.287585973739624, 'logits/rejected': -0.8196157217025757, 'epoch': 0.3} 30%|█████████████████████████████████▍ | 205/681 [15:07<2:56:42, 22.27s/it] 30%|█████████████████████████████████▌ | 206/681 [15:09<2:09:59, 16.42s/it] {'loss': 0.4603, 'grad_norm': 31.56971549987793, 'learning_rate': 4.415111107797445e-07, 'beta_dpo/gap_mean': 13.55710220336914, 'beta_dpo/gap_std': 14.449283599853516, 'beta_dpo/beta_used_raw': 0.13683286309242249, 'beta_dpo/beta_used': 0.13683286309242249, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.7237926125526428, 'logits/rejected': -0.35238227248191833, 'epoch': 0.3} 30%|█████████████████████████████████▌ | 206/681 [15:10<2:09:59, 16.42s/it] 30%|█████████████████████████████████▋ | 207/681 [15:12<1:37:42, 12.37s/it] {'loss': 1.1526, 'grad_norm': 15.121429443359375, 'learning_rate': 4.4068368231789365e-07, 'beta_dpo/gap_mean': 13.621185302734375, 'beta_dpo/gap_std': 15.09548568725586, 'beta_dpo/beta_used_raw': -0.027833428233861923, 'beta_dpo/beta_used': 0.030014729127287865, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.298497438430786, 'logits/rejected': -1.8928518295288086, 'epoch': 0.3} 30%|█████████████████████████████████▋ | 207/681 [15:12<1:37:42, 12.37s/it] 31%|█████████████████████████████████▉ | 208/681 [15:15<1:15:09, 9.53s/it] {'loss': 0.4405, 'grad_norm': 34.89619445800781, 'learning_rate': 4.398512291636768e-07, 'beta_dpo/gap_mean': 13.768835067749023, 'beta_dpo/gap_std': 15.279106140136719, 'beta_dpo/beta_used_raw': 0.15946441888809204, 'beta_dpo/beta_used': 0.15946441888809204, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5797189474105835, 'logits/rejected': -1.104495644569397, 'epoch': 0.31} 31%|█████████████████████████████████▉ | 208/681 [15:15<1:15:09, 9.53s/it] 31%|██████████████████████████████████▋ | 209/681 [15:18<58:48, 7.47s/it] {'loss': 1.1714, 'grad_norm': 10.798962593078613, 'learning_rate': 4.3901377325300857e-07, 'beta_dpo/gap_mean': 13.984394073486328, 'beta_dpo/gap_std': 15.439398765563965, 'beta_dpo/beta_used_raw': -0.026145994663238525, 'beta_dpo/beta_used': 0.02266796864569187, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2947354316711426, 'logits/rejected': -1.006791353225708, 'epoch': 0.31} 31%|██████████████████████████████████▋ | 209/681 [15:18<58:48, 7.47s/it] 31%|██████████████████████████████████▊ | 210/681 [15:21<47:31, 6.05s/it] {'loss': 1.0328, 'grad_norm': 16.52035140991211, 'learning_rate': 4.381713366536311e-07, 'beta_dpo/gap_mean': 13.823338508605957, 'beta_dpo/gap_std': 15.4095458984375, 'beta_dpo/beta_used_raw': 0.04278234392404556, 'beta_dpo/beta_used': 0.04331028088927269, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.9326417446136475, 'logits/rejected': -1.2985832691192627, 'epoch': 0.31} 31%|██████████████████████████████████▊ | 210/681 [15:21<47:31, 6.05s/it] 31%|███████████████████████████████████ | 211/681 [15:23<39:20, 5.02s/it] {'loss': 1.0769, 'grad_norm': 24.701913833618164, 'learning_rate': 4.373239415645323e-07, 'beta_dpo/gap_mean': 13.721076965332031, 'beta_dpo/gap_std': 15.460807800292969, 'beta_dpo/beta_used_raw': -0.038681887090206146, 'beta_dpo/beta_used': 0.04574752599000931, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.6576852798461914, 'logits/rejected': -1.029742956161499, 'epoch': 0.31} 31%|███████████████████████████████████ | 211/681 [15:23<39:20, 5.02s/it] 31%|███████████████████████████████████▏ | 212/681 [15:26<34:10, 4.37s/it] {'loss': 0.3817, 'grad_norm': 51.808109283447266, 'learning_rate': 4.3647161031536086e-07, 'beta_dpo/gap_mean': 14.656517028808594, 'beta_dpo/gap_std': 15.86941909790039, 'beta_dpo/beta_used_raw': 0.2509711980819702, 'beta_dpo/beta_used': 0.2509711980819702, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.8365099430084229, 'logits/rejected': -1.1870900392532349, 'epoch': 0.31} 31%|███████████████████████████████████▏ | 212/681 [15:26<34:10, 4.37s/it] 31%|███████████████████████████████████▎ | 213/681 [15:29<31:13, 4.00s/it] {'loss': 1.0754, 'grad_norm': 28.643192291259766, 'learning_rate': 4.3561436536583774e-07, 'beta_dpo/gap_mean': 14.903135299682617, 'beta_dpo/gap_std': 15.852666854858398, 'beta_dpo/beta_used_raw': 0.007331036031246185, 'beta_dpo/beta_used': 0.04146008566021919, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5916590690612793, 'logits/rejected': -1.4091522693634033, 'epoch': 0.31} 31%|███████████████████████████████████▎ | 213/681 [15:29<31:13, 4.00s/it] 31%|███████████████████████████████████▌ | 214/681 [15:32<27:47, 3.57s/it] {'loss': 1.2192, 'grad_norm': 9.1444673538208, 'learning_rate': 4.3475222930516473e-07, 'beta_dpo/gap_mean': 14.58911418914795, 'beta_dpo/gap_std': 16.172378540039062, 'beta_dpo/beta_used_raw': -0.1139422208070755, 'beta_dpo/beta_used': 0.015493694692850113, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.299335241317749, 'logits/rejected': -0.966693639755249, 'epoch': 0.31} 31%|███████████████████████████████████▌ | 214/681 [15:32<27:47, 3.57s/it] 32%|███████████████████████████████████▋ | 215/681 [15:35<26:40, 3.44s/it] {'loss': 0.7435, 'grad_norm': 21.278892517089844, 'learning_rate': 4.3388522485142885e-07, 'beta_dpo/gap_mean': 14.976900100708008, 'beta_dpo/gap_std': 16.408676147460938, 'beta_dpo/beta_used_raw': 0.07507734000682831, 'beta_dpo/beta_used': 0.07507734000682831, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.205472707748413, 'logits/rejected': -0.8757593035697937, 'epoch': 0.32} 32%|███████████████████████████████████▋ | 215/681 [15:35<26:40, 3.44s/it] 32%|███████████████████████████████████▊ | 216/681 [15:38<25:45, 3.32s/it] {'loss': 1.0693, 'grad_norm': 13.734975814819336, 'learning_rate': 4.330133748510036e-07, 'beta_dpo/gap_mean': 14.79420280456543, 'beta_dpo/gap_std': 16.09663200378418, 'beta_dpo/beta_used_raw': -0.06867353618144989, 'beta_dpo/beta_used': 0.03626835718750954, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.366228699684143, 'logits/rejected': -1.189439058303833, 'epoch': 0.32} 32%|███████████████████████████████████▊ | 216/681 [15:38<25:45, 3.32s/it] 32%|████████████████████████████████████ | 217/681 [15:41<24:40, 3.19s/it] {'loss': 1.0775, 'grad_norm': 25.16986083984375, 'learning_rate': 4.3213670227794757e-07, 'beta_dpo/gap_mean': 14.434456825256348, 'beta_dpo/gap_std': 15.98811149597168, 'beta_dpo/beta_used_raw': -0.07117318361997604, 'beta_dpo/beta_used': 0.04537259042263031, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8399202823638916, 'logits/rejected': -1.6952290534973145, 'epoch': 0.32} 32%|████████████████████████████████████ | 217/681 [15:41<24:40, 3.19s/it] 32%|████████████████████████████████████▏ | 218/681 [15:44<24:01, 3.11s/it] {'loss': 0.843, 'grad_norm': 19.83509063720703, 'learning_rate': 4.3125523023339815e-07, 'beta_dpo/gap_mean': 14.49212646484375, 'beta_dpo/gap_std': 16.23577117919922, 'beta_dpo/beta_used_raw': 0.053243957459926605, 'beta_dpo/beta_used': 0.08779692649841309, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.025547981262207, 'logits/rejected': -0.8068137764930725, 'epoch': 0.32} 32%|████████████████████████████████████▏ | 218/681 [15:44<24:01, 3.11s/it] 32%|████████████████████████████████████▎ | 219/681 [15:47<23:41, 3.08s/it] {'loss': 1.0343, 'grad_norm': 15.10183334350586, 'learning_rate': 4.303689819449636e-07, 'beta_dpo/gap_mean': 14.216641426086426, 'beta_dpo/gap_std': 16.70601463317871, 'beta_dpo/beta_used_raw': 0.03714650496840477, 'beta_dpo/beta_used': 0.038829490542411804, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.3892719745635986, 'logits/rejected': -1.0883077383041382, 'epoch': 0.32} 32%|████████████████████████████████████▎ | 219/681 [15:47<23:41, 3.08s/it] 32%|████████████████████████████████████▌ | 220/681 [15:50<23:23, 3.04s/it] {'loss': 1.1295, 'grad_norm': 10.92718505859375, 'learning_rate': 4.2947798076611047e-07, 'beta_dpo/gap_mean': 14.02775764465332, 'beta_dpo/gap_std': 16.341564178466797, 'beta_dpo/beta_used_raw': 0.022933853790163994, 'beta_dpo/beta_used': 0.022933853790163994, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.247340202331543, 'logits/rejected': -1.210787296295166, 'epoch': 0.32} 32%|████████████████████████████████████▌ | 220/681 [15:50<23:23, 3.04s/it] 32%|████████████████████████████████████▋ | 221/681 [15:53<23:16, 3.04s/it] {'loss': 0.3889, 'grad_norm': 35.193336486816406, 'learning_rate': 4.285822501755485e-07, 'beta_dpo/gap_mean': 14.438077926635742, 'beta_dpo/gap_std': 15.995098114013672, 'beta_dpo/beta_used_raw': 0.253589391708374, 'beta_dpo/beta_used': 0.253589391708374, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.5756672024726868, 'logits/rejected': -0.727837324142456, 'epoch': 0.32} 32%|████████████████████████████████████▋ | 221/681 [15:53<23:16, 3.04s/it] 33%|████████████████████████████████████▊ | 222/681 [15:56<22:55, 3.00s/it] {'loss': 0.5451, 'grad_norm': 48.97563552856445, 'learning_rate': 4.276818137766118e-07, 'beta_dpo/gap_mean': 14.80112361907959, 'beta_dpo/gap_std': 16.69683837890625, 'beta_dpo/beta_used_raw': 0.1512635350227356, 'beta_dpo/beta_used': 0.1512635350227356, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5134377479553223, 'logits/rejected': -1.0653544664382935, 'epoch': 0.33} 33%|████████████████████████████████████▊ | 222/681 [15:56<22:55, 3.00s/it] 33%|█████████████████████████████████████ | 223/681 [15:58<21:56, 2.87s/it] {'loss': 1.3738, 'grad_norm': 0.5194804072380066, 'learning_rate': 4.2677669529663686e-07, 'beta_dpo/gap_mean': 14.758966445922852, 'beta_dpo/gap_std': 17.08310317993164, 'beta_dpo/beta_used_raw': -0.025954080745577812, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5161755084991455, 'logits/rejected': -1.2484257221221924, 'epoch': 0.33} 33%|█████████████████████████████████████ | 223/681 [15:58<21:56, 2.87s/it] 33%|█████████████████████████████████████▏ | 224/681 [16:01<20:54, 2.74s/it] {'loss': 0.9883, 'grad_norm': 45.95803451538086, 'learning_rate': 4.2586691858633747e-07, 'beta_dpo/gap_mean': 14.644186019897461, 'beta_dpo/gap_std': 17.055156707763672, 'beta_dpo/beta_used_raw': -0.0033410415053367615, 'beta_dpo/beta_used': 0.09249898791313171, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.6961524486541748, 'logits/rejected': -1.0969496965408325, 'epoch': 0.33} 33%|█████████████████████████████████████▏ | 224/681 [16:01<20:54, 2.74s/it] 33%|█████████████████████████████████████▎ | 225/681 [16:03<20:34, 2.71s/it] {'loss': 0.4851, 'grad_norm': 43.80759048461914, 'learning_rate': 4.249525076191759e-07, 'beta_dpo/gap_mean': 15.002262115478516, 'beta_dpo/gap_std': 17.485044479370117, 'beta_dpo/beta_used_raw': 0.21849367022514343, 'beta_dpo/beta_used': 0.21849367022514343, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.022803783416748, 'logits/rejected': -1.1923706531524658, 'epoch': 0.33} 33%|█████████████████████████████████████▎ | 225/681 [16:03<20:34, 2.71s/it] 33%|█████████████████████████████████████▌ | 226/681 [16:06<21:11, 2.80s/it] {'loss': 0.9455, 'grad_norm': 30.993896484375, 'learning_rate': 4.2403348649073167e-07, 'beta_dpo/gap_mean': 15.346711158752441, 'beta_dpo/gap_std': 17.219505310058594, 'beta_dpo/beta_used_raw': 0.06650637090206146, 'beta_dpo/beta_used': 0.07541501522064209, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.4473025798797607, 'logits/rejected': -0.7017968893051147, 'epoch': 0.33} 33%|█████████████████████████████████████▌ | 226/681 [16:06<21:11, 2.80s/it] 33%|█████████████████████████████████████▋ | 227/681 [16:09<20:47, 2.75s/it] {'loss': 1.1573, 'grad_norm': 55.5523796081543, 'learning_rate': 4.2310987941806615e-07, 'beta_dpo/gap_mean': 15.228629112243652, 'beta_dpo/gap_std': 17.45088005065918, 'beta_dpo/beta_used_raw': 0.09833408892154694, 'beta_dpo/beta_used': 0.14083002507686615, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.8681109547615051, 'logits/rejected': -0.7855240106582642, 'epoch': 0.33} 33%|█████████████████████████████████████▋ | 227/681 [16:09<20:47, 2.75s/it] 33%|█████████████████████████████████████▊ | 228/681 [16:12<21:13, 2.81s/it] {'loss': 0.972, 'grad_norm': 19.148212432861328, 'learning_rate': 4.2218171073908463e-07, 'beta_dpo/gap_mean': 14.790523529052734, 'beta_dpo/gap_std': 16.98739242553711, 'beta_dpo/beta_used_raw': 0.046257004141807556, 'beta_dpo/beta_used': 0.046257004141807556, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7377731800079346, 'logits/rejected': -1.401872158050537, 'epoch': 0.33} 33%|█████████████████████████████████████▊ | 228/681 [16:12<21:13, 2.81s/it] 34%|█████████████████████████████████████▉ | 229/681 [16:15<21:22, 2.84s/it] {'loss': 0.8929, 'grad_norm': 41.02910232543945, 'learning_rate': 4.212490049118951e-07, 'beta_dpo/gap_mean': 15.433286666870117, 'beta_dpo/gap_std': 17.089149475097656, 'beta_dpo/beta_used_raw': 0.10478197783231735, 'beta_dpo/beta_used': 0.10670603811740875, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8957240581512451, 'logits/rejected': -0.95273357629776, 'epoch': 0.34} 34%|█████████████████████████████████████▉ | 229/681 [16:15<21:22, 2.84s/it] 34%|██████████████████████████████████████▏ | 230/681 [16:18<20:58, 2.79s/it] {'loss': 0.3956, 'grad_norm': 47.157413482666016, 'learning_rate': 4.203117865141635e-07, 'beta_dpo/gap_mean': 16.245468139648438, 'beta_dpo/gap_std': 17.074111938476562, 'beta_dpo/beta_used_raw': 0.23959508538246155, 'beta_dpo/beta_used': 0.23959508538246155, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.0739693641662598, 'logits/rejected': -1.6560773849487305, 'epoch': 0.34} 34%|██████████████████████████████████████▏ | 230/681 [16:18<20:58, 2.79s/it] 34%|██████████████████████████████████████▎ | 231/681 [16:21<21:36, 2.88s/it] {'loss': 1.3735, 'grad_norm': 0.5642727613449097, 'learning_rate': 4.1937008024246625e-07, 'beta_dpo/gap_mean': 16.15087127685547, 'beta_dpo/gap_std': 16.743568420410156, 'beta_dpo/beta_used_raw': -0.10665209591388702, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -2.107431411743164, 'logits/rejected': -1.350379467010498, 'epoch': 0.34} 34%|██████████████████████████████████████▎ | 231/681 [16:21<21:36, 2.88s/it] 34%|██████████████████████████████████████▍ | 232/681 [16:24<21:42, 2.90s/it] {'loss': 1.1455, 'grad_norm': 10.909036636352539, 'learning_rate': 4.1842391091163933e-07, 'beta_dpo/gap_mean': 15.72067928314209, 'beta_dpo/gap_std': 16.699817657470703, 'beta_dpo/beta_used_raw': -0.013602446764707565, 'beta_dpo/beta_used': 0.022975584492087364, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -0.8957525491714478, 'logits/rejected': -0.3968271017074585, 'epoch': 0.34} 34%|██████████████████████████████████████▍ | 232/681 [16:24<21:42, 2.90s/it] 34%|██████████████████████████████████████▋ | 233/681 [16:27<22:05, 2.96s/it] {'loss': 0.5632, 'grad_norm': 47.163082122802734, 'learning_rate': 4.174733034541245e-07, 'beta_dpo/gap_mean': 16.100704193115234, 'beta_dpo/gap_std': 16.955623626708984, 'beta_dpo/beta_used_raw': 0.19611503183841705, 'beta_dpo/beta_used': 0.19611503183841705, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.7504737973213196, 'logits/rejected': -0.7375265955924988, 'epoch': 0.34} 34%|██████████████████████████████████████▋ | 233/681 [16:27<22:05, 2.96s/it] 34%|██████████████████████████████████████▊ | 234/681 [16:30<22:16, 2.99s/it] {'loss': 0.9703, 'grad_norm': 43.946189880371094, 'learning_rate': 4.165182829193126e-07, 'beta_dpo/gap_mean': 17.05381965637207, 'beta_dpo/gap_std': 17.666168212890625, 'beta_dpo/beta_used_raw': -0.004454091191291809, 'beta_dpo/beta_used': 0.11440300941467285, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.0023349523544312, 'logits/rejected': -0.7694397568702698, 'epoch': 0.34} 34%|██████████████████████████████████████▊ | 234/681 [16:30<22:16, 2.99s/it] 35%|██████████████████████████████████████▉ | 235/681 [16:33<21:41, 2.92s/it] {'loss': 1.3728, 'grad_norm': 0.5770571827888489, 'learning_rate': 4.1555887447288255e-07, 'beta_dpo/gap_mean': 16.602458953857422, 'beta_dpo/gap_std': 17.500028610229492, 'beta_dpo/beta_used_raw': -0.08463907241821289, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.5492238402366638, 'logits/rejected': -0.09408207982778549, 'epoch': 0.35} 35%|██████████████████████████████████████▉ | 235/681 [16:33<21:41, 2.92s/it] 35%|███████████████████████████████████████▏ | 236/681 [16:36<21:51, 2.95s/it] {'loss': 1.1522, 'grad_norm': 10.533134460449219, 'learning_rate': 4.1459510339613946e-07, 'beta_dpo/gap_mean': 16.79233741760254, 'beta_dpo/gap_std': 18.010557174682617, 'beta_dpo/beta_used_raw': -0.0335993617773056, 'beta_dpo/beta_used': 0.02071463130414486, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1379200220108032, 'logits/rejected': -1.1965206861495972, 'epoch': 0.35} 35%|███████████████████████████████████████▏ | 236/681 [16:36<21:51, 2.95s/it] 35%|███████████████████████████████████████▎ | 237/681 [16:39<22:02, 2.98s/it] {'loss': 1.3739, 'grad_norm': 0.5797684788703918, 'learning_rate': 4.136269950853473e-07, 'beta_dpo/gap_mean': 16.931236267089844, 'beta_dpo/gap_std': 19.234132766723633, 'beta_dpo/beta_used_raw': -0.1416703164577484, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.082244873046875, 'logits/rejected': -0.766608715057373, 'epoch': 0.35} 35%|███████████████████████████████████████▎ | 237/681 [16:39<22:02, 2.98s/it] 35%|███████████████████████████████████████▍ | 238/681 [16:42<22:29, 3.05s/it] {'loss': 0.9083, 'grad_norm': 15.43837833404541, 'learning_rate': 4.126545750510605e-07, 'beta_dpo/gap_mean': 16.68514060974121, 'beta_dpo/gap_std': 19.14327049255371, 'beta_dpo/beta_used_raw': 0.043054625391960144, 'beta_dpo/beta_used': 0.043054625391960144, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.263676404953003, 'logits/rejected': -1.2675501108169556, 'epoch': 0.35} 35%|███████████████████████████████████████▍ | 238/681 [16:42<22:29, 3.05s/it] 35%|███████████████████████████████████████▋ | 239/681 [16:44<21:34, 2.93s/it] {'loss': 0.8536, 'grad_norm': 35.777400970458984, 'learning_rate': 4.116778689174514e-07, 'beta_dpo/gap_mean': 16.43265151977539, 'beta_dpo/gap_std': 18.66457748413086, 'beta_dpo/beta_used_raw': -0.05012969672679901, 'beta_dpo/beta_used': 0.10590211302042007, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.411913275718689, 'logits/rejected': -0.9554502964019775, 'epoch': 0.35} 35%|███████████████████████████████████████▋ | 239/681 [16:45<21:34, 2.93s/it] 35%|███████████████████████████████████████▊ | 240/681 [16:47<21:31, 2.93s/it] {'loss': 1.3676, 'grad_norm': 0.7293118238449097, 'learning_rate': 4.106969024216348e-07, 'beta_dpo/gap_mean': 15.894089698791504, 'beta_dpo/gap_std': 18.250343322753906, 'beta_dpo/beta_used_raw': -0.018202736973762512, 'beta_dpo/beta_used': 0.0013544057728722692, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.32597017288208, 'logits/rejected': -1.1729243993759155, 'epoch': 0.35} 35%|███████████████████████████████████████▊ | 240/681 [16:47<21:31, 2.93s/it] 35%|███████████████████████████████████████▉ | 241/681 [16:50<21:06, 2.88s/it] {'loss': 0.4013, 'grad_norm': 67.17617797851562, 'learning_rate': 4.097117014129903e-07, 'beta_dpo/gap_mean': 16.478500366210938, 'beta_dpo/gap_std': 18.057748794555664, 'beta_dpo/beta_used_raw': 0.260785311460495, 'beta_dpo/beta_used': 0.260785311460495, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8056962490081787, 'logits/rejected': -0.977647066116333, 'epoch': 0.35} 35%|███████████████████████████████████████▉ | 241/681 [16:50<21:06, 2.88s/it] 36%|████████████████████████████████████████▏ | 242/681 [16:53<20:50, 2.85s/it] {'loss': 0.8685, 'grad_norm': 49.057254791259766, 'learning_rate': 4.087222918524807e-07, 'beta_dpo/gap_mean': 16.862356185913086, 'beta_dpo/gap_std': 18.165666580200195, 'beta_dpo/beta_used_raw': 0.13850098848342896, 'beta_dpo/beta_used': 0.14323639869689941, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.4334087371826172, 'logits/rejected': -1.16968834400177, 'epoch': 0.36} 36%|████████████████████████████████████████▏ | 242/681 [16:53<20:50, 2.85s/it] 36%|████████████████████████████████████████▎ | 243/681 [16:56<20:48, 2.85s/it] {'loss': 0.4084, 'grad_norm': 26.01089859008789, 'learning_rate': 4.07728699811968e-07, 'beta_dpo/gap_mean': 16.813247680664062, 'beta_dpo/gap_std': 18.005495071411133, 'beta_dpo/beta_used_raw': 0.21399369835853577, 'beta_dpo/beta_used': 0.21399369835853577, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.286488652229309, 'logits/rejected': -0.5671318173408508, 'epoch': 0.36} 36%|████████████████████████████████████████▎ | 243/681 [16:56<20:48, 2.85s/it] 36%|████████████████████████████████████████▍ | 244/681 [16:59<21:05, 2.90s/it] {'loss': 1.3722, 'grad_norm': 0.628965437412262, 'learning_rate': 4.067309514735267e-07, 'beta_dpo/gap_mean': 17.121925354003906, 'beta_dpo/gap_std': 18.0570068359375, 'beta_dpo/beta_used_raw': -0.07187733054161072, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.109622001647949, 'logits/rejected': -1.9282748699188232, 'epoch': 0.36} 36%|████████████████████████████████████████▍ | 244/681 [16:59<21:05, 2.90s/it] 36%|████████████████████████████████████████▋ | 245/681 [17:02<21:15, 2.93s/it] {'loss': 0.8853, 'grad_norm': 23.871013641357422, 'learning_rate': 4.057290731287531e-07, 'beta_dpo/gap_mean': 17.39687728881836, 'beta_dpo/gap_std': 18.113006591796875, 'beta_dpo/beta_used_raw': 0.008601933717727661, 'beta_dpo/beta_used': 0.06885449588298798, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9358984231948853, 'logits/rejected': -0.6926010847091675, 'epoch': 0.36} 36%|████████████████████████████████████████▋ | 245/681 [17:02<21:15, 2.93s/it] 36%|████████████████████████████████████████▊ | 246/681 [17:05<21:21, 2.95s/it] {'loss': 1.0859, 'grad_norm': 11.873096466064453, 'learning_rate': 4.047230911780736e-07, 'beta_dpo/gap_mean': 17.159767150878906, 'beta_dpo/gap_std': 17.97473907470703, 'beta_dpo/beta_used_raw': -0.1078411415219307, 'beta_dpo/beta_used': 0.02485613524913788, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.774381399154663, 'logits/rejected': -1.4926104545593262, 'epoch': 0.36} 36%|████████████████████████████████████████▊ | 246/681 [17:05<21:21, 2.95s/it] 36%|████████████████████████████████████████▉ | 247/681 [17:08<21:02, 2.91s/it] {'loss': 0.8472, 'grad_norm': 16.94463348388672, 'learning_rate': 4.0371303213004814e-07, 'beta_dpo/gap_mean': 17.497295379638672, 'beta_dpo/gap_std': 18.711734771728516, 'beta_dpo/beta_used_raw': 0.05106119439005852, 'beta_dpo/beta_used': 0.09282705932855606, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -2.484321117401123, 'logits/rejected': -1.9094198942184448, 'epoch': 0.36} 36%|████████████████████████████████████████▉ | 247/681 [17:08<21:02, 2.91s/it] 36%|█████████████████████████████████████████▏ | 248/681 [17:11<20:59, 2.91s/it] {'loss': 1.3736, 'grad_norm': 0.5134167075157166, 'learning_rate': 4.0269892260067197e-07, 'beta_dpo/gap_mean': 17.24135971069336, 'beta_dpo/gap_std': 18.60338020324707, 'beta_dpo/beta_used_raw': -0.16252590715885162, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.9478964805603027, 'logits/rejected': -1.7901415824890137, 'epoch': 0.36} 36%|█████████████████████████████████████████▏ | 248/681 [17:11<20:59, 2.91s/it] 37%|█████████████████████████████████████████▎ | 249/681 [17:13<20:30, 2.85s/it] {'loss': 1.3735, 'grad_norm': 0.5049749612808228, 'learning_rate': 4.0168078931267426e-07, 'beta_dpo/gap_mean': 16.688066482543945, 'beta_dpo/gap_std': 18.753692626953125, 'beta_dpo/beta_used_raw': -0.08990784734487534, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.6443979740142822, 'logits/rejected': -1.204066514968872, 'epoch': 0.37} 37%|█████████████████████████████████████████▎ | 249/681 [17:13<20:30, 2.85s/it] 37%|█████████████████████████████████████████▍ | 250/681 [17:16<20:13, 2.82s/it] {'loss': 1.1315, 'grad_norm': 69.31681823730469, 'learning_rate': 4.006586590948141e-07, 'beta_dpo/gap_mean': 16.183063507080078, 'beta_dpo/gap_std': 18.758853912353516, 'beta_dpo/beta_used_raw': 0.11648933589458466, 'beta_dpo/beta_used': 0.12853886187076569, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.9143394231796265, 'logits/rejected': -1.0378131866455078, 'epoch': 0.37} 37%|█████████████████████████████████████████▍ | 250/681 [17:16<20:13, 2.82s/it] 37%|█████████████████████████████████████████▋ | 251/681 [17:19<20:08, 2.81s/it] {'loss': 0.9538, 'grad_norm': 38.703819274902344, 'learning_rate': 3.9963255888117325e-07, 'beta_dpo/gap_mean': 15.786233901977539, 'beta_dpo/gap_std': 18.349742889404297, 'beta_dpo/beta_used_raw': -0.040085241198539734, 'beta_dpo/beta_used': 0.12471996992826462, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.8796600103378296, 'logits/rejected': -0.8574713468551636, 'epoch': 0.37} 37%|█████████████████████████████████████████▋ | 251/681 [17:19<20:08, 2.81s/it] 37%|█████████████████████████████████████████▊ | 252/681 [17:22<20:28, 2.86s/it] {'loss': 1.1108, 'grad_norm': 16.276369094848633, 'learning_rate': 3.9860251571044666e-07, 'beta_dpo/gap_mean': 15.278026580810547, 'beta_dpo/gap_std': 17.97142219543457, 'beta_dpo/beta_used_raw': 0.030149439349770546, 'beta_dpo/beta_used': 0.03168496862053871, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1928433179855347, 'logits/rejected': -0.7398958802223206, 'epoch': 0.37} 37%|█████████████████████████████████████████▊ | 252/681 [17:22<20:28, 2.86s/it] 37%|█████████████████████████████████████████▉ | 253/681 [17:25<20:45, 2.91s/it] {'loss': 0.8353, 'grad_norm': 44.42042541503906, 'learning_rate': 3.9756855672522986e-07, 'beta_dpo/gap_mean': 14.929329872131348, 'beta_dpo/gap_std': 17.659282684326172, 'beta_dpo/beta_used_raw': 0.09505901485681534, 'beta_dpo/beta_used': 0.16947996616363525, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2876951694488525, 'logits/rejected': -0.822074830532074, 'epoch': 0.37} 37%|█████████████████████████████████████████▉ | 253/681 [17:25<20:45, 2.91s/it] 37%|██████████████████████████████████████████▏ | 254/681 [17:28<21:14, 2.98s/it] {'loss': 0.9635, 'grad_norm': 29.85235595703125, 'learning_rate': 3.965307091713037e-07, 'beta_dpo/gap_mean': 15.008431434631348, 'beta_dpo/gap_std': 17.31850814819336, 'beta_dpo/beta_used_raw': 0.0370587520301342, 'beta_dpo/beta_used': 0.07628422975540161, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.848065972328186, 'logits/rejected': -0.8653386831283569, 'epoch': 0.37} 37%|██████████████████████████████████████████▏ | 254/681 [17:28<21:14, 2.98s/it] 37%|██████████████████████████████████████████▎ | 255/681 [17:31<20:43, 2.92s/it] {'loss': 0.6151, 'grad_norm': 71.72965240478516, 'learning_rate': 3.954890003969163e-07, 'beta_dpo/gap_mean': 14.993793487548828, 'beta_dpo/gap_std': 17.258270263671875, 'beta_dpo/beta_used_raw': 0.2053917944431305, 'beta_dpo/beta_used': 0.2053917944431305, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6960498094558716, 'logits/rejected': -1.232972264289856, 'epoch': 0.37} 37%|██████████████████████████████████████████▎ | 255/681 [17:31<20:43, 2.92s/it] 38%|██████████████████████████████████████████▍ | 256/681 [17:33<20:24, 2.88s/it] {'loss': 0.4976, 'grad_norm': 71.81951904296875, 'learning_rate': 3.944434578520628e-07, 'beta_dpo/gap_mean': 15.53835391998291, 'beta_dpo/gap_std': 17.70315170288086, 'beta_dpo/beta_used_raw': 0.24883843958377838, 'beta_dpo/beta_used': 0.24883843958377838, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5790761709213257, 'logits/rejected': -1.3537611961364746, 'epoch': 0.38} 38%|██████████████████████████████████████████▍ | 256/681 [17:34<20:24, 2.88s/it] 38%|██████████████████████████████████████████▋ | 257/681 [17:36<20:36, 2.92s/it] {'loss': 1.0018, 'grad_norm': 42.911102294921875, 'learning_rate': 3.933941090877615e-07, 'beta_dpo/gap_mean': 16.239253997802734, 'beta_dpo/gap_std': 18.342966079711914, 'beta_dpo/beta_used_raw': 0.02169763669371605, 'beta_dpo/beta_used': 0.06511445343494415, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5112509727478027, 'logits/rejected': -0.863937497138977, 'epoch': 0.38} 38%|██████████████████████████████████████████▋ | 257/681 [17:37<20:36, 2.92s/it] 38%|██████████████████████████████████████████▊ | 258/681 [17:39<19:52, 2.82s/it] {'loss': 0.4068, 'grad_norm': 47.87943649291992, 'learning_rate': 3.923409817553284e-07, 'beta_dpo/gap_mean': 16.093191146850586, 'beta_dpo/gap_std': 17.990446090698242, 'beta_dpo/beta_used_raw': 0.2228226512670517, 'beta_dpo/beta_used': 0.2228226512670517, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.145803451538086, 'logits/rejected': -1.6822357177734375, 'epoch': 0.38} 38%|██████████████████████████████████████████▊ | 258/681 [17:39<19:52, 2.82s/it] 38%|██████████████████████████████████████████▉ | 259/681 [17:42<20:12, 2.87s/it] {'loss': 1.1857, 'grad_norm': 9.490212440490723, 'learning_rate': 3.9128410360564793e-07, 'beta_dpo/gap_mean': 16.06846046447754, 'beta_dpo/gap_std': 18.156803131103516, 'beta_dpo/beta_used_raw': -0.009284183382987976, 'beta_dpo/beta_used': 0.016522977501153946, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.6225954294204712, 'logits/rejected': 0.12847939133644104, 'epoch': 0.38} 38%|██████████████████████████████████████████▉ | 259/681 [17:42<20:12, 2.87s/it] 38%|███████████████████████████████████████████▏ | 260/681 [17:45<20:32, 2.93s/it] {'loss': 0.9837, 'grad_norm': 24.094758987426758, 'learning_rate': 3.9022350248844246e-07, 'beta_dpo/gap_mean': 15.638516426086426, 'beta_dpo/gap_std': 18.49860382080078, 'beta_dpo/beta_used_raw': 0.05389215424656868, 'beta_dpo/beta_used': 0.05389215424656868, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7264130711555481, 'logits/rejected': -0.6564480066299438, 'epoch': 0.38} 38%|███████████████████████████████████████████▏ | 260/681 [17:45<20:32, 2.93s/it] 38%|███████████████████████████████████████████▎ | 261/681 [17:48<19:34, 2.80s/it] {'loss': 0.958, 'grad_norm': 28.612140655517578, 'learning_rate': 3.891592063515376e-07, 'beta_dpo/gap_mean': 15.851795196533203, 'beta_dpo/gap_std': 18.720157623291016, 'beta_dpo/beta_used_raw': 0.06343812495470047, 'beta_dpo/beta_used': 0.07325537502765656, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.4056403636932373, 'logits/rejected': -2.0737316608428955, 'epoch': 0.38} 38%|███████████████████████████████████████████▎ | 261/681 [17:48<19:34, 2.80s/it] 38%|███████████████████████████████████████████▍ | 262/681 [17:50<19:38, 2.81s/it] {'loss': 0.8197, 'grad_norm': 30.337125778198242, 'learning_rate': 3.880912432401264e-07, 'beta_dpo/gap_mean': 15.816585540771484, 'beta_dpo/gap_std': 18.276844024658203, 'beta_dpo/beta_used_raw': 0.07019668817520142, 'beta_dpo/beta_used': 0.1220453754067421, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.315596580505371, 'logits/rejected': -0.7939830422401428, 'epoch': 0.38} 38%|███████████████████████████████████████████▍ | 262/681 [17:51<19:38, 2.81s/it] 39%|███████████████████████████████████████████▋ | 263/681 [17:53<19:33, 2.81s/it] {'loss': 0.6229, 'grad_norm': 81.57725524902344, 'learning_rate': 3.870196412960302e-07, 'beta_dpo/gap_mean': 16.783252716064453, 'beta_dpo/gap_std': 18.60260772705078, 'beta_dpo/beta_used_raw': 0.2112702876329422, 'beta_dpo/beta_used': 0.2112702876329422, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.479870080947876, 'logits/rejected': -1.969857931137085, 'epoch': 0.39} 39%|███████████████████████████████████████████▋ | 263/681 [17:53<19:33, 2.81s/it] 39%|███████████████████████████████████████████▊ | 264/681 [17:56<20:00, 2.88s/it] {'loss': 0.5789, 'grad_norm': 41.35186767578125, 'learning_rate': 3.8594442875695665e-07, 'beta_dpo/gap_mean': 17.149694442749023, 'beta_dpo/gap_std': 18.860740661621094, 'beta_dpo/beta_used_raw': 0.14798879623413086, 'beta_dpo/beta_used': 0.14798879623413086, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.416067600250244, 'logits/rejected': -1.8507721424102783, 'epoch': 0.39} 39%|███████████████████████████████████████████▊ | 264/681 [17:56<20:00, 2.88s/it] 39%|███████████████████████████████████████████▉ | 265/681 [17:59<19:38, 2.83s/it] {'loss': 1.3732, 'grad_norm': 0.48281610012054443, 'learning_rate': 3.848656339557562e-07, 'beta_dpo/gap_mean': 17.3541259765625, 'beta_dpo/gap_std': 19.03475570678711, 'beta_dpo/beta_used_raw': -0.15261715650558472, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.9840517044067383, 'logits/rejected': -1.0997028350830078, 'epoch': 0.39} 39%|███████████████████████████████████████████▉ | 265/681 [17:59<19:38, 2.83s/it] 39%|████████████████████████████████████████████▏ | 266/681 [18:02<19:33, 2.83s/it] {'loss': 1.1, 'grad_norm': 14.177918434143066, 'learning_rate': 3.8378328531967507e-07, 'beta_dpo/gap_mean': 16.781330108642578, 'beta_dpo/gap_std': 18.97824478149414, 'beta_dpo/beta_used_raw': 0.009278932586312294, 'beta_dpo/beta_used': 0.028951261192560196, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7325778007507324, 'logits/rejected': -0.572989821434021, 'epoch': 0.39} 39%|████████████████████████████████████████████▏ | 266/681 [18:02<19:33, 2.83s/it] 39%|████████████████████████████████████████████▎ | 267/681 [18:05<19:55, 2.89s/it] {'loss': 0.7697, 'grad_norm': 28.271018981933594, 'learning_rate': 3.8269741136960646e-07, 'beta_dpo/gap_mean': 17.111412048339844, 'beta_dpo/gap_std': 18.73262596130371, 'beta_dpo/beta_used_raw': 0.08866294473409653, 'beta_dpo/beta_used': 0.08866294473409653, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.7354084253311157, 'logits/rejected': -1.1105022430419922, 'epoch': 0.39} 39%|████████████████████████████████████████████▎ | 267/681 [18:05<19:55, 2.89s/it] 39%|████████████████████████████████████████████▍ | 268/681 [18:08<19:51, 2.89s/it] {'loss': 0.8855, 'grad_norm': 16.701509475708008, 'learning_rate': 3.8160804071933894e-07, 'beta_dpo/gap_mean': 17.12268829345703, 'beta_dpo/gap_std': 18.194721221923828, 'beta_dpo/beta_used_raw': 0.05076988786458969, 'beta_dpo/beta_used': 0.05076988786458969, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7248194217681885, 'logits/rejected': -0.3424651622772217, 'epoch': 0.39} 39%|████████████████████████████████████████████▍ | 268/681 [18:08<19:51, 2.89s/it] 40%|████████████████████████████████████████████▋ | 269/681 [18:11<19:34, 2.85s/it] {'loss': 0.8166, 'grad_norm': 29.299842834472656, 'learning_rate': 3.8051520207480204e-07, 'beta_dpo/gap_mean': 17.397462844848633, 'beta_dpo/gap_std': 18.34782600402832, 'beta_dpo/beta_used_raw': 0.10103872418403625, 'beta_dpo/beta_used': 0.10103872418403625, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.2202186584472656, 'logits/rejected': -1.583660364151001, 'epoch': 0.4} 40%|████████████████████████████████████████████▋ | 269/681 [18:11<19:34, 2.85s/it] 40%|████████████████████████████████████████████▊ | 270/681 [18:14<20:02, 2.93s/it] {'loss': 0.9573, 'grad_norm': 49.17156982421875, 'learning_rate': 3.794189242333106e-07, 'beta_dpo/gap_mean': 17.6357421875, 'beta_dpo/gap_std': 18.888328552246094, 'beta_dpo/beta_used_raw': 0.01920953392982483, 'beta_dpo/beta_used': 0.11783033609390259, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.5414323806762695, 'logits/rejected': -1.5535459518432617, 'epoch': 0.4} 40%|████████████████████████████████████████████▊ | 270/681 [18:14<20:02, 2.93s/it] 40%|████████████████████████████████████████████▉ | 271/681 [18:16<19:34, 2.87s/it] {'loss': 0.2862, 'grad_norm': 39.75117492675781, 'learning_rate': 3.7831923608280514e-07, 'beta_dpo/gap_mean': 17.942276000976562, 'beta_dpo/gap_std': 19.22007179260254, 'beta_dpo/beta_used_raw': 0.2534657418727875, 'beta_dpo/beta_used': 0.2534657418727875, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.6566705703735352, 'logits/rejected': -0.9555039405822754, 'epoch': 0.4} 40%|████████████████████████████████████████████▉ | 271/681 [18:16<19:34, 2.87s/it] 40%|█████████████████████████████████████████████▏ | 272/681 [18:19<19:45, 2.90s/it] {'loss': 0.9745, 'grad_norm': 23.56406021118164, 'learning_rate': 3.772161666010912e-07, 'beta_dpo/gap_mean': 18.281635284423828, 'beta_dpo/gap_std': 19.472030639648438, 'beta_dpo/beta_used_raw': 0.03210698813199997, 'beta_dpo/beta_used': 0.05589652433991432, 'beta_dpo/mask_keep_frac': 0.5, 'logits/chosen': -2.1835896968841553, 'logits/rejected': -2.0108699798583984, 'epoch': 0.4} 40%|█████████████████████████████████████████████▏ | 272/681 [18:19<19:45, 2.90s/it] 40%|█████████████████████████████████████████████▎ | 273/681 [18:22<19:17, 2.84s/it] {'loss': 0.7957, 'grad_norm': 59.734561920166016, 'learning_rate': 3.761097448550755e-07, 'beta_dpo/gap_mean': 18.84831428527832, 'beta_dpo/gap_std': 19.925540924072266, 'beta_dpo/beta_used_raw': 0.1337103396654129, 'beta_dpo/beta_used': 0.1337103396654129, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.7125663757324219, 'logits/rejected': -1.1651277542114258, 'epoch': 0.4} 40%|█████████████████████████████████████████████▎ | 273/681 [18:22<19:17, 2.84s/it] 40%|█████████████████████████████████████████████▍ | 274/681 [18:25<18:59, 2.80s/it] {'loss': 1.0872, 'grad_norm': 11.591614723205566, 'learning_rate': 3.75e-07, 'beta_dpo/gap_mean': 18.44357681274414, 'beta_dpo/gap_std': 19.366474151611328, 'beta_dpo/beta_used_raw': -0.06161361187696457, 'beta_dpo/beta_used': 0.024842973798513412, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2841222286224365, 'logits/rejected': -1.130070447921753, 'epoch': 0.4} 40%|█████████████████████████████████████████████▍ | 274/681 [18:25<18:59, 2.80s/it] 40%|█████████████████████████████████████████████▋ | 275/681 [18:28<19:42, 2.91s/it] {'loss': 0.832, 'grad_norm': 72.93920135498047, 'learning_rate': 3.738869612786737e-07, 'beta_dpo/gap_mean': 17.91891860961914, 'beta_dpo/gap_std': 18.584510803222656, 'beta_dpo/beta_used_raw': 0.13920262455940247, 'beta_dpo/beta_used': 0.18502850830554962, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.4037299156188965, 'logits/rejected': -2.062166690826416, 'epoch': 0.4} 40%|█████████████████████████████████████████████▋ | 275/681 [18:28<19:42, 2.91s/it] 41%|█████████████████████████████████████████████▊ | 276/681 [18:31<19:12, 2.85s/it] {'loss': 0.9701, 'grad_norm': 47.03031921386719, 'learning_rate': 3.7277065802070204e-07, 'beta_dpo/gap_mean': 17.996925354003906, 'beta_dpo/gap_std': 18.459285736083984, 'beta_dpo/beta_used_raw': -0.02612786740064621, 'beta_dpo/beta_used': 0.0947640910744667, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2630318403244019, 'logits/rejected': -1.0531865358352661, 'epoch': 0.41} 41%|█████████████████████████████████████████████▊ | 276/681 [18:31<19:12, 2.85s/it] 41%|█████████████████████████████████████████████▉ | 277/681 [18:33<18:47, 2.79s/it] {'loss': 0.7939, 'grad_norm': 19.697120666503906, 'learning_rate': 3.71651119641714e-07, 'beta_dpo/gap_mean': 17.348060607910156, 'beta_dpo/gap_std': 17.54006576538086, 'beta_dpo/beta_used_raw': 0.12454156577587128, 'beta_dpo/beta_used': 0.12786605954170227, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6277648210525513, 'logits/rejected': -1.226701021194458, 'epoch': 0.41} 41%|█████████████████████████████████████████████▉ | 277/681 [18:33<18:47, 2.79s/it] 41%|██████████████████████████████████████████████▏ | 278/681 [18:36<19:05, 2.84s/it] {'loss': 0.9127, 'grad_norm': 76.3206787109375, 'learning_rate': 3.705283756425872e-07, 'beta_dpo/gap_mean': 17.38713836669922, 'beta_dpo/gap_std': 17.585594177246094, 'beta_dpo/beta_used_raw': 0.12097430229187012, 'beta_dpo/beta_used': 0.19851908087730408, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.005500316619873, 'logits/rejected': -1.8199653625488281, 'epoch': 0.41} 41%|██████████████████████████████████████████████▏ | 278/681 [18:36<19:05, 2.84s/it] 41%|██████████████████████████████████████████████▎ | 279/681 [18:39<19:03, 2.84s/it] {'loss': 1.3723, 'grad_norm': 0.5505157113075256, 'learning_rate': 3.6940245560867e-07, 'beta_dpo/gap_mean': 17.153640747070312, 'beta_dpo/gap_std': 17.83950424194336, 'beta_dpo/beta_used_raw': -0.11197362095117569, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.1522029638290405, 'logits/rejected': -0.8978596329689026, 'epoch': 0.41} 41%|██████████████████████████████████████████████▎ | 279/681 [18:39<19:03, 2.84s/it] 41%|██████████████████████████████████████████████▍ | 280/681 [18:42<19:26, 2.91s/it] {'loss': 0.4076, 'grad_norm': 60.16712188720703, 'learning_rate': 3.6827338920900253e-07, 'beta_dpo/gap_mean': 17.42764663696289, 'beta_dpo/gap_std': 17.832962036132812, 'beta_dpo/beta_used_raw': 0.22522485256195068, 'beta_dpo/beta_used': 0.22522485256195068, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.581055164337158, 'logits/rejected': -2.898463487625122, 'epoch': 0.41} 41%|██████████████████████████████████████████████▍ | 280/681 [18:42<19:26, 2.91s/it] 41%|██████████████████████████████████████████████▋ | 281/681 [18:45<19:31, 2.93s/it] {'loss': 0.4081, 'grad_norm': 35.21115493774414, 'learning_rate': 3.6714120619553435e-07, 'beta_dpo/gap_mean': 18.07257843017578, 'beta_dpo/gap_std': 18.202064514160156, 'beta_dpo/beta_used_raw': 0.17530831694602966, 'beta_dpo/beta_used': 0.17530831694602966, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.638143539428711, 'logits/rejected': -1.3213109970092773, 'epoch': 0.41} 41%|██████████████████████████████████████████████▋ | 281/681 [18:45<19:31, 2.93s/it] 41%|██████████████████████████████████████████████▊ | 282/681 [18:48<19:18, 2.90s/it] {'loss': 0.8627, 'grad_norm': 33.21187973022461, 'learning_rate': 3.660059364023408e-07, 'beta_dpo/gap_mean': 18.907608032226562, 'beta_dpo/gap_std': 18.572853088378906, 'beta_dpo/beta_used_raw': 0.003689289093017578, 'beta_dpo/beta_used': 0.07618734985589981, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.9029979705810547, 'logits/rejected': -1.3287708759307861, 'epoch': 0.41} 41%|██████████████████████████████████████████████▊ | 282/681 [18:48<19:18, 2.90s/it] 42%|██████████████████████████████████████████████▉ | 283/681 [18:51<19:22, 2.92s/it] {'loss': 1.0425, 'grad_norm': 13.139922142028809, 'learning_rate': 3.6486760974483685e-07, 'beta_dpo/gap_mean': 18.53631591796875, 'beta_dpo/gap_std': 18.78057861328125, 'beta_dpo/beta_used_raw': -0.004605751484632492, 'beta_dpo/beta_used': 0.030037278309464455, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0984127521514893, 'logits/rejected': -1.6443045139312744, 'epoch': 0.42} 42%|██████████████████████████████████████████████▉ | 283/681 [18:51<19:22, 2.92s/it] 42%|███████████████████████████████████████████████ | 284/681 [18:54<19:42, 2.98s/it] {'loss': 0.8712, 'grad_norm': 14.876636505126953, 'learning_rate': 3.6372625621898863e-07, 'beta_dpo/gap_mean': 19.09128189086914, 'beta_dpo/gap_std': 19.074609756469727, 'beta_dpo/beta_used_raw': 0.03131512925028801, 'beta_dpo/beta_used': 0.06725043058395386, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.9047149419784546, 'logits/rejected': -1.4838480949401855, 'epoch': 0.42} 42%|███████████████████████████████████████████████ | 284/681 [18:54<19:42, 2.98s/it] 42%|███████████████████████████████████████████████▎ | 285/681 [18:57<19:44, 2.99s/it] {'loss': 0.741, 'grad_norm': 15.111198425292969, 'learning_rate': 3.625819059005228e-07, 'beta_dpo/gap_mean': 18.893922805786133, 'beta_dpo/gap_std': 18.592544555664062, 'beta_dpo/beta_used_raw': 0.10372734069824219, 'beta_dpo/beta_used': 0.10819166898727417, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.871731162071228, 'logits/rejected': -2.0776164531707764, 'epoch': 0.42} 42%|███████████████████████████████████████████████▎ | 285/681 [18:57<19:44, 2.99s/it] 42%|███████████████████████████████████████████████▍ | 286/681 [19:00<19:27, 2.96s/it] {'loss': 1.37, 'grad_norm': 0.6566715836524963, 'learning_rate': 3.614345889441346e-07, 'beta_dpo/gap_mean': 18.982357025146484, 'beta_dpo/gap_std': 18.396522521972656, 'beta_dpo/beta_used_raw': -0.033716779202222824, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -2.1930174827575684, 'logits/rejected': -1.613207459449768, 'epoch': 0.42} 42%|███████████████████████████████████████████████▍ | 286/681 [19:00<19:27, 2.96s/it] 42%|███████████████████████████████████████████████▌ | 287/681 [19:02<18:34, 2.83s/it] {'loss': 0.859, 'grad_norm': 25.1693172454834, 'learning_rate': 3.6028433558269275e-07, 'beta_dpo/gap_mean': 18.03030014038086, 'beta_dpo/gap_std': 18.275131225585938, 'beta_dpo/beta_used_raw': -0.03323051333427429, 'beta_dpo/beta_used': 0.09730731695890427, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2699886560440063, 'logits/rejected': -0.5031905770301819, 'epoch': 0.42} 42%|███████████████████████████████████████████████▌ | 287/681 [19:02<18:34, 2.83s/it] 42%|███████████████████████████████████████████████▊ | 288/681 [19:05<18:37, 2.84s/it] {'loss': 0.9294, 'grad_norm': 64.22969818115234, 'learning_rate': 3.5913117612644327e-07, 'beta_dpo/gap_mean': 18.27791976928711, 'beta_dpo/gap_std': 18.494709014892578, 'beta_dpo/beta_used_raw': 0.0743340253829956, 'beta_dpo/beta_used': 0.12815497815608978, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7721920013427734, 'logits/rejected': -1.6445941925048828, 'epoch': 0.42} 42%|███████████████████████████████████████████████▊ | 288/681 [19:05<18:37, 2.84s/it] 42%|███████████████████████████████████████████████▉ | 289/681 [19:08<18:32, 2.84s/it] {'loss': 1.0116, 'grad_norm': 14.944448471069336, 'learning_rate': 3.5797514096221024e-07, 'beta_dpo/gap_mean': 18.72998046875, 'beta_dpo/gap_std': 19.468055725097656, 'beta_dpo/beta_used_raw': -0.15388831496238708, 'beta_dpo/beta_used': 0.041309650987386703, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7737936973571777, 'logits/rejected': -1.3258979320526123, 'epoch': 0.42} 42%|███████████████████████████████████████████████▉ | 289/681 [19:08<18:32, 2.84s/it] 43%|████████████████████████████████████████████████ | 290/681 [19:11<18:33, 2.85s/it] {'loss': 1.3719, 'grad_norm': 0.564625084400177, 'learning_rate': 3.568162605525952e-07, 'beta_dpo/gap_mean': 19.377426147460938, 'beta_dpo/gap_std': 20.422447204589844, 'beta_dpo/beta_used_raw': -0.19734390079975128, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.156833529472351, 'logits/rejected': -1.211308479309082, 'epoch': 0.43} 43%|████████████████████████████████████████████████ | 290/681 [19:11<18:33, 2.85s/it] 43%|████████████████████████████████████████████████▎ | 291/681 [19:14<18:37, 2.87s/it] {'loss': 0.8817, 'grad_norm': 20.972444534301758, 'learning_rate': 3.5565456543517485e-07, 'beta_dpo/gap_mean': 19.186107635498047, 'beta_dpo/gap_std': 20.719282150268555, 'beta_dpo/beta_used_raw': 0.031241487711668015, 'beta_dpo/beta_used': 0.06650421768426895, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.7543714046478271, 'logits/rejected': -1.8473269939422607, 'epoch': 0.43} 43%|████████████████████████████████████████████████▎ | 291/681 [19:14<18:37, 2.87s/it] 43%|████████████████████████████████████████████████▍ | 292/681 [19:17<18:15, 2.82s/it] {'loss': 0.4908, 'grad_norm': 48.049530029296875, 'learning_rate': 3.5449008622169583e-07, 'beta_dpo/gap_mean': 19.42520523071289, 'beta_dpo/gap_std': 19.865537643432617, 'beta_dpo/beta_used_raw': 0.1455276906490326, 'beta_dpo/beta_used': 0.1455276906490326, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8504797220230103, 'logits/rejected': -1.318284511566162, 'epoch': 0.43} 43%|████████████████████████████████████████████████▍ | 292/681 [19:17<18:15, 2.82s/it] 43%|████████████████████████████████████████████████▌ | 293/681 [19:20<18:36, 2.88s/it] {'loss': 1.0056, 'grad_norm': 17.39205551147461, 'learning_rate': 3.5332285359726846e-07, 'beta_dpo/gap_mean': 18.744335174560547, 'beta_dpo/gap_std': 19.63604736328125, 'beta_dpo/beta_used_raw': -0.17275524139404297, 'beta_dpo/beta_used': 0.04769207909703255, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.9810543060302734, 'logits/rejected': -2.0150904655456543, 'epoch': 0.43} 43%|████████████████████████████████████████████████▌ | 293/681 [19:20<18:36, 2.88s/it] 43%|████████████████████████████████████████████████▊ | 294/681 [19:22<18:26, 2.86s/it] {'loss': 1.3732, 'grad_norm': 0.4995046854019165, 'learning_rate': 3.5215289831955786e-07, 'beta_dpo/gap_mean': 18.067184448242188, 'beta_dpo/gap_std': 19.677724838256836, 'beta_dpo/beta_used_raw': -0.19172877073287964, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.750572681427002, 'logits/rejected': -1.3933688402175903, 'epoch': 0.43} 43%|████████████████████████████████████████████████▊ | 294/681 [19:23<18:26, 2.86s/it] 43%|████████████████████████████████████████████████▉ | 295/681 [19:25<18:07, 2.82s/it] {'loss': 0.8559, 'grad_norm': 19.872262954711914, 'learning_rate': 3.509802512179737e-07, 'beta_dpo/gap_mean': 17.91991424560547, 'beta_dpo/gap_std': 19.704513549804688, 'beta_dpo/beta_used_raw': 0.015555135905742645, 'beta_dpo/beta_used': 0.07876399159431458, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.6054997444152832, 'logits/rejected': -1.2405972480773926, 'epoch': 0.43} 43%|████████████████████████████████████████████████▉ | 295/681 [19:25<18:07, 2.82s/it] 43%|█████████████████████████████████████████████████ | 296/681 [19:28<17:59, 2.80s/it] {'loss': 0.9563, 'grad_norm': 12.911087989807129, 'learning_rate': 3.498049431928577e-07, 'beta_dpo/gap_mean': 18.38714599609375, 'beta_dpo/gap_std': 20.385866165161133, 'beta_dpo/beta_used_raw': 0.032191064208745956, 'beta_dpo/beta_used': 0.032191064208745956, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.647209882736206, 'logits/rejected': -2.0055761337280273, 'epoch': 0.43} 43%|█████████████████████████████████████████████████ | 296/681 [19:28<17:59, 2.80s/it] 44%|█████████████████████████████████████████████████▎ | 297/681 [19:31<18:13, 2.85s/it] {'loss': 0.8408, 'grad_norm': 20.788816452026367, 'learning_rate': 3.486270052146694e-07, 'beta_dpo/gap_mean': 18.416446685791016, 'beta_dpo/gap_std': 20.195480346679688, 'beta_dpo/beta_used_raw': 0.07509875297546387, 'beta_dpo/beta_used': 0.08515140414237976, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.4445190131664276, 'logits/rejected': -0.14910635352134705, 'epoch': 0.44} 44%|█████████████████████████████████████████████████▎ | 297/681 [19:31<18:13, 2.85s/it] 44%|█████████████████████████████████████████████████▍ | 298/681 [19:34<18:34, 2.91s/it] {'loss': 1.0073, 'grad_norm': 24.009151458740234, 'learning_rate': 3.474464683231698e-07, 'beta_dpo/gap_mean': 18.70124626159668, 'beta_dpo/gap_std': 20.339801788330078, 'beta_dpo/beta_used_raw': 0.0014029070734977722, 'beta_dpo/beta_used': 0.054413195699453354, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.56980562210083, 'logits/rejected': -2.0647857189178467, 'epoch': 0.44} 44%|█████████████████████████████████████████████████▍ | 298/681 [19:34<18:34, 2.91s/it] 44%|█████████████████████████████████████████████████▌ | 299/681 [19:37<18:28, 2.90s/it] {'loss': 0.884, 'grad_norm': 46.7759895324707, 'learning_rate': 3.462633636266041e-07, 'beta_dpo/gap_mean': 19.192279815673828, 'beta_dpo/gap_std': 20.42599105834961, 'beta_dpo/beta_used_raw': 0.13273771107196808, 'beta_dpo/beta_used': 0.15039290487766266, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.3872895240783691, 'logits/rejected': -1.2783632278442383, 'epoch': 0.44} 44%|█████████████████████████████████████████████████▌ | 299/681 [19:37<18:28, 2.90s/it] 44%|█████████████████████████████████████████████████▊ | 300/681 [19:40<18:37, 2.93s/it] {'loss': 0.6858, 'grad_norm': 28.43634796142578, 'learning_rate': 3.4507772230088147e-07, 'beta_dpo/gap_mean': 19.255733489990234, 'beta_dpo/gap_std': 20.56812286376953, 'beta_dpo/beta_used_raw': 0.08607316762208939, 'beta_dpo/beta_used': 0.08607316762208939, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5185415744781494, 'logits/rejected': -1.420533299446106, 'epoch': 0.44} 44%|█████████████████████████████████████████████████▊ | 300/681 [19:40<18:37, 2.93s/it][INFO|trainer.py:4307] 2026-04-24 02:11:28,266 >> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-24 02:11:28,266 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-24 02:11:28,266 >> Batch size = 8 0%| | 0/73 [00:00> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-24 02:17:02,021 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-24 02:17:02,021 >> Batch size = 8 0%| | 0/73 [00:00> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400 [INFO|configuration_utils.py:419] 2026-04-24 02:18:00,736 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400/config.json [INFO|configuration_utils.py:911] 2026-04-24 02:18:00,739 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400/generation_config.json [INFO|modeling_utils.py:3580] 2026-04-24 02:18:40,540 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400/model.safetensors.index.json. [INFO|tokenization_utils_base.py:2510] 2026-04-24 02:18:40,545 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400/tokenizer_config.json [INFO|tokenization_utils_base.py:2519] 2026-04-24 02:18:40,549 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400/special_tokens_map.json 59%|█████████████████████████████████████████████████████████████████▎ | 401/681 [29:54<6:42:00, 86.15s/it] {'loss': 1.3688, 'grad_norm': 0.6196178793907166, 'learning_rate': 2.1800473436235136e-07, 'beta_dpo/gap_mean': 25.12491226196289, 'beta_dpo/gap_std': 25.90760040283203, 'beta_dpo/beta_used_raw': -0.3439871668815613, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1647582054138184, 'logits/rejected': -0.9064052104949951, 'epoch': 0.59} 59%|█████████████████████████████████████████████████████████████████▎ | 401/681 [29:54<6:42:00, 86.15s/it] 59%|█████████████████████████████████████████████████████████████████▌ | 402/681 [29:57<4:44:03, 61.09s/it] {'loss': 0.2296, 'grad_norm': 32.324867248535156, 'learning_rate': 2.1673238449588665e-07, 'beta_dpo/gap_mean': 25.792510986328125, 'beta_dpo/gap_std': 25.570724487304688, 'beta_dpo/beta_used_raw': 0.273027241230011, 'beta_dpo/beta_used': 0.273027241230011, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0468878746032715, 'logits/rejected': -1.7435054779052734, 'epoch': 0.59} 59%|█████████████████████████████████████████████████████████████████▌ | 402/681 [29:57<4:44:03, 61.09s/it] 59%|█████████████████████████████████████████████████████████████████▋ | 403/681 [30:00<3:22:02, 43.61s/it] {'loss': 0.7774, 'grad_norm': 40.2495002746582, 'learning_rate': 2.154609112620295e-07, 'beta_dpo/gap_mean': 26.102928161621094, 'beta_dpo/gap_std': 25.163429260253906, 'beta_dpo/beta_used_raw': 0.09610848873853683, 'beta_dpo/beta_used': 0.16802377998828888, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.2095389366149902, 'logits/rejected': -1.726819634437561, 'epoch': 0.59} 59%|█████████████████████████████████████████████████████████████████▋ | 403/681 [30:00<3:22:02, 43.61s/it] 59%|█████████████████████████████████████████████████████████████████▊ | 404/681 [30:03<2:25:07, 31.43s/it] {'loss': 0.8812, 'grad_norm': 20.02524185180664, 'learning_rate': 2.1419034816528218e-07, 'beta_dpo/gap_mean': 26.120956420898438, 'beta_dpo/gap_std': 25.64906883239746, 'beta_dpo/beta_used_raw': 0.03125058859586716, 'beta_dpo/beta_used': 0.06464260816574097, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.186288356781006, 'logits/rejected': -1.8319518566131592, 'epoch': 0.59} 59%|█████████████████████████████████████████████████████████████████▊ | 404/681 [30:03<2:25:07, 31.43s/it] 59%|██████████████████████████████████████████████████████████████████ | 405/681 [30:05<1:44:55, 22.81s/it] {'loss': 0.9047, 'grad_norm': 49.19369888305664, 'learning_rate': 2.129207286861638e-07, 'beta_dpo/gap_mean': 25.158933639526367, 'beta_dpo/gap_std': 24.917097091674805, 'beta_dpo/beta_used_raw': -0.009302124381065369, 'beta_dpo/beta_used': 0.08662373572587967, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.164164662361145, 'logits/rejected': -0.8499673008918762, 'epoch': 0.59} 59%|██████████████████████████████████████████████████████████████████ | 405/681 [30:05<1:44:55, 22.81s/it] 60%|██████████████████████████████████████████████████████████████████▏ | 406/681 [30:08<1:16:55, 16.78s/it] {'loss': 0.7806, 'grad_norm': 12.233301162719727, 'learning_rate': 2.1165208628032861e-07, 'beta_dpo/gap_mean': 24.574819564819336, 'beta_dpo/gap_std': 24.394176483154297, 'beta_dpo/beta_used_raw': 0.056421127170324326, 'beta_dpo/beta_used': 0.0923011526465416, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.419933795928955, 'logits/rejected': -2.014167547225952, 'epoch': 0.6} 60%|██████████████████████████████████████████████████████████████████▏ | 406/681 [30:08<1:16:55, 16.78s/it] 60%|███████████████████████████████████████████████████████████████████▌ | 407/681 [30:11<57:36, 12.61s/it] {'loss': 1.3682, 'grad_norm': 0.6539500951766968, 'learning_rate': 2.1038445437768375e-07, 'beta_dpo/gap_mean': 24.153892517089844, 'beta_dpo/gap_std': 24.29613494873047, 'beta_dpo/beta_used_raw': -0.18378406763076782, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -2.9986298084259033, 'logits/rejected': -2.2421011924743652, 'epoch': 0.6} 60%|███████████████████████████████████████████████████████████████████▌ | 407/681 [30:11<57:36, 12.61s/it] 60%|███████████████████████████████████████████████████████████████████▋ | 408/681 [30:14<44:14, 9.72s/it] {'loss': 1.3671, 'grad_norm': 0.710385799407959, 'learning_rate': 2.0911786638150872e-07, 'beta_dpo/gap_mean': 23.59590721130371, 'beta_dpo/gap_std': 24.68634605407715, 'beta_dpo/beta_used_raw': -0.1888156533241272, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2492729425430298, 'logits/rejected': -0.6833850145339966, 'epoch': 0.6} 60%|███████████████████████████████████████████████████████████████████▋ | 408/681 [30:14<44:14, 9.72s/it] 60%|███████████████████████████████████████████████████████████████████▊ | 409/681 [30:17<35:08, 7.75s/it] {'loss': 1.3662, 'grad_norm': 0.7162730097770691, 'learning_rate': 2.0785235566757517e-07, 'beta_dpo/gap_mean': 22.793479919433594, 'beta_dpo/gap_std': 24.770523071289062, 'beta_dpo/beta_used_raw': -0.07780434191226959, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8896914720535278, 'logits/rejected': -1.1642524003982544, 'epoch': 0.6} 60%|███████████████████████████████████████████████████████████████████▊ | 409/681 [30:17<35:08, 7.75s/it] 60%|████████████████████████████████████████████████████████████████████ | 410/681 [30:20<28:29, 6.31s/it] {'loss': 1.3679, 'grad_norm': 0.6539977192878723, 'learning_rate': 2.065879555832674e-07, 'beta_dpo/gap_mean': 22.16793441772461, 'beta_dpo/gap_std': 24.20937728881836, 'beta_dpo/beta_used_raw': -0.12291724234819412, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.9637231826782227, 'logits/rejected': -1.8833253383636475, 'epoch': 0.6} 60%|████████████████████████████████████████████████████████████████████ | 410/681 [30:20<28:29, 6.31s/it] 60%|████████████████████████████████████████████████████████████████████▏ | 411/681 [30:23<23:19, 5.18s/it] {'loss': 1.1001, 'grad_norm': 57.7232666015625, 'learning_rate': 2.0532469944670343e-07, 'beta_dpo/gap_mean': 22.44048309326172, 'beta_dpo/gap_std': 24.338491439819336, 'beta_dpo/beta_used_raw': 0.05118773877620697, 'beta_dpo/beta_used': 0.09384816139936447, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.1327853202819824, 'logits/rejected': -2.2029080390930176, 'epoch': 0.6} 60%|████████████████████████████████████████████████████████████████████▏ | 411/681 [30:23<23:19, 5.18s/it] 60%|████████████████████████████████████████████████████████████████████▎ | 412/681 [30:25<20:01, 4.47s/it] {'loss': 1.0068, 'grad_norm': 17.349088668823242, 'learning_rate': 2.0406262054585738e-07, 'beta_dpo/gap_mean': 22.416568756103516, 'beta_dpo/gap_std': 24.20757293701172, 'beta_dpo/beta_used_raw': -0.07972878217697144, 'beta_dpo/beta_used': 0.03725043311715126, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.886979103088379, 'logits/rejected': -1.8534328937530518, 'epoch': 0.6} 60%|████████████████████████████████████████████████████████████████████▎ | 412/681 [30:26<20:01, 4.47s/it] 61%|████████████████████████████████████████████████████████████████████▌ | 413/681 [30:28<17:52, 4.00s/it] {'loss': 0.3748, 'grad_norm': 35.187564849853516, 'learning_rate': 2.0280175213768205e-07, 'beta_dpo/gap_mean': 22.269824981689453, 'beta_dpo/gap_std': 24.325923919677734, 'beta_dpo/beta_used_raw': 0.15613144636154175, 'beta_dpo/beta_used': 0.15613144636154175, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7825952172279358, 'logits/rejected': -0.36407551169395447, 'epoch': 0.61} 61%|████████████████████████████████████████████████████████████████████▌ | 413/681 [30:28<17:52, 4.00s/it] 61%|████████████████████████████████████████████████████████████████████▋ | 414/681 [30:31<16:25, 3.69s/it] {'loss': 0.8325, 'grad_norm': 45.86546325683594, 'learning_rate': 2.0154212744723247e-07, 'beta_dpo/gap_mean': 22.121807098388672, 'beta_dpo/gap_std': 24.83641815185547, 'beta_dpo/beta_used_raw': 0.008257351815700531, 'beta_dpo/beta_used': 0.08755208551883698, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.5157737731933594, 'logits/rejected': -1.974806785583496, 'epoch': 0.61} 61%|████████████████████████████████████████████████████████████████████▋ | 414/681 [30:31<16:25, 3.69s/it] 61%|████████████████████████████████████████████████████████████████████▊ | 415/681 [30:35<15:41, 3.54s/it] {'loss': 1.1056, 'grad_norm': 44.08209228515625, 'learning_rate': 2.002837796667909e-07, 'beta_dpo/gap_mean': 22.35672378540039, 'beta_dpo/gap_std': 25.50603485107422, 'beta_dpo/beta_used_raw': -0.01721137762069702, 'beta_dpo/beta_used': 0.06630411744117737, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.761643886566162, 'logits/rejected': -1.2777553796768188, 'epoch': 0.61} 61%|████████████████████████████████████████████████████████████████████▊ | 415/681 [30:35<15:41, 3.54s/it] 61%|█████████████████████████████████████████████████████████████████████ | 416/681 [30:37<14:46, 3.35s/it] {'loss': 0.5203, 'grad_norm': 92.45121002197266, 'learning_rate': 1.990267419549914e-07, 'beta_dpo/gap_mean': 22.946575164794922, 'beta_dpo/gap_std': 25.25613021850586, 'beta_dpo/beta_used_raw': 0.3845203220844269, 'beta_dpo/beta_used': 0.3845203220844269, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.2547457218170166, 'logits/rejected': -1.6286828517913818, 'epoch': 0.61} 61%|█████████████████████████████████████████████████████████████████████ | 416/681 [30:37<14:46, 3.35s/it] 61%|█████████████████████████████████████████████████████████████████████▏ | 417/681 [30:40<14:02, 3.19s/it] {'loss': 0.2669, 'grad_norm': 55.1314811706543, 'learning_rate': 1.9777104743594686e-07, 'beta_dpo/gap_mean': 23.813949584960938, 'beta_dpo/gap_std': 24.991924285888672, 'beta_dpo/beta_used_raw': 0.37170472741127014, 'beta_dpo/beta_used': 0.37170472741127014, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.4560434818267822, 'logits/rejected': -1.0010004043579102, 'epoch': 0.61} 61%|█████████████████████████████████████████████████████████████████████▏ | 417/681 [30:40<14:02, 3.19s/it] 61%|█████████████████████████████████████████████████████████████████████▎ | 418/681 [30:43<13:40, 3.12s/it] {'loss': 0.8709, 'grad_norm': 92.97559356689453, 'learning_rate': 1.965167291983757e-07, 'beta_dpo/gap_mean': 24.798458099365234, 'beta_dpo/gap_std': 25.08316421508789, 'beta_dpo/beta_used_raw': 0.22797717154026031, 'beta_dpo/beta_used': 0.33069807291030884, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.13330078125, 'logits/rejected': -1.9335625171661377, 'epoch': 0.61} 61%|█████████████████████████████████████████████████████████████████████▎ | 418/681 [30:43<13:40, 3.12s/it] 62%|█████████████████████████████████████████████████████████████████████▌ | 419/681 [30:46<13:30, 3.09s/it] {'loss': 0.9016, 'grad_norm': 64.4251480102539, 'learning_rate': 1.9526382029472988e-07, 'beta_dpo/gap_mean': 25.586071014404297, 'beta_dpo/gap_std': 25.69367790222168, 'beta_dpo/beta_used_raw': 0.026439383625984192, 'beta_dpo/beta_used': 0.15325038135051727, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5011570453643799, 'logits/rejected': -1.302954912185669, 'epoch': 0.62} 62%|█████████████████████████████████████████████████████████████████████▌ | 419/681 [30:46<13:30, 3.09s/it] 62%|█████████████████████████████████████████████████████████████████████▋ | 420/681 [30:49<13:11, 3.03s/it] {'loss': 0.3069, 'grad_norm': 53.652259826660156, 'learning_rate': 1.9401235374032425e-07, 'beta_dpo/gap_mean': 25.320785522460938, 'beta_dpo/gap_std': 25.962156295776367, 'beta_dpo/beta_used_raw': 0.25911739468574524, 'beta_dpo/beta_used': 0.25911739468574524, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.263819694519043, 'logits/rejected': -1.8596880435943604, 'epoch': 0.62} 62%|█████████████████████████████████████████████████████████████████████▋ | 420/681 [30:49<13:11, 3.03s/it] 62%|█████████████████████████████████████████████████████████████████████▊ | 421/681 [30:52<13:06, 3.02s/it] {'loss': 0.7272, 'grad_norm': 46.267398834228516, 'learning_rate': 1.9276236251246653e-07, 'beta_dpo/gap_mean': 25.586990356445312, 'beta_dpo/gap_std': 26.067787170410156, 'beta_dpo/beta_used_raw': 0.12224863469600677, 'beta_dpo/beta_used': 0.12224863469600677, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.5814555883407593, 'logits/rejected': -1.524078607559204, 'epoch': 0.62} 62%|█████████████████████████████████████████████████████████████████████▊ | 421/681 [30:52<13:06, 3.02s/it] 62%|██████████████████████████████████████████████████████████████████████ | 422/681 [30:55<12:52, 2.98s/it] {'loss': 0.9912, 'grad_norm': 12.181634902954102, 'learning_rate': 1.9151387954958792e-07, 'beta_dpo/gap_mean': 24.974611282348633, 'beta_dpo/gap_std': 25.582592010498047, 'beta_dpo/beta_used_raw': -0.14375457167625427, 'beta_dpo/beta_used': 0.025601375848054886, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.5378003120422363, 'logits/rejected': -2.0938880443573, 'epoch': 0.62} 62%|██████████████████████████████████████████████████████████████████████ | 422/681 [30:55<12:52, 2.98s/it] 62%|██████████████████████████████████████████████████████████████████████▏ | 423/681 [30:58<12:30, 2.91s/it] {'loss': 0.4962, 'grad_norm': 47.32422637939453, 'learning_rate': 1.902669377503756e-07, 'beta_dpo/gap_mean': 24.909393310546875, 'beta_dpo/gap_std': 25.882190704345703, 'beta_dpo/beta_used_raw': 0.13401761651039124, 'beta_dpo/beta_used': 0.13401761651039124, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5475959777832031, 'logits/rejected': -1.6587059497833252, 'epoch': 0.62} 62%|██████████████████████████████████████████████████████████████████████▏ | 423/681 [30:58<12:30, 2.91s/it] 62%|██████████████████████████████████████████████████████████████████████▎ | 424/681 [31:01<12:38, 2.95s/it] {'loss': 1.3642, 'grad_norm': 0.7027908563613892, 'learning_rate': 1.890215699729057e-07, 'beta_dpo/gap_mean': 24.600170135498047, 'beta_dpo/gap_std': 26.172245025634766, 'beta_dpo/beta_used_raw': -0.034625787287950516, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.8585600852966309, 'logits/rejected': -1.1137242317199707, 'epoch': 0.62} 62%|██████████████████████████████████████████████████████████████████████▎ | 424/681 [31:01<12:38, 2.95s/it] 62%|██████████████████████████████████████████████████████████████████████▌ | 425/681 [31:04<12:29, 2.93s/it] {'loss': 1.0747, 'grad_norm': 26.48809051513672, 'learning_rate': 1.8777780903377732e-07, 'beta_dpo/gap_mean': 23.97371482849121, 'beta_dpo/gap_std': 26.5534610748291, 'beta_dpo/beta_used_raw': -0.03845195099711418, 'beta_dpo/beta_used': 0.05164389684796333, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.3856022357940674, 'logits/rejected': -2.2705893516540527, 'epoch': 0.62} 62%|██████████████████████████████████████████████████████████████████████▌ | 425/681 [31:04<12:29, 2.93s/it] 63%|██████████████████████████████████████████████████████████████████████▋ | 426/681 [31:07<12:37, 2.97s/it] {'loss': 0.6657, 'grad_norm': 37.8873176574707, 'learning_rate': 1.8653568770724803e-07, 'beta_dpo/gap_mean': 23.90325927734375, 'beta_dpo/gap_std': 25.989383697509766, 'beta_dpo/beta_used_raw': 0.15089742839336395, 'beta_dpo/beta_used': 0.15089742839336395, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.274775505065918, 'logits/rejected': -1.6316537857055664, 'epoch': 0.63} 63%|██████████████████████████████████████████████████████████████████████▋ | 426/681 [31:07<12:37, 2.97s/it] 63%|██████████████████████████████████████████████████████████████████████▊ | 427/681 [31:10<12:48, 3.03s/it] {'loss': 0.9504, 'grad_norm': 13.970566749572754, 'learning_rate': 1.8529523872436977e-07, 'beta_dpo/gap_mean': 23.831756591796875, 'beta_dpo/gap_std': 25.224937438964844, 'beta_dpo/beta_used_raw': 0.016834238544106483, 'beta_dpo/beta_used': 0.03543705865740776, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8503241539001465, 'logits/rejected': -1.3610749244689941, 'epoch': 0.63} 63%|██████████████████████████████████████████████████████████████████████▊ | 427/681 [31:10<12:48, 3.03s/it] 63%|███████████████████████████████████████████████████████████████████████ | 428/681 [31:13<12:50, 3.05s/it] {'loss': 1.3672, 'grad_norm': 0.6985291242599487, 'learning_rate': 1.8405649477212697e-07, 'beta_dpo/gap_mean': 23.303905487060547, 'beta_dpo/gap_std': 25.156648635864258, 'beta_dpo/beta_used_raw': -0.1355256587266922, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.3080241680145264, 'logits/rejected': -1.3926000595092773, 'epoch': 0.63} 63%|███████████████████████████████████████████████████████████████████████ | 428/681 [31:13<12:50, 3.05s/it] 63%|███████████████████████████████████████████████████████████████████████▏ | 429/681 [31:16<12:45, 3.04s/it] {'loss': 0.5392, 'grad_norm': 65.67558288574219, 'learning_rate': 1.828194884925749e-07, 'beta_dpo/gap_mean': 22.89441680908203, 'beta_dpo/gap_std': 25.40219497680664, 'beta_dpo/beta_used_raw': 0.20610594749450684, 'beta_dpo/beta_used': 0.20610594749450684, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0998034477233887, 'logits/rejected': -1.4335576295852661, 'epoch': 0.63} 63%|███████████████████████████████████████████████████████████████████████▏ | 429/681 [31:16<12:45, 3.04s/it] 63%|███████████████████████████████████████████████████████████████████████▎ | 430/681 [31:19<12:41, 3.04s/it] {'loss': 0.3402, 'grad_norm': 49.91692352294922, 'learning_rate': 1.8158425248197928e-07, 'beta_dpo/gap_mean': 23.49513816833496, 'beta_dpo/gap_std': 25.55303382873535, 'beta_dpo/beta_used_raw': 0.1917858123779297, 'beta_dpo/beta_used': 0.1917858123779297, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.1634879112243652, 'logits/rejected': -1.3685014247894287, 'epoch': 0.63} 63%|███████████████████████████████████████████████████████████████████████▎ | 430/681 [31:19<12:41, 3.04s/it] 63%|███████████████████████████████████████████████████████████████████████▌ | 431/681 [31:22<12:36, 3.02s/it] {'loss': 0.6399, 'grad_norm': 36.18718338012695, 'learning_rate': 1.8035081928995788e-07, 'beta_dpo/gap_mean': 23.721134185791016, 'beta_dpo/gap_std': 25.834186553955078, 'beta_dpo/beta_used_raw': 0.09054918587207794, 'beta_dpo/beta_used': 0.09054918587207794, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.5709052085876465, 'logits/rejected': -2.3715858459472656, 'epoch': 0.63} 63%|███████████████████████████████████████████████████████████████████████▌ | 431/681 [31:22<12:36, 3.02s/it] 63%|███████████████████████████████████████████████████████████████████████▋ | 432/681 [31:25<12:46, 3.08s/it] {'loss': 0.6583, 'grad_norm': 79.0599365234375, 'learning_rate': 1.791192214186223e-07, 'beta_dpo/gap_mean': 23.902099609375, 'beta_dpo/gap_std': 25.986339569091797, 'beta_dpo/beta_used_raw': 0.1696254163980484, 'beta_dpo/beta_used': 0.1696254163980484, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.4236735105514526, 'logits/rejected': -0.7997815608978271, 'epoch': 0.63} 63%|███████████████████████████████████████████████████████████████████████▋ | 432/681 [31:25<12:46, 3.08s/it] 64%|███████████████████████████████████████████████████████████████████████▊ | 433/681 [31:28<12:34, 3.04s/it] {'loss': 0.846, 'grad_norm': 42.03449249267578, 'learning_rate': 1.7788949132172193e-07, 'beta_dpo/gap_mean': 23.92194366455078, 'beta_dpo/gap_std': 26.365129470825195, 'beta_dpo/beta_used_raw': 0.10000326484441757, 'beta_dpo/beta_used': 0.11669200658798218, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4471304416656494, 'logits/rejected': -0.8094350695610046, 'epoch': 0.64} 64%|███████████████████████████████████████████████████████████████████████▊ | 433/681 [31:28<12:34, 3.04s/it] 64%|████████████████████████████████████████████████████████████████████████ | 434/681 [31:31<12:33, 3.05s/it] {'loss': 0.8154, 'grad_norm': 19.04947853088379, 'learning_rate': 1.7666166140378853e-07, 'beta_dpo/gap_mean': 23.78887176513672, 'beta_dpo/gap_std': 27.037960052490234, 'beta_dpo/beta_used_raw': 0.03278639167547226, 'beta_dpo/beta_used': 0.1338217407464981, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.431135654449463, 'logits/rejected': -1.7750380039215088, 'epoch': 0.64} 64%|████████████████████████████████████████████████████████████████████████ | 434/681 [31:31<12:33, 3.05s/it] 64%|████████████████████████████████████████████████████████████████████████▏ | 435/681 [31:34<11:55, 2.91s/it] {'loss': 1.0371, 'grad_norm': 43.388587951660156, 'learning_rate': 1.7543576401928218e-07, 'beta_dpo/gap_mean': 23.712087631225586, 'beta_dpo/gap_std': 26.80076026916504, 'beta_dpo/beta_used_raw': 0.038825489580631256, 'beta_dpo/beta_used': 0.06533200293779373, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.072295665740967, 'logits/rejected': -1.6574585437774658, 'epoch': 0.64} 64%|████████████████████████████████████████████████████████████████████████▏ | 435/681 [31:34<11:55, 2.91s/it] 64%|████████████████████████████████████████████████████████████████████████▎ | 436/681 [31:37<12:02, 2.95s/it] {'loss': 0.5509, 'grad_norm': 46.741336822509766, 'learning_rate': 1.742118314717391e-07, 'beta_dpo/gap_mean': 24.322784423828125, 'beta_dpo/gap_std': 26.062278747558594, 'beta_dpo/beta_used_raw': 0.13881349563598633, 'beta_dpo/beta_used': 0.13881349563598633, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.5973613262176514, 'logits/rejected': -0.5990985631942749, 'epoch': 0.64} 64%|████████████████████████████████████████████████████████████████████████▎ | 436/681 [31:37<12:02, 2.95s/it] 64%|████████████████████████████████████████████████████████████████████████▌ | 437/681 [31:40<12:12, 3.00s/it] {'loss': 1.3667, 'grad_norm': 0.6110405325889587, 'learning_rate': 1.7298989601292036e-07, 'beta_dpo/gap_mean': 23.640636444091797, 'beta_dpo/gap_std': 25.07185935974121, 'beta_dpo/beta_used_raw': -0.12126322090625763, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.5639896392822266, 'logits/rejected': -2.3195319175720215, 'epoch': 0.64} 64%|████████████████████████████████████████████████████████████████████████▌ | 437/681 [31:40<12:12, 3.00s/it] 64%|████████████████████████████████████████████████████████████████████████▋ | 438/681 [31:43<11:50, 2.92s/it] {'loss': 1.1463, 'grad_norm': 9.355488777160645, 'learning_rate': 1.7176998984196144e-07, 'beta_dpo/gap_mean': 23.29519271850586, 'beta_dpo/gap_std': 24.44326400756836, 'beta_dpo/beta_used_raw': -0.01920161023736, 'beta_dpo/beta_used': 0.01529831625521183, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.1953420639038086, 'logits/rejected': -1.6790311336517334, 'epoch': 0.64} 64%|████████████████████████████████████████████████████████████████████████▋ | 438/681 [31:43<11:50, 2.92s/it] 64%|████████████████████████████████████████████████████████████████████████▊ | 439/681 [31:46<11:36, 2.88s/it] {'loss': 0.9209, 'grad_norm': 25.170711517333984, 'learning_rate': 1.7055214510452458e-07, 'beta_dpo/gap_mean': 23.02737045288086, 'beta_dpo/gap_std': 24.17821502685547, 'beta_dpo/beta_used_raw': -0.004124250262975693, 'beta_dpo/beta_used': 0.05295996740460396, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.6655948162078857, 'logits/rejected': -1.1508713960647583, 'epoch': 0.64} 64%|████████████████████████████████████████████████████████████████████████▊ | 439/681 [31:46<11:36, 2.88s/it] 65%|█████████████████████████████████████████████████████████████████████████ | 440/681 [31:48<11:36, 2.89s/it] {'loss': 1.441, 'grad_norm': 114.68986511230469, 'learning_rate': 1.6933639389195134e-07, 'beta_dpo/gap_mean': 22.635499954223633, 'beta_dpo/gap_std': 24.43799591064453, 'beta_dpo/beta_used_raw': 0.16911785304546356, 'beta_dpo/beta_used': 0.17924237251281738, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.1340644359588623, 'logits/rejected': -1.0800987482070923, 'epoch': 0.65} 65%|█████████████████████████████████████████████████████████████████████████ | 440/681 [31:48<11:36, 2.89s/it] 65%|█████████████████████████████████████████████████████████████████████████▏ | 441/681 [31:51<11:44, 2.93s/it] {'loss': 1.342, 'grad_norm': 1.4207937717437744, 'learning_rate': 1.681227682404166e-07, 'beta_dpo/gap_mean': 23.210651397705078, 'beta_dpo/gap_std': 24.7412109375, 'beta_dpo/beta_used_raw': -0.037166256457567215, 'beta_dpo/beta_used': 0.002155003370717168, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8811532258987427, 'logits/rejected': -0.946062445640564, 'epoch': 0.65} 65%|█████████████████████████████████████████████████████████████████████████▏ | 441/681 [31:52<11:44, 2.93s/it] 65%|█████████████████████████████████████████████████████████████████████████▎ | 442/681 [31:54<11:35, 2.91s/it] {'loss': 0.7944, 'grad_norm': 25.162975311279297, 'learning_rate': 1.669113001300851e-07, 'beta_dpo/gap_mean': 23.945392608642578, 'beta_dpo/gap_std': 24.70497703552246, 'beta_dpo/beta_used_raw': 0.07147623598575592, 'beta_dpo/beta_used': 0.07147623598575592, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.78822261095047, 'logits/rejected': -0.35674917697906494, 'epoch': 0.65} 65%|█████████████████████████████████████████████████████████████████████████▎ | 442/681 [31:54<11:35, 2.91s/it] 65%|█████████████████████████████████████████████████████████████████████████▌ | 443/681 [31:57<11:37, 2.93s/it] {'loss': 0.9393, 'grad_norm': 23.7645320892334, 'learning_rate': 1.6570202148426815e-07, 'beta_dpo/gap_mean': 24.038724899291992, 'beta_dpo/gap_std': 24.4070987701416, 'beta_dpo/beta_used_raw': 0.008691076189279556, 'beta_dpo/beta_used': 0.04567694664001465, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.9316351413726807, 'logits/rejected': -1.5170958042144775, 'epoch': 0.65} 65%|█████████████████████████████████████████████████████████████████████████▌ | 443/681 [31:57<11:37, 2.93s/it] 65%|█████████████████████████████████████████████████████████████████████████▋ | 444/681 [32:00<11:29, 2.91s/it] {'loss': 1.3673, 'grad_norm': 0.6778625249862671, 'learning_rate': 1.6449496416858282e-07, 'beta_dpo/gap_mean': 23.436275482177734, 'beta_dpo/gap_std': 24.264347076416016, 'beta_dpo/beta_used_raw': -0.14725573360919952, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.8322625160217285, 'logits/rejected': -2.147847890853882, 'epoch': 0.65} 65%|█████████████████████████████████████████████████████████████████████████▋ | 444/681 [32:00<11:29, 2.91s/it] 65%|█████████████████████████████████████████████████████████████████████████▊ | 445/681 [32:03<11:29, 2.92s/it] {'loss': 0.8241, 'grad_norm': 17.004131317138672, 'learning_rate': 1.6329015999011182e-07, 'beta_dpo/gap_mean': 23.653621673583984, 'beta_dpo/gap_std': 24.027339935302734, 'beta_dpo/beta_used_raw': 0.03618288040161133, 'beta_dpo/beta_used': 0.057776615023612976, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.289595127105713, 'logits/rejected': -2.0982038974761963, 'epoch': 0.65} 65%|█████████████████████████████████████████████████████████████████████████▊ | 445/681 [32:03<11:29, 2.92s/it] 65%|██████████████████████████████████████████████████████████████████████████ | 446/681 [32:06<11:31, 2.94s/it] {'loss': 0.9242, 'grad_norm': 45.588523864746094, 'learning_rate': 1.6208764069656578e-07, 'beta_dpo/gap_mean': 23.774471282958984, 'beta_dpo/gap_std': 24.207866668701172, 'beta_dpo/beta_used_raw': 0.04328737035393715, 'beta_dpo/beta_used': 0.10398882627487183, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.8566497564315796, 'logits/rejected': -0.7313945293426514, 'epoch': 0.65} 65%|██████████████████████████████████████████████████████████████████████████ | 446/681 [32:06<11:31, 2.94s/it] 66%|██████████████████████████████████████████████████████████████████████████▏ | 447/681 [32:09<11:11, 2.87s/it] {'loss': 1.3683, 'grad_norm': 0.664543628692627, 'learning_rate': 1.608874379754465e-07, 'beta_dpo/gap_mean': 23.687850952148438, 'beta_dpo/gap_std': 25.157394409179688, 'beta_dpo/beta_used_raw': -0.21297773718833923, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.9025514125823975, 'logits/rejected': -1.9528214931488037, 'epoch': 0.66} 66%|██████████████████████████████████████████████████████████████████████████▏ | 447/681 [32:09<11:11, 2.87s/it] 66%|██████████████████████████████████████████████████████████████████████████▎ | 448/681 [32:12<11:19, 2.92s/it] {'loss': 0.9718, 'grad_norm': 61.825439453125, 'learning_rate': 1.5968958345321177e-07, 'beta_dpo/gap_mean': 23.503799438476562, 'beta_dpo/gap_std': 24.869077682495117, 'beta_dpo/beta_used_raw': -0.042009443044662476, 'beta_dpo/beta_used': 0.11449765413999557, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6304960250854492, 'logits/rejected': -1.7240123748779297, 'epoch': 0.66} 66%|██████████████████████████████████████████████████████████████████████████▎ | 448/681 [32:12<11:19, 2.92s/it] 66%|██████████████████████████████████████████████████████████████████████████▌ | 449/681 [32:15<11:14, 2.91s/it] {'loss': 0.9168, 'grad_norm': 31.599090576171875, 'learning_rate': 1.584941086944423e-07, 'beta_dpo/gap_mean': 24.079425811767578, 'beta_dpo/gap_std': 25.076366424560547, 'beta_dpo/beta_used_raw': 0.07867221534252167, 'beta_dpo/beta_used': 0.12202105671167374, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6092393398284912, 'logits/rejected': -1.0893751382827759, 'epoch': 0.66} 66%|██████████████████████████████████████████████████████████████████████████▌ | 449/681 [32:15<11:14, 2.91s/it] 66%|██████████████████████████████████████████████████████████████████████████▋ | 450/681 [32:18<11:23, 2.96s/it] {'loss': 0.1979, 'grad_norm': 71.5322036743164, 'learning_rate': 1.573010452010098e-07, 'beta_dpo/gap_mean': 24.724367141723633, 'beta_dpo/gap_std': 24.448747634887695, 'beta_dpo/beta_used_raw': 0.3655173182487488, 'beta_dpo/beta_used': 0.3655173182487488, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.9565317630767822, 'logits/rejected': -2.4777119159698486, 'epoch': 0.66} 66%|██████████████████████████████████████████████████████████████████████████▋ | 450/681 [32:18<11:23, 2.96s/it] 66%|██████████████████████████████████████████████████████████████████████████▊ | 451/681 [32:20<10:52, 2.84s/it] {'loss': 0.5711, 'grad_norm': 23.241680145263672, 'learning_rate': 1.5611042441124687e-07, 'beta_dpo/gap_mean': 24.306663513183594, 'beta_dpo/gap_std': 24.566997528076172, 'beta_dpo/beta_used_raw': 0.10620734095573425, 'beta_dpo/beta_used': 0.10620734095573425, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8549528121948242, 'logits/rejected': -1.3230280876159668, 'epoch': 0.66} 66%|██████████████████████████████████████████████████████████████████████████▊ | 451/681 [32:20<10:52, 2.84s/it] 66%|███████████████████████████████████████████████████████████████████████████ | 452/681 [32:23<10:51, 2.84s/it] {'loss': 0.3483, 'grad_norm': 49.24470901489258, 'learning_rate': 1.549222776991186e-07, 'beta_dpo/gap_mean': 23.995746612548828, 'beta_dpo/gap_std': 23.87276840209961, 'beta_dpo/beta_used_raw': 0.16152921319007874, 'beta_dpo/beta_used': 0.16152921319007874, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -2.2875595092773438, 'logits/rejected': -2.118117094039917, 'epoch': 0.66} 66%|███████████████████████████████████████████████████████████████████████████ | 452/681 [32:23<10:51, 2.84s/it] 67%|███████████████████████████████████████████████████████████████████████████▏ | 453/681 [32:26<10:37, 2.80s/it] {'loss': 1.2667, 'grad_norm': 4.06926155090332, 'learning_rate': 1.5373663637339584e-07, 'beta_dpo/gap_mean': 24.373931884765625, 'beta_dpo/gap_std': 24.05362319946289, 'beta_dpo/beta_used_raw': -0.07630041986703873, 'beta_dpo/beta_used': 0.005642706993967295, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.8347233533859253, 'logits/rejected': -1.5946714878082275, 'epoch': 0.67} 67%|███████████████████████████████████████████████████████████████████████████▏ | 453/681 [32:26<10:37, 2.80s/it] 67%|███████████████████████████████████████████████████████████████████████████▎ | 454/681 [32:29<10:38, 2.81s/it] {'loss': 1.3672, 'grad_norm': 0.657343327999115, 'learning_rate': 1.5255353167683017e-07, 'beta_dpo/gap_mean': 24.122852325439453, 'beta_dpo/gap_std': 24.29592514038086, 'beta_dpo/beta_used_raw': -0.19752493500709534, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.046905040740967, 'logits/rejected': -1.7205897569656372, 'epoch': 0.67} 67%|███████████████████████████████████████████████████████████████████████████▎ | 454/681 [32:29<10:38, 2.81s/it] 67%|███████████████████████████████████████████████████████████████████████████▍ | 455/681 [32:32<10:42, 2.84s/it] {'loss': 1.3673, 'grad_norm': 0.7729347348213196, 'learning_rate': 1.5137299478533064e-07, 'beta_dpo/gap_mean': 24.46869659423828, 'beta_dpo/gap_std': 24.696008682250977, 'beta_dpo/beta_used_raw': -0.1890154629945755, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -2.308173656463623, 'logits/rejected': -2.5527238845825195, 'epoch': 0.67} 67%|███████████████████████████████████████████████████████████████████████████▍ | 455/681 [32:32<10:42, 2.84s/it] 67%|███████████████████████████████████████████████████████████████████████████▋ | 456/681 [32:35<10:50, 2.89s/it] {'loss': 0.8742, 'grad_norm': 42.247413635253906, 'learning_rate': 1.5019505680714232e-07, 'beta_dpo/gap_mean': 24.512104034423828, 'beta_dpo/gap_std': 24.691377639770508, 'beta_dpo/beta_used_raw': 0.03978702425956726, 'beta_dpo/beta_used': 0.10838553309440613, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.8087551593780518, 'logits/rejected': -1.8514174222946167, 'epoch': 0.67} 67%|███████████████████████████████████████████████████████████████████████████▋ | 456/681 [32:35<10:50, 2.89s/it] 67%|███████████████████████████████████████████████████████████████████████████▊ | 457/681 [32:38<10:51, 2.91s/it] {'loss': 0.6975, 'grad_norm': 4.883652210235596, 'learning_rate': 1.4901974878202627e-07, 'beta_dpo/gap_mean': 25.14911651611328, 'beta_dpo/gap_std': 24.04446029663086, 'beta_dpo/beta_used_raw': -0.02056203782558441, 'beta_dpo/beta_used': 0.13772788643836975, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.543813943862915, 'logits/rejected': -1.3994325399398804, 'epoch': 0.67} 67%|███████████████████████████████████████████████████████████████████████████▊ | 457/681 [32:38<10:51, 2.91s/it] 67%|███████████████████████████████████████████████████████████████████████████▉ | 458/681 [32:41<10:51, 2.92s/it] {'loss': 1.0782, 'grad_norm': 9.62954044342041, 'learning_rate': 1.4784710168044212e-07, 'beta_dpo/gap_mean': 24.749656677246094, 'beta_dpo/gap_std': 24.605478286743164, 'beta_dpo/beta_used_raw': -0.2884172797203064, 'beta_dpo/beta_used': 0.018343646079301834, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2308340072631836, 'logits/rejected': -0.8876813650131226, 'epoch': 0.67} 67%|███████████████████████████████████████████████████████████████████████████▉ | 458/681 [32:41<10:51, 2.92s/it] 67%|████████████████████████████████████████████████████████████████████████████▏ | 459/681 [32:44<10:51, 2.93s/it] {'loss': 0.7906, 'grad_norm': 31.03327751159668, 'learning_rate': 1.466771464027316e-07, 'beta_dpo/gap_mean': 24.73650360107422, 'beta_dpo/gap_std': 24.42650604248047, 'beta_dpo/beta_used_raw': 0.0319179967045784, 'beta_dpo/beta_used': 0.13343806564807892, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.679572105407715, 'logits/rejected': -2.30106520652771, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████▏ | 459/681 [32:44<10:51, 2.93s/it] 68%|████████████████████████████████████████████████████████████████████████████▎ | 460/681 [32:47<10:56, 2.97s/it] {'loss': 1.1246, 'grad_norm': 9.91299057006836, 'learning_rate': 1.4550991377830423e-07, 'beta_dpo/gap_mean': 23.957611083984375, 'beta_dpo/gap_std': 23.70931625366211, 'beta_dpo/beta_used_raw': -0.03031376376748085, 'beta_dpo/beta_used': 0.014424387365579605, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.9293622970581055, 'logits/rejected': -1.8261902332305908, 'epoch': 0.68} 68%|████████████████████████████████████████████████████████████████████████████▎ | 460/681 [32:47<10:56, 2.97s/it] 68%|████████████████████████████████████████████████████████████████████████████▍ | 461/681 [32:50<10:57, 2.99s/it] {'loss': 1.3695, 'grad_norm': 0.6803312301635742, 'learning_rate': 1.4434543456482518e-07, 'beta_dpo/gap_mean': 22.883316040039062, 'beta_dpo/gap_std': 23.486953735351562, 'beta_dpo/beta_used_raw': -0.28378790616989136, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.3033266067504883, 'logits/rejected': -1.0037317276000977, 'epoch': 0.68} 68%|████████████████████████████████████████████████████████████████████████████▍ | 461/681 [32:50<10:57, 2.99s/it] 68%|████████████████████████████████████████████████████████████████████████████▋ | 462/681 [32:52<10:43, 2.94s/it] {'loss': 0.662, 'grad_norm': 38.22011947631836, 'learning_rate': 1.4318373944740484e-07, 'beta_dpo/gap_mean': 22.511737823486328, 'beta_dpo/gap_std': 22.973257064819336, 'beta_dpo/beta_used_raw': 0.1492975503206253, 'beta_dpo/beta_used': 0.1492975503206253, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.354351282119751, 'logits/rejected': -2.0672004222869873, 'epoch': 0.68} 68%|████████████████████████████████████████████████████████████████████████████▋ | 462/681 [32:53<10:43, 2.94s/it] 68%|████████████████████████████████████████████████████████████████████████████▊ | 463/681 [32:55<10:31, 2.90s/it] {'loss': 0.4366, 'grad_norm': 74.08802032470703, 'learning_rate': 1.4202485903778976e-07, 'beta_dpo/gap_mean': 23.360401153564453, 'beta_dpo/gap_std': 23.381099700927734, 'beta_dpo/beta_used_raw': 0.3572339117527008, 'beta_dpo/beta_used': 0.3572339117527008, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.4058332443237305, 'logits/rejected': -2.0344924926757812, 'epoch': 0.68} 68%|████████████████████████████████████████████████████████████████████████████▊ | 463/681 [32:55<10:31, 2.90s/it] 68%|████████████████████████████████████████████████████████████████████████████▉ | 464/681 [32:58<10:22, 2.87s/it] {'loss': 1.3652, 'grad_norm': 0.8541564345359802, 'learning_rate': 1.4086882387355658e-07, 'beta_dpo/gap_mean': 23.911937713623047, 'beta_dpo/gap_std': 23.886293411254883, 'beta_dpo/beta_used_raw': -0.06975067406892776, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.4215198755264282, 'logits/rejected': -1.7960498332977295, 'epoch': 0.68} 68%|████████████████████████████████████████████████████████████████████████████▉ | 464/681 [32:58<10:22, 2.87s/it] 68%|█████████████████████████████████████████████████████████████████████████████▏ | 465/681 [33:01<10:31, 2.92s/it] {'loss': 1.0196, 'grad_norm': 16.16191864013672, 'learning_rate': 1.3971566441730714e-07, 'beta_dpo/gap_mean': 24.532211303710938, 'beta_dpo/gap_std': 23.919170379638672, 'beta_dpo/beta_used_raw': 0.019971748813986778, 'beta_dpo/beta_used': 0.028192659839987755, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.4708728790283203, 'logits/rejected': -1.1633594036102295, 'epoch': 0.68} 68%|█████████████████████████████████████████████████████████████████████████████▏ | 465/681 [33:01<10:31, 2.92s/it] 68%|█████████████████████████████████████████████████████████████████████████████▎ | 466/681 [33:04<10:32, 2.94s/it] {'loss': 1.3635, 'grad_norm': 0.6992933750152588, 'learning_rate': 1.3856541105586545e-07, 'beta_dpo/gap_mean': 25.499624252319336, 'beta_dpo/gap_std': 24.219432830810547, 'beta_dpo/beta_used_raw': -0.04159821569919586, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.7571964263916016, 'logits/rejected': -0.9470900893211365, 'epoch': 0.68} 68%|█████████████████████████████████████████████████████████████████████████████▎ | 466/681 [33:04<10:32, 2.94s/it] 69%|█████████████████████████████████████████████████████████████████████████████▍ | 467/681 [33:07<10:25, 2.92s/it] {'loss': 0.7054, 'grad_norm': 96.3606185913086, 'learning_rate': 1.3741809409947729e-07, 'beta_dpo/gap_mean': 26.462804794311523, 'beta_dpo/gap_std': 25.145883560180664, 'beta_dpo/beta_used_raw': 0.22183255851268768, 'beta_dpo/beta_used': 0.22183255851268768, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.2724277973175049, 'logits/rejected': -0.8243029117584229, 'epoch': 0.69} 69%|█████████████████████████████████████████████████████████████████████████████▍ | 467/681 [33:07<10:25, 2.92s/it] 69%|█████████████████████████████████████████████████████████████████████████████▋ | 468/681 [33:10<10:31, 2.97s/it] {'loss': 1.3656, 'grad_norm': 0.6921370625495911, 'learning_rate': 1.362737437810114e-07, 'beta_dpo/gap_mean': 25.78664779663086, 'beta_dpo/gap_std': 25.59890365600586, 'beta_dpo/beta_used_raw': -0.17463745176792145, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.6112632751464844, 'logits/rejected': -1.4802091121673584, 'epoch': 0.69} 69%|█████████████████████████████████████████████████████████████████████████████▋ | 468/681 [33:10<10:31, 2.97s/it] 69%|█████████████████████████████████████████████████████████████████████████████▊ | 469/681 [33:13<10:30, 2.98s/it] {'loss': 1.0234, 'grad_norm': 25.594966888427734, 'learning_rate': 1.351323902551631e-07, 'beta_dpo/gap_mean': 25.817581176757812, 'beta_dpo/gap_std': 25.734947204589844, 'beta_dpo/beta_used_raw': -0.01731177791953087, 'beta_dpo/beta_used': 0.047440025955438614, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0756289958953857, 'logits/rejected': -1.1045548915863037, 'epoch': 0.69} 69%|█████████████████████████████████████████████████████████████████████████████▊ | 469/681 [33:13<10:30, 2.98s/it] 69%|█████████████████████████████████████████████████████████████████████████████▉ | 470/681 [33:16<10:11, 2.90s/it] {'loss': 1.0523, 'grad_norm': 9.844660758972168, 'learning_rate': 1.339940635976592e-07, 'beta_dpo/gap_mean': 25.85068702697754, 'beta_dpo/gap_std': 25.390472412109375, 'beta_dpo/beta_used_raw': -0.1629122942686081, 'beta_dpo/beta_used': 0.021085133776068687, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.3108842372894287, 'logits/rejected': -0.6206603050231934, 'epoch': 0.69} 69%|█████████████████████████████████████████████████████████████████████████████▉ | 470/681 [33:16<10:11, 2.90s/it] 69%|██████████████████████████████████████████████████████████████████████████████▏ | 471/681 [33:18<09:54, 2.83s/it] {'loss': 1.3646, 'grad_norm': 0.6610987186431885, 'learning_rate': 1.3285879380446563e-07, 'beta_dpo/gap_mean': 25.482086181640625, 'beta_dpo/gap_std': 24.27267837524414, 'beta_dpo/beta_used_raw': -0.1044345274567604, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.423391342163086, 'logits/rejected': -1.448016881942749, 'epoch': 0.69} 69%|██████████████████████████████████████████████████████████████████████████████▏ | 471/681 [33:18<09:54, 2.83s/it] 69%|██████████████████████████████████████████████████████████████████████████████▎ | 472/681 [33:22<10:19, 2.96s/it] {'loss': 0.7033, 'grad_norm': 42.54352951049805, 'learning_rate': 1.317266107909975e-07, 'beta_dpo/gap_mean': 25.83689308166504, 'beta_dpo/gap_std': 24.579055786132812, 'beta_dpo/beta_used_raw': 0.20053143799304962, 'beta_dpo/beta_used': 0.2060602307319641, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8569872379302979, 'logits/rejected': -0.8077524900436401, 'epoch': 0.69} 69%|██████████████████████████████████████████████████████████████████████████████▎ | 472/681 [33:22<10:19, 2.96s/it] 69%|██████████████████████████████████████████████████████████████████████████████▍ | 473/681 [33:25<10:34, 3.05s/it] {'loss': 1.366, 'grad_norm': 0.6892096996307373, 'learning_rate': 1.3059754439133002e-07, 'beta_dpo/gap_mean': 25.466594696044922, 'beta_dpo/gap_std': 24.39486312866211, 'beta_dpo/beta_used_raw': -0.18200881779193878, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.5234148502349854, 'logits/rejected': -1.2367827892303467, 'epoch': 0.69} 69%|██████████████████████████████████████████████████████████████████████████████▍ | 473/681 [33:25<10:34, 3.05s/it] 70%|██████████████████████████████████████████████████████████████████████████████▋ | 474/681 [33:28<10:32, 3.06s/it] {'loss': 0.8605, 'grad_norm': 64.44613647460938, 'learning_rate': 1.2947162435741277e-07, 'beta_dpo/gap_mean': 24.003257751464844, 'beta_dpo/gap_std': 24.40390396118164, 'beta_dpo/beta_used_raw': 0.041917115449905396, 'beta_dpo/beta_used': 0.2482704520225525, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.6847041845321655, 'logits/rejected': -1.9953196048736572, 'epoch': 0.7} 70%|██████████████████████████████████████████████████████████████████████████████▋ | 474/681 [33:28<10:32, 3.06s/it] 70%|██████████████████████████████████████████████████████████████████████████████▊ | 475/681 [33:31<10:12, 2.98s/it] {'loss': 1.0405, 'grad_norm': 64.81230926513672, 'learning_rate': 1.2834888035828596e-07, 'beta_dpo/gap_mean': 23.967273712158203, 'beta_dpo/gap_std': 25.094600677490234, 'beta_dpo/beta_used_raw': -0.021716512739658356, 'beta_dpo/beta_used': 0.08866570144891739, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.347712993621826, 'logits/rejected': -2.292513847351074, 'epoch': 0.7} 70%|██████████████████████████████████████████████████████████████████████████████▊ | 475/681 [33:31<10:12, 2.98s/it] 70%|██████████████████████████████████████████████████████████████████████████████▉ | 476/681 [33:34<10:04, 2.95s/it] {'loss': 1.0054, 'grad_norm': 40.68457794189453, 'learning_rate': 1.2722934197929802e-07, 'beta_dpo/gap_mean': 24.103946685791016, 'beta_dpo/gap_std': 25.448429107666016, 'beta_dpo/beta_used_raw': 0.06551661342382431, 'beta_dpo/beta_used': 0.09056875109672546, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -3.05594539642334, 'logits/rejected': -2.536451816558838, 'epoch': 0.7} 70%|██████████████████████████████████████████████████████████████████████████████▉ | 476/681 [33:34<10:04, 2.95s/it] 70%|███████████████████████████████████████████████████████████████████████████████▏ | 477/681 [33:37<09:58, 2.93s/it] {'loss': 1.0475, 'grad_norm': 85.09745025634766, 'learning_rate': 1.2611303872132631e-07, 'beta_dpo/gap_mean': 24.300308227539062, 'beta_dpo/gap_std': 24.919261932373047, 'beta_dpo/beta_used_raw': 0.12678027153015137, 'beta_dpo/beta_used': 0.1769174486398697, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -3.4631779193878174, 'logits/rejected': -2.302935838699341, 'epoch': 0.7} 70%|███████████████████████████████████████████████████████████████████████████████▏ | 477/681 [33:37<09:58, 2.93s/it] 70%|███████████████████████████████████████████████████████████████████████████████▎ | 478/681 [33:40<10:04, 2.98s/it] {'loss': 0.7357, 'grad_norm': 9.503323554992676, 'learning_rate': 1.2500000000000005e-07, 'beta_dpo/gap_mean': 24.570049285888672, 'beta_dpo/gap_std': 24.76816177368164, 'beta_dpo/beta_used_raw': 0.06331229954957962, 'beta_dpo/beta_used': 0.07639861106872559, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.6086479425430298, 'logits/rejected': -1.4580334424972534, 'epoch': 0.7} 70%|███████████████████████████████████████████████████████████████████████████████▎ | 478/681 [33:40<10:04, 2.98s/it] 70%|███████████████████████████████████████████████████████████████████████████████▍ | 479/681 [33:43<09:55, 2.95s/it] {'loss': 1.0451, 'grad_norm': 17.492374420166016, 'learning_rate': 1.2389025514492456e-07, 'beta_dpo/gap_mean': 23.97896385192871, 'beta_dpo/gap_std': 24.565216064453125, 'beta_dpo/beta_used_raw': -0.0354989692568779, 'beta_dpo/beta_used': 0.027390312403440475, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.1278550624847412, 'logits/rejected': -1.251664400100708, 'epoch': 0.7} 70%|███████████████████████████████████████████████████████████████████████████████▍ | 479/681 [33:43<09:55, 2.95s/it] 70%|███████████████████████████████████████████████████████████████████████████████▋ | 480/681 [33:45<09:49, 2.93s/it] {'loss': 0.5926, 'grad_norm': 37.384212493896484, 'learning_rate': 1.227838333989088e-07, 'beta_dpo/gap_mean': 24.32904624938965, 'beta_dpo/gap_std': 24.614551544189453, 'beta_dpo/beta_used_raw': 0.14048559963703156, 'beta_dpo/beta_used': 0.14048559963703156, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.9816099405288696, 'logits/rejected': -0.38579627871513367, 'epoch': 0.7} 70%|███████████████████████████████████████████████████████████████████████████████▋ | 480/681 [33:45<09:49, 2.93s/it] 71%|███████████████████████████████████████████████████████████████████████████████▊ | 481/681 [33:48<09:40, 2.90s/it] {'loss': 0.754, 'grad_norm': 69.83039855957031, 'learning_rate': 1.2168076391719489e-07, 'beta_dpo/gap_mean': 24.815683364868164, 'beta_dpo/gap_std': 24.725587844848633, 'beta_dpo/beta_used_raw': 0.24488958716392517, 'beta_dpo/beta_used': 0.2901894152164459, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.7151495218276978, 'logits/rejected': -1.237488031387329, 'epoch': 0.71} 71%|███████████████████████████████████████████████████████████████████████████████▊ | 481/681 [33:48<09:40, 2.90s/it] 71%|███████████████████████████████████████████████████████████████████████████████▉ | 482/681 [33:51<09:42, 2.93s/it] {'loss': 0.3995, 'grad_norm': 72.19092559814453, 'learning_rate': 1.2058107576668938e-07, 'beta_dpo/gap_mean': 24.80794334411621, 'beta_dpo/gap_std': 24.68585777282715, 'beta_dpo/beta_used_raw': 0.2500970959663391, 'beta_dpo/beta_used': 0.2500970959663391, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7398509979248047, 'logits/rejected': -1.5857124328613281, 'epoch': 0.71} 71%|███████████████████████████████████████████████████████████████████████████████▉ | 482/681 [33:51<09:42, 2.93s/it] 71%|████████████████████████████████████████████████████████████████████████████████▏ | 483/681 [33:54<09:35, 2.91s/it] {'loss': 1.3641, 'grad_norm': 0.6664114594459534, 'learning_rate': 1.194847979251979e-07, 'beta_dpo/gap_mean': 24.991384506225586, 'beta_dpo/gap_std': 24.81667137145996, 'beta_dpo/beta_used_raw': -0.05012429505586624, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.6922659873962402, 'logits/rejected': -2.0293326377868652, 'epoch': 0.71} 71%|████████████████████████████████████████████████████████████████████████████████▏ | 483/681 [33:54<09:35, 2.91s/it] 71%|████████████████████████████████████████████████████████████████████████████████▎ | 484/681 [33:57<09:16, 2.82s/it] {'loss': 1.0274, 'grad_norm': 24.220054626464844, 'learning_rate': 1.1839195928066101e-07, 'beta_dpo/gap_mean': 25.618431091308594, 'beta_dpo/gap_std': 24.99521255493164, 'beta_dpo/beta_used_raw': -0.043017227202653885, 'beta_dpo/beta_used': 0.05779772624373436, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.480839729309082, 'logits/rejected': -1.7270921468734741, 'epoch': 0.71} 71%|████████████████████████████████████████████████████████████████████████████████▎ | 484/681 [33:57<09:16, 2.82s/it] 71%|████████████████████████████████████████████████████████████████████████████████▍ | 485/681 [34:00<09:15, 2.83s/it] {'loss': 0.5049, 'grad_norm': 204.2612762451172, 'learning_rate': 1.1730258863039347e-07, 'beta_dpo/gap_mean': 26.87214469909668, 'beta_dpo/gap_std': 25.37643051147461, 'beta_dpo/beta_used_raw': 0.4556177258491516, 'beta_dpo/beta_used': 0.4556177258491516, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.7958972454071045, 'logits/rejected': -1.4648010730743408, 'epoch': 0.71} 71%|████████████████████████████████████████████████████████████████████████████████▍ | 485/681 [34:00<09:15, 2.83s/it] 71%|████████████████████████████████████████████████████████████████████████████████▋ | 486/681 [34:02<08:45, 2.70s/it] {'loss': 1.0155, 'grad_norm': 54.36297607421875, 'learning_rate': 1.1621671468032493e-07, 'beta_dpo/gap_mean': 27.25442886352539, 'beta_dpo/gap_std': 25.22077178955078, 'beta_dpo/beta_used_raw': -0.0033923983573913574, 'beta_dpo/beta_used': 0.10207835584878922, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.51706862449646, 'logits/rejected': -0.514898419380188, 'epoch': 0.71} 71%|████████████████████████████████████████████████████████████████████████████████▋ | 486/681 [34:02<08:45, 2.70s/it] 72%|████████████████████████████████████████████████████████████████████████████████▊ | 487/681 [34:05<09:08, 2.83s/it] {'loss': 0.8498, 'grad_norm': 15.441408157348633, 'learning_rate': 1.1513436604424378e-07, 'beta_dpo/gap_mean': 27.748754501342773, 'beta_dpo/gap_std': 25.296875, 'beta_dpo/beta_used_raw': -0.09983708709478378, 'beta_dpo/beta_used': 0.04191367328166962, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.518860340118408, 'logits/rejected': -2.168724536895752, 'epoch': 0.72} 72%|████████████████████████████████████████████████████████████████████████████████▊ | 487/681 [34:05<09:08, 2.83s/it] 72%|████████████████████████████████████████████████████████████████████████████████▉ | 488/681 [34:08<09:23, 2.92s/it] {'loss': 0.8823, 'grad_norm': 15.30657958984375, 'learning_rate': 1.1405557124304335e-07, 'beta_dpo/gap_mean': 27.471683502197266, 'beta_dpo/gap_std': 25.476192474365234, 'beta_dpo/beta_used_raw': -0.12155961990356445, 'beta_dpo/beta_used': 0.04545029625296593, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.4583563804626465, 'logits/rejected': -1.155217170715332, 'epoch': 0.72} 72%|████████████████████████████████████████████████████████████████████████████████▉ | 488/681 [34:08<09:23, 2.92s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▏ | 489/681 [34:11<09:14, 2.89s/it] {'loss': 0.8221, 'grad_norm': 16.644136428833008, 'learning_rate': 1.1298035870396985e-07, 'beta_dpo/gap_mean': 26.843271255493164, 'beta_dpo/gap_std': 25.29082489013672, 'beta_dpo/beta_used_raw': -0.1422080397605896, 'beta_dpo/beta_used': 0.06218419224023819, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4313712120056152, 'logits/rejected': -0.8691326379776001, 'epoch': 0.72} 72%|█████████████████████████████████████████████████████████████████████████████████▏ | 489/681 [34:11<09:14, 2.89s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▎ | 490/681 [34:14<09:23, 2.95s/it] {'loss': 0.7618, 'grad_norm': 53.396732330322266, 'learning_rate': 1.1190875675987355e-07, 'beta_dpo/gap_mean': 26.245960235595703, 'beta_dpo/gap_std': 25.95622444152832, 'beta_dpo/beta_used_raw': 0.18236497044563293, 'beta_dpo/beta_used': 0.20237208902835846, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -3.046250104904175, 'logits/rejected': -3.4327287673950195, 'epoch': 0.72} 72%|█████████████████████████████████████████████████████████████████████████████████▎ | 490/681 [34:14<09:23, 2.95s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▍ | 491/681 [34:17<09:11, 2.90s/it] {'loss': 1.1114, 'grad_norm': 84.63758087158203, 'learning_rate': 1.1084079364846241e-07, 'beta_dpo/gap_mean': 26.14499855041504, 'beta_dpo/gap_std': 26.140344619750977, 'beta_dpo/beta_used_raw': 0.11552975326776505, 'beta_dpo/beta_used': 0.1410069763660431, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.0656046867370605, 'logits/rejected': -1.3837230205535889, 'epoch': 0.72} 72%|█████████████████████████████████████████████████████████████████████████████████▍ | 491/681 [34:17<09:11, 2.90s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▋ | 492/681 [34:20<09:10, 2.91s/it] {'loss': 0.8304, 'grad_norm': 48.452571868896484, 'learning_rate': 1.097764975115576e-07, 'beta_dpo/gap_mean': 25.744234085083008, 'beta_dpo/gap_std': 26.764545440673828, 'beta_dpo/beta_used_raw': 0.14474520087242126, 'beta_dpo/beta_used': 0.14474520087242126, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.1017768383026123, 'logits/rejected': -1.7172629833221436, 'epoch': 0.72} 72%|█████████████████████████████████████████████████████████████████████████████████▋ | 492/681 [34:20<09:10, 2.91s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▊ | 493/681 [34:23<09:16, 2.96s/it] {'loss': 1.3647, 'grad_norm': 0.626876950263977, 'learning_rate': 1.0871589639435203e-07, 'beta_dpo/gap_mean': 25.308929443359375, 'beta_dpo/gap_std': 25.760934829711914, 'beta_dpo/beta_used_raw': -0.0884954184293747, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3586655855178833, 'logits/rejected': -1.147123098373413, 'epoch': 0.72} 72%|█████████████████████████████████████████████████████████████████████████████████▊ | 493/681 [34:23<09:16, 2.96s/it] 73%|█████████████████████████████████████████████████████████████████████████████████▉ | 494/681 [34:26<08:51, 2.84s/it] {'loss': 0.9824, 'grad_norm': 94.02973175048828, 'learning_rate': 1.0765901824467166e-07, 'beta_dpo/gap_mean': 25.867393493652344, 'beta_dpo/gap_std': 25.818172454833984, 'beta_dpo/beta_used_raw': 0.3110436797142029, 'beta_dpo/beta_used': 0.32471179962158203, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -0.9558006525039673, 'logits/rejected': -0.8172507286071777, 'epoch': 0.73} 73%|█████████████████████████████████████████████████████████████████████████████████▉ | 494/681 [34:26<08:51, 2.84s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▏ | 495/681 [34:29<09:09, 2.96s/it] {'loss': 0.9694, 'grad_norm': 42.371150970458984, 'learning_rate': 1.0660589091223854e-07, 'beta_dpo/gap_mean': 25.145401000976562, 'beta_dpo/gap_std': 26.142412185668945, 'beta_dpo/beta_used_raw': -0.03144054859876633, 'beta_dpo/beta_used': 0.07395792752504349, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -2.23215651512146, 'logits/rejected': -1.574699878692627, 'epoch': 0.73} 73%|██████████████████████████████████████████████████████████████████████████████████▏ | 495/681 [34:29<09:09, 2.96s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▎ | 496/681 [34:32<09:10, 2.98s/it] {'loss': 0.2468, 'grad_norm': 45.06632995605469, 'learning_rate': 1.0555654214793722e-07, 'beta_dpo/gap_mean': 24.547943115234375, 'beta_dpo/gap_std': 25.825014114379883, 'beta_dpo/beta_used_raw': 0.2092335820198059, 'beta_dpo/beta_used': 0.2092335820198059, 'beta_dpo/mask_keep_frac': 0.4375, 'logits/chosen': -2.4776511192321777, 'logits/rejected': -2.3953630924224854, 'epoch': 0.73} 73%|██████████████████████████████████████████████████████████████████████████████████▎ | 496/681 [34:32<09:10, 2.98s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▍ | 497/681 [34:35<09:06, 2.97s/it] {'loss': 1.0408, 'grad_norm': 10.57982063293457, 'learning_rate': 1.0451099960308374e-07, 'beta_dpo/gap_mean': 24.095136642456055, 'beta_dpo/gap_std': 25.3642578125, 'beta_dpo/beta_used_raw': -0.23946470022201538, 'beta_dpo/beta_used': 0.021729838103055954, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.4335005283355713, 'logits/rejected': -0.9387121200561523, 'epoch': 0.73} 73%|██████████████████████████████████████████████████████████████████████████████████▍ | 497/681 [34:35<09:06, 2.97s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▋ | 498/681 [34:38<09:03, 2.97s/it] {'loss': 0.9679, 'grad_norm': 36.32901382446289, 'learning_rate': 1.0346929082869641e-07, 'beta_dpo/gap_mean': 23.83123779296875, 'beta_dpo/gap_std': 25.33839225769043, 'beta_dpo/beta_used_raw': 0.03154543787240982, 'beta_dpo/beta_used': 0.09472735226154327, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.6869301795959473, 'logits/rejected': -0.898349940776825, 'epoch': 0.73} 73%|██████████████████████████████████████████████████████████████████████████████████▋ | 498/681 [34:38<09:03, 2.97s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▊ | 499/681 [34:41<08:55, 2.94s/it] {'loss': 1.0755, 'grad_norm': 64.64530181884766, 'learning_rate': 1.0243144327477013e-07, 'beta_dpo/gap_mean': 24.075727462768555, 'beta_dpo/gap_std': 25.831310272216797, 'beta_dpo/beta_used_raw': 0.12113827466964722, 'beta_dpo/beta_used': 0.16567786037921906, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.4007351398468018, 'logits/rejected': -1.5927693843841553, 'epoch': 0.73} 73%|██████████████████████████████████████████████████████████████████████████████████▊ | 499/681 [34:41<08:55, 2.94s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▉ | 500/681 [34:43<08:44, 2.90s/it] {'loss': 0.9705, 'grad_norm': 19.999631881713867, 'learning_rate': 1.0139748428955333e-07, 'beta_dpo/gap_mean': 24.272212982177734, 'beta_dpo/gap_std': 26.225910186767578, 'beta_dpo/beta_used_raw': -0.2836288809776306, 'beta_dpo/beta_used': 0.03878691792488098, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.7180049419403076, 'logits/rejected': -2.44711971282959, 'epoch': 0.73} 73%|██████████████████████████████████████████████████████████████████████████████████▉ | 500/681 [34:43<08:44, 2.90s/it][INFO|trainer.py:4307] 2026-04-24 02:26:31,786 >> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-24 02:26:31,786 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-24 02:26:31,786 >> Batch size = 8 0%| | 0/73 [00:00> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-24 02:32:05,559 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-24 02:32:05,559 >> Batch size = 8 0%| | 0/73 [00:00> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600 [INFO|configuration_utils.py:419] 2026-04-24 02:33:04,233 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600/config.json [INFO|configuration_utils.py:911] 2026-04-24 02:33:04,237 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600/generation_config.json [INFO|modeling_utils.py:3580] 2026-04-24 02:33:43,661 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600/model.safetensors.index.json. [INFO|tokenization_utils_base.py:2510] 2026-04-24 02:33:43,683 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600/tokenizer_config.json [INFO|tokenization_utils_base.py:2519] 2026-04-24 02:33:43,696 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-600/special_tokens_map.json [INFO|trainer.py:4083] 2026-04-24 02:36:43,003 >> Deleting older checkpoint [/scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-200] due to args.save_total_limit 88%|█████████████████████████████████████████████████████████████████████████████████████████████████▉ | 601/681 [44:59<1:55:24, 86.55s/it] {'loss': 1.0178, 'grad_norm': 107.63837432861328, 'learning_rate': 2.1301532877994742e-08, 'beta_dpo/gap_mean': 26.179027557373047, 'beta_dpo/gap_std': 26.613693237304688, 'beta_dpo/beta_used_raw': 0.12984035909175873, 'beta_dpo/beta_used': 0.12984035909175873, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7914152145385742, 'logits/rejected': -1.9762234687805176, 'epoch': 0.88} 88%|█████████████████████████████████████████████████████████████████████████████████████████████████▉ | 601/681 [44:59<1:55:24, 86.55s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████ | 602/681 [45:02<1:20:57, 61.48s/it] {'loss': 1.0727, 'grad_norm': 8.777104377746582, 'learning_rate': 2.0786184285784298e-08, 'beta_dpo/gap_mean': 26.409027099609375, 'beta_dpo/gap_std': 26.42571449279785, 'beta_dpo/beta_used_raw': -0.1130400225520134, 'beta_dpo/beta_used': 0.017126336693763733, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.1035757064819336, 'logits/rejected': -2.0259461402893066, 'epoch': 0.88} 88%|██████████████████████████████████████████████████████████████████████████████████████████████████ | 602/681 [45:02<1:20:57, 61.48s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 603/681 [45:05<57:04, 43.91s/it] {'loss': 0.431, 'grad_norm': 53.16716003417969, 'learning_rate': 2.0276875690788204e-08, 'beta_dpo/gap_mean': 26.976688385009766, 'beta_dpo/gap_std': 26.73578643798828, 'beta_dpo/beta_used_raw': 0.21063096821308136, 'beta_dpo/beta_used': 0.21063096821308136, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0368385314941406, 'logits/rejected': -1.4027612209320068, 'epoch': 0.89} 89%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 603/681 [45:05<57:04, 43.91s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 604/681 [45:08<40:35, 31.63s/it] {'loss': 0.6969, 'grad_norm': 15.568916320800781, 'learning_rate': 1.977362051376158e-08, 'beta_dpo/gap_mean': 27.32293701171875, 'beta_dpo/gap_std': 26.424095153808594, 'beta_dpo/beta_used_raw': 0.07125077396631241, 'beta_dpo/beta_used': 0.1964634358882904, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.341930866241455, 'logits/rejected': -1.854198932647705, 'epoch': 0.89} 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 604/681 [45:08<40:35, 31.63s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 605/681 [45:11<29:11, 23.04s/it] {'loss': 0.7124, 'grad_norm': 20.861234664916992, 'learning_rate': 1.9276432015946446e-08, 'beta_dpo/gap_mean': 27.005504608154297, 'beta_dpo/gap_std': 26.37883758544922, 'beta_dpo/beta_used_raw': 0.04611806571483612, 'beta_dpo/beta_used': 0.13269981741905212, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0397030115127563, 'logits/rejected': -0.052525296807289124, 'epoch': 0.89} 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 605/681 [45:11<29:11, 23.04s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 606/681 [45:13<21:10, 16.94s/it] {'loss': 0.8645, 'grad_norm': 20.553180694580078, 'learning_rate': 1.8785323298722093e-08, 'beta_dpo/gap_mean': 27.078205108642578, 'beta_dpo/gap_std': 26.055770874023438, 'beta_dpo/beta_used_raw': 0.0479503832757473, 'beta_dpo/beta_used': 0.04934832826256752, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.6765646934509277, 'logits/rejected': -1.3924915790557861, 'epoch': 0.89} 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 606/681 [45:14<21:10, 16.94s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 607/681 [45:16<15:43, 12.75s/it] {'loss': 0.938, 'grad_norm': 16.795377731323242, 'learning_rate': 1.8300307303259904e-08, 'beta_dpo/gap_mean': 27.655214309692383, 'beta_dpo/gap_std': 26.571216583251953, 'beta_dpo/beta_used_raw': 0.018087653443217278, 'beta_dpo/beta_used': 0.04134753346443176, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4865968227386475, 'logits/rejected': -0.9536029696464539, 'epoch': 0.89} 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 607/681 [45:16<15:43, 12.75s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 608/681 [45:19<11:51, 9.75s/it] {'loss': 0.7477, 'grad_norm': 60.357391357421875, 'learning_rate': 1.7821396810182437e-08, 'beta_dpo/gap_mean': 27.888565063476562, 'beta_dpo/gap_std': 26.88840103149414, 'beta_dpo/beta_used_raw': 0.19230753183364868, 'beta_dpo/beta_used': 0.19230753183364868, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.0982064008712769, 'logits/rejected': -0.5400052666664124, 'epoch': 0.89} 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 608/681 [45:19<11:51, 9.75s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████ | 609/681 [45:22<09:08, 7.62s/it] {'loss': 0.8564, 'grad_norm': 44.63237380981445, 'learning_rate': 1.7348604439226617e-08, 'beta_dpo/gap_mean': 28.08792495727539, 'beta_dpo/gap_std': 26.806245803833008, 'beta_dpo/beta_used_raw': 0.07590121030807495, 'beta_dpo/beta_used': 0.12406554818153381, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.1751508712768555, 'logits/rejected': -1.6474738121032715, 'epoch': 0.89} 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████ | 609/681 [45:22<09:08, 7.62s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 610/681 [45:25<07:22, 6.23s/it] {'loss': 0.4032, 'grad_norm': 101.64844512939453, 'learning_rate': 1.6881942648911074e-08, 'beta_dpo/gap_mean': 27.960865020751953, 'beta_dpo/gap_std': 26.91543960571289, 'beta_dpo/beta_used_raw': 0.2061629593372345, 'beta_dpo/beta_used': 0.2061629593372345, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.126846194267273, 'logits/rejected': -0.9453625082969666, 'epoch': 0.9} 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 610/681 [45:25<07:22, 6.23s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 611/681 [45:27<05:59, 5.13s/it] {'loss': 1.3659, 'grad_norm': 0.6740864515304565, 'learning_rate': 1.6421423736208e-08, 'beta_dpo/gap_mean': 27.73170280456543, 'beta_dpo/gap_std': 27.425939559936523, 'beta_dpo/beta_used_raw': -0.3135502338409424, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.3016668558120728, 'logits/rejected': -1.5816915035247803, 'epoch': 0.9} 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 611/681 [45:27<05:59, 5.13s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 612/681 [45:30<05:03, 4.39s/it] {'loss': 1.0534, 'grad_norm': 11.847250938415527, 'learning_rate': 1.5967059836219042e-08, 'beta_dpo/gap_mean': 27.90454864501953, 'beta_dpo/gap_std': 28.067529678344727, 'beta_dpo/beta_used_raw': -0.04090452194213867, 'beta_dpo/beta_used': 0.019122015684843063, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.828847646713257, 'logits/rejected': -1.5389125347137451, 'epoch': 0.9} 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 612/681 [45:30<05:03, 4.39s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 613/681 [45:33<04:27, 3.93s/it] {'loss': 0.8487, 'grad_norm': 32.16731643676758, 'learning_rate': 1.551886292185553e-08, 'beta_dpo/gap_mean': 28.143531799316406, 'beta_dpo/gap_std': 27.665599822998047, 'beta_dpo/beta_used_raw': 0.08581092953681946, 'beta_dpo/beta_used': 0.08581092953681946, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -0.8254266977310181, 'logits/rejected': -0.2951732873916626, 'epoch': 0.9} 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 613/681 [45:33<04:27, 3.93s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 614/681 [45:36<04:00, 3.60s/it] {'loss': 1.3614, 'grad_norm': 0.9008828997612, 'learning_rate': 1.507684480352292e-08, 'beta_dpo/gap_mean': 27.91874122619629, 'beta_dpo/gap_std': 26.732559204101562, 'beta_dpo/beta_used_raw': -0.0637907013297081, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.2602735757827759, 'logits/rejected': -1.2624118328094482, 'epoch': 0.9} 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 614/681 [45:36<04:00, 3.60s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 615/681 [45:39<03:45, 3.41s/it] {'loss': 0.7225, 'grad_norm': 35.35264205932617, 'learning_rate': 1.4641017128809801e-08, 'beta_dpo/gap_mean': 26.90203857421875, 'beta_dpo/gap_std': 26.413787841796875, 'beta_dpo/beta_used_raw': 0.09561780840158463, 'beta_dpo/beta_used': 0.20127537846565247, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -3.1033453941345215, 'logits/rejected': -1.8919872045516968, 'epoch': 0.9} 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 615/681 [45:39<03:45, 3.41s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 616/681 [45:42<03:32, 3.28s/it] {'loss': 0.9495, 'grad_norm': 18.992765426635742, 'learning_rate': 1.4211391382180637e-08, 'beta_dpo/gap_mean': 26.748119354248047, 'beta_dpo/gap_std': 26.577213287353516, 'beta_dpo/beta_used_raw': 0.030270632356405258, 'beta_dpo/beta_used': 0.035515908151865005, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7871594429016113, 'logits/rejected': -1.0935783386230469, 'epoch': 0.9} 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 616/681 [45:42<03:32, 3.28s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 617/681 [45:45<03:27, 3.24s/it] {'loss': 1.0214, 'grad_norm': 33.350303649902344, 'learning_rate': 1.378797888467345e-08, 'beta_dpo/gap_mean': 25.87103843688965, 'beta_dpo/gap_std': 26.988807678222656, 'beta_dpo/beta_used_raw': -0.08706134557723999, 'beta_dpo/beta_used': 0.1273186355829239, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.6357133388519287, 'logits/rejected': -0.8707866072654724, 'epoch': 0.91} 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 617/681 [45:45<03:27, 3.24s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 618/681 [45:48<03:20, 3.18s/it] {'loss': 0.2889, 'grad_norm': 74.97677612304688, 'learning_rate': 1.3370790793601371e-08, 'beta_dpo/gap_mean': 25.480789184570312, 'beta_dpo/gap_std': 26.98863983154297, 'beta_dpo/beta_used_raw': 0.28145626187324524, 'beta_dpo/beta_used': 0.28145626187324524, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.809556245803833, 'logits/rejected': -2.3729324340820312, 'epoch': 0.91} 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 618/681 [45:48<03:20, 3.18s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 619/681 [45:51<03:12, 3.11s/it] {'loss': 0.4014, 'grad_norm': 93.3560791015625, 'learning_rate': 1.2959838102258535e-08, 'beta_dpo/gap_mean': 25.54322052001953, 'beta_dpo/gap_std': 26.776268005371094, 'beta_dpo/beta_used_raw': 0.24077007174491882, 'beta_dpo/beta_used': 0.24077007174491882, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.683895468711853, 'logits/rejected': -0.9932112097740173, 'epoch': 0.91} 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 619/681 [45:51<03:12, 3.11s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 620/681 [45:54<03:04, 3.02s/it] {'loss': 1.0302, 'grad_norm': 122.45503234863281, 'learning_rate': 1.2555131639630567e-08, 'beta_dpo/gap_mean': 25.977336883544922, 'beta_dpo/gap_std': 27.07024383544922, 'beta_dpo/beta_used_raw': 0.1724894642829895, 'beta_dpo/beta_used': 0.3967885673046112, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6116111278533936, 'logits/rejected': -1.515150785446167, 'epoch': 0.91} 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 620/681 [45:54<03:04, 3.02s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 621/681 [45:57<03:00, 3.00s/it] {'loss': 0.9069, 'grad_norm': 60.58484649658203, 'learning_rate': 1.2156682070109086e-08, 'beta_dpo/gap_mean': 25.018667221069336, 'beta_dpo/gap_std': 27.220109939575195, 'beta_dpo/beta_used_raw': 0.05492217093706131, 'beta_dpo/beta_used': 0.14680472016334534, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7409666776657104, 'logits/rejected': -1.3526718616485596, 'epoch': 0.91} 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 621/681 [45:57<03:00, 3.00s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 622/681 [45:59<02:54, 2.96s/it] {'loss': 0.2976, 'grad_norm': 45.40700912475586, 'learning_rate': 1.1764499893210878e-08, 'beta_dpo/gap_mean': 25.912124633789062, 'beta_dpo/gap_std': 26.764728546142578, 'beta_dpo/beta_used_raw': 0.17629124224185944, 'beta_dpo/beta_used': 0.17629124224185944, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -0.560531497001648, 'logits/rejected': 0.17780210077762604, 'epoch': 0.91} 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 622/681 [46:00<02:54, 2.96s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 623/681 [46:02<02:43, 2.81s/it] {'loss': 0.8965, 'grad_norm': 19.917722702026367, 'learning_rate': 1.1378595443300998e-08, 'beta_dpo/gap_mean': 25.94444465637207, 'beta_dpo/gap_std': 27.35669708251953, 'beta_dpo/beta_used_raw': -0.05395708605647087, 'beta_dpo/beta_used': 0.05971324071288109, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.4165191650390625, 'logits/rejected': -2.535884141921997, 'epoch': 0.91} 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 623/681 [46:02<02:43, 2.81s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 624/681 [46:05<02:40, 2.81s/it] {'loss': 0.7317, 'grad_norm': 53.50072479248047, 'learning_rate': 1.0998978889320582e-08, 'beta_dpo/gap_mean': 26.42656135559082, 'beta_dpo/gap_std': 27.526315689086914, 'beta_dpo/beta_used_raw': 0.2545613944530487, 'beta_dpo/beta_used': 0.2743593156337738, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.464743733406067, 'logits/rejected': -0.29761308431625366, 'epoch': 0.92} 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 624/681 [46:05<02:40, 2.81s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 625/681 [46:08<02:41, 2.88s/it] {'loss': 1.3677, 'grad_norm': 0.6834034323692322, 'learning_rate': 1.0625660234518913e-08, 'beta_dpo/gap_mean': 26.23963737487793, 'beta_dpo/gap_std': 27.129396438598633, 'beta_dpo/beta_used_raw': -0.34066319465637207, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.4838218688964844, 'logits/rejected': -2.34793758392334, 'epoch': 0.92} 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 625/681 [46:08<02:41, 2.88s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 626/681 [46:11<02:43, 2.97s/it] {'loss': 1.3675, 'grad_norm': 0.693095862865448, 'learning_rate': 1.0258649316189721e-08, 'beta_dpo/gap_mean': 25.508012771606445, 'beta_dpo/gap_std': 27.87520408630371, 'beta_dpo/beta_used_raw': -0.2781468331813812, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.392935276031494, 'logits/rejected': -2.3022007942199707, 'epoch': 0.92} 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 626/681 [46:11<02:43, 2.97s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████ | 627/681 [46:14<02:40, 2.97s/it] {'loss': 1.0095, 'grad_norm': 66.25963592529297, 'learning_rate': 9.897955805412e-09, 'beta_dpo/gap_mean': 25.508769989013672, 'beta_dpo/gap_std': 28.16644287109375, 'beta_dpo/beta_used_raw': 0.1320492923259735, 'beta_dpo/beta_used': 0.1320492923259735, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.5383257865905762, 'logits/rejected': -1.2918891906738281, 'epoch': 0.92} 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████ | 627/681 [46:14<02:40, 2.97s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 628/681 [46:17<02:36, 2.96s/it] {'loss': 0.7534, 'grad_norm': 43.68147659301758, 'learning_rate': 9.543589206795238e-09, 'beta_dpo/gap_mean': 25.589433670043945, 'beta_dpo/gap_std': 27.666522979736328, 'beta_dpo/beta_used_raw': 0.1004292219877243, 'beta_dpo/beta_used': 0.1707049161195755, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.54828679561615, 'logits/rejected': -1.1098421812057495, 'epoch': 0.92} 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 628/681 [46:17<02:36, 2.96s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 629/681 [46:20<02:33, 2.95s/it] {'loss': 1.0793, 'grad_norm': 19.315677642822266, 'learning_rate': 9.19555885822887e-09, 'beta_dpo/gap_mean': 25.53607749938965, 'beta_dpo/gap_std': 27.197887420654297, 'beta_dpo/beta_used_raw': 0.028293948620557785, 'beta_dpo/beta_used': 0.03018147312104702, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.1567575931549072, 'logits/rejected': -1.6035345792770386, 'epoch': 0.92} 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 629/681 [46:20<02:33, 2.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 630/681 [46:23<02:30, 2.96s/it] {'loss': 1.0099, 'grad_norm': 20.050827026367188, 'learning_rate': 8.85387393063622e-09, 'beta_dpo/gap_mean': 24.495513916015625, 'beta_dpo/gap_std': 26.417217254638672, 'beta_dpo/beta_used_raw': -0.07359858602285385, 'beta_dpo/beta_used': 0.034268446266651154, 'beta_dpo/mask_keep_frac': 0.5625, 'logits/chosen': -2.140623092651367, 'logits/rejected': -0.20457985997200012, 'epoch': 0.93} 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 630/681 [46:23<02:30, 2.96s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 631/681 [46:26<02:25, 2.91s/it] {'loss': 0.9139, 'grad_norm': 16.772321701049805, 'learning_rate': 8.518543427732949e-09, 'beta_dpo/gap_mean': 24.764623641967773, 'beta_dpo/gap_std': 25.562318801879883, 'beta_dpo/beta_used_raw': 0.023703955113887787, 'beta_dpo/beta_used': 0.046777982264757156, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -3.0626821517944336, 'logits/rejected': -1.7369043827056885, 'epoch': 0.93} 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 631/681 [46:26<02:25, 2.91s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 632/681 [46:28<02:20, 2.87s/it] {'loss': 0.9446, 'grad_norm': 15.070470809936523, 'learning_rate': 8.189576185789637e-09, 'beta_dpo/gap_mean': 25.46234703063965, 'beta_dpo/gap_std': 25.864564895629883, 'beta_dpo/beta_used_raw': 0.03169193118810654, 'beta_dpo/beta_used': 0.03596285730600357, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.1580801010131836, 'logits/rejected': -1.8691926002502441, 'epoch': 0.93} 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 632/681 [46:28<02:20, 2.87s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████ | 633/681 [46:31<02:16, 2.85s/it] {'loss': 1.0363, 'grad_norm': 40.30422592163086, 'learning_rate': 7.866980873399015e-09, 'beta_dpo/gap_mean': 24.667333602905273, 'beta_dpo/gap_std': 27.10137939453125, 'beta_dpo/beta_used_raw': -0.249537855386734, 'beta_dpo/beta_used': 0.037844493985176086, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -3.4099979400634766, 'logits/rejected': -2.978597640991211, 'epoch': 0.93} 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████ | 633/681 [46:31<02:16, 2.85s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 634/681 [46:34<02:17, 2.92s/it] {'loss': 1.031, 'grad_norm': 10.418085098266602, 'learning_rate': 7.550765991247654e-09, 'beta_dpo/gap_mean': 24.457666397094727, 'beta_dpo/gap_std': 26.525691986083984, 'beta_dpo/beta_used_raw': -0.027643514797091484, 'beta_dpo/beta_used': 0.02373570203781128, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.44098699092865, 'logits/rejected': -1.1311659812927246, 'epoch': 0.93} 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 634/681 [46:34<02:17, 2.92s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 635/681 [46:37<02:12, 2.88s/it] {'loss': 1.1452, 'grad_norm': 7.660090923309326, 'learning_rate': 7.240939871891699e-09, 'beta_dpo/gap_mean': 24.24664306640625, 'beta_dpo/gap_std': 26.660503387451172, 'beta_dpo/beta_used_raw': -0.1692088097333908, 'beta_dpo/beta_used': 0.014054001308977604, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.804953694343567, 'logits/rejected': -1.106596827507019, 'epoch': 0.93} 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 635/681 [46:37<02:12, 2.88s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 636/681 [46:40<02:12, 2.94s/it] {'loss': 0.6125, 'grad_norm': 54.858829498291016, 'learning_rate': 6.937510679537628e-09, 'beta_dpo/gap_mean': 24.010807037353516, 'beta_dpo/gap_std': 26.382919311523438, 'beta_dpo/beta_used_raw': 0.11992073059082031, 'beta_dpo/beta_used': 0.11992073059082031, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.4366188049316406, 'logits/rejected': -0.8485536575317383, 'epoch': 0.93} 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 636/681 [46:40<02:12, 2.94s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 637/681 [46:43<02:08, 2.93s/it] {'loss': 1.1776, 'grad_norm': 8.482524871826172, 'learning_rate': 6.640486409826785e-09, 'beta_dpo/gap_mean': 24.7161808013916, 'beta_dpo/gap_std': 27.203895568847656, 'beta_dpo/beta_used_raw': -0.11114945262670517, 'beta_dpo/beta_used': 0.012525239959359169, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.6223981380462646, 'logits/rejected': -1.295461893081665, 'epoch': 0.94} 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 637/681 [46:43<02:08, 2.93s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 638/681 [46:46<02:05, 2.91s/it] {'loss': 0.3056, 'grad_norm': 42.16156005859375, 'learning_rate': 6.349874889624962e-09, 'beta_dpo/gap_mean': 25.465686798095703, 'beta_dpo/gap_std': 26.684253692626953, 'beta_dpo/beta_used_raw': 0.17386887967586517, 'beta_dpo/beta_used': 0.17386887967586517, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.806030750274658, 'logits/rejected': -0.8436174988746643, 'epoch': 0.94} 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 638/681 [46:46<02:05, 2.91s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████ | 639/681 [46:49<02:02, 2.91s/it] {'loss': 1.3648, 'grad_norm': 0.7115759253501892, 'learning_rate': 6.065683776815933e-09, 'beta_dpo/gap_mean': 24.781633377075195, 'beta_dpo/gap_std': 26.568370819091797, 'beta_dpo/beta_used_raw': -0.14556750655174255, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.160405158996582, 'logits/rejected': -0.9737479090690613, 'epoch': 0.94} 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████ | 639/681 [46:49<02:02, 2.91s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 640/681 [46:52<02:02, 2.98s/it] {'loss': 0.6861, 'grad_norm': 6.0283379554748535, 'learning_rate': 5.7879205600998296e-09, 'beta_dpo/gap_mean': 24.88129234313965, 'beta_dpo/gap_std': 26.40639877319336, 'beta_dpo/beta_used_raw': 0.3394223153591156, 'beta_dpo/beta_used': 0.3657962381839752, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.7498547434806824, 'logits/rejected': -0.22841249406337738, 'epoch': 0.94} 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 640/681 [46:52<02:02, 2.98s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 641/681 [46:55<01:59, 2.99s/it] {'loss': 0.625, 'grad_norm': 93.76725006103516, 'learning_rate': 5.516592558795746e-09, 'beta_dpo/gap_mean': 25.962242126464844, 'beta_dpo/gap_std': 26.106050491333008, 'beta_dpo/beta_used_raw': 0.21244415640830994, 'beta_dpo/beta_used': 0.21244415640830994, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.8660616874694824, 'logits/rejected': -1.753645896911621, 'epoch': 0.94} 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 641/681 [46:55<01:59, 2.99s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 642/681 [46:58<01:54, 2.94s/it] {'loss': 1.3687, 'grad_norm': 0.6580331921577454, 'learning_rate': 5.251706922648868e-09, 'beta_dpo/gap_mean': 25.666969299316406, 'beta_dpo/gap_std': 27.017744064331055, 'beta_dpo/beta_used_raw': -0.39809074997901917, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9073336124420166, 'logits/rejected': -0.7449837923049927, 'epoch': 0.94} 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 642/681 [46:58<01:54, 2.94s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 643/681 [47:01<01:52, 2.97s/it] {'loss': 0.6708, 'grad_norm': 21.325944900512695, 'learning_rate': 4.993270631642038e-09, 'beta_dpo/gap_mean': 25.45240020751953, 'beta_dpo/gap_std': 26.006860733032227, 'beta_dpo/beta_used_raw': 0.07014614343643188, 'beta_dpo/beta_used': 0.07014614343643188, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.990086555480957, 'logits/rejected': -1.38441801071167, 'epoch': 0.94} 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 643/681 [47:01<01:52, 2.97s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 644/681 [47:04<01:50, 2.98s/it] {'loss': 0.7768, 'grad_norm': 22.50238037109375, 'learning_rate': 4.741290495811873e-09, 'beta_dpo/gap_mean': 24.64284896850586, 'beta_dpo/gap_std': 26.2049617767334, 'beta_dpo/beta_used_raw': -0.07786447554826736, 'beta_dpo/beta_used': 0.10355755686759949, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.9852948188781738, 'logits/rejected': -1.767737865447998, 'epoch': 0.95} 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 644/681 [47:04<01:50, 2.98s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████ | 645/681 [47:07<01:46, 2.97s/it] {'loss': 1.3709, 'grad_norm': 0.7167469263076782, 'learning_rate': 4.495773155069299e-09, 'beta_dpo/gap_mean': 23.876996994018555, 'beta_dpo/gap_std': 26.21371078491211, 'beta_dpo/beta_used_raw': -0.3595721125602722, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -2.1556835174560547, 'logits/rejected': -1.0982701778411865, 'epoch': 0.95} 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████ | 645/681 [47:07<01:46, 2.97s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 646/681 [47:09<01:41, 2.91s/it] {'loss': 0.2992, 'grad_norm': 78.34426879882812, 'learning_rate': 4.256725079024553e-09, 'beta_dpo/gap_mean': 24.075374603271484, 'beta_dpo/gap_std': 25.402545928955078, 'beta_dpo/beta_used_raw': 0.27249401807785034, 'beta_dpo/beta_used': 0.27249401807785034, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -1.273078203201294, 'logits/rejected': -1.0210223197937012, 'epoch': 0.95} 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 646/681 [47:10<01:41, 2.91s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 647/681 [47:13<01:41, 2.99s/it] {'loss': 1.2658, 'grad_norm': 73.75732421875, 'learning_rate': 4.024152566816791e-09, 'beta_dpo/gap_mean': 23.82613754272461, 'beta_dpo/gap_std': 25.484859466552734, 'beta_dpo/beta_used_raw': 0.013192906975746155, 'beta_dpo/beta_used': 0.1067810207605362, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9040647745132446, 'logits/rejected': -0.8365122079849243, 'epoch': 0.95} 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 647/681 [47:13<01:41, 2.99s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 648/681 [47:15<01:36, 2.91s/it] {'loss': 0.8779, 'grad_norm': 102.65180969238281, 'learning_rate': 3.798061746947995e-09, 'beta_dpo/gap_mean': 24.101375579833984, 'beta_dpo/gap_std': 25.932687759399414, 'beta_dpo/beta_used_raw': 0.10964904725551605, 'beta_dpo/beta_used': 0.183420792222023, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5339770317077637, 'logits/rejected': -1.5160984992980957, 'epoch': 0.95} 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 648/681 [47:15<01:36, 2.91s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 649/681 [47:19<01:35, 2.99s/it] {'loss': 0.8886, 'grad_norm': 35.50594711303711, 'learning_rate': 3.5784585771215235e-09, 'beta_dpo/gap_mean': 24.48971176147461, 'beta_dpo/gap_std': 25.154579162597656, 'beta_dpo/beta_used_raw': 0.0430719330906868, 'beta_dpo/beta_used': 0.1578582227230072, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.3788206577301025, 'logits/rejected': -1.731053113937378, 'epoch': 0.95} 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 649/681 [47:19<01:35, 2.99s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 650/681 [47:21<01:30, 2.92s/it] {'loss': 0.8795, 'grad_norm': 32.246803283691406, 'learning_rate': 3.3653488440851253e-09, 'beta_dpo/gap_mean': 24.677059173583984, 'beta_dpo/gap_std': 25.670509338378906, 'beta_dpo/beta_used_raw': 0.04472571983933449, 'beta_dpo/beta_used': 0.08072511106729507, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5401017665863037, 'logits/rejected': -1.5119943618774414, 'epoch': 0.95} 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 650/681 [47:21<01:30, 2.92s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 651/681 [47:24<01:27, 2.92s/it] {'loss': 0.4221, 'grad_norm': 75.5047836303711, 'learning_rate': 3.158738163478475e-09, 'beta_dpo/gap_mean': 25.562501907348633, 'beta_dpo/gap_std': 25.796520233154297, 'beta_dpo/beta_used_raw': 0.266397625207901, 'beta_dpo/beta_used': 0.266397625207901, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.793809413909912, 'logits/rejected': -2.2159769535064697, 'epoch': 0.96} 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 651/681 [47:24<01:27, 2.92s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 652/681 [47:27<01:24, 2.91s/it] {'loss': 0.3882, 'grad_norm': 62.18571090698242, 'learning_rate': 2.9586319796851555e-09, 'beta_dpo/gap_mean': 25.857515335083008, 'beta_dpo/gap_std': 25.84009552001953, 'beta_dpo/beta_used_raw': 0.23461079597473145, 'beta_dpo/beta_used': 0.23461079597473145, 'beta_dpo/mask_keep_frac': 0.625, 'logits/chosen': -1.5306251049041748, 'logits/rejected': -1.4811850786209106, 'epoch': 0.96} 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 652/681 [47:27<01:24, 2.91s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 653/681 [47:30<01:21, 2.90s/it] {'loss': 0.3804, 'grad_norm': 105.35147094726562, 'learning_rate': 2.7650355656892166e-09, 'beta_dpo/gap_mean': 25.806331634521484, 'beta_dpo/gap_std': 25.399927139282227, 'beta_dpo/beta_used_raw': 0.3161761462688446, 'beta_dpo/beta_used': 0.3161761462688446, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.4217348098754883, 'logits/rejected': -2.5725555419921875, 'epoch': 0.96} 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 653/681 [47:30<01:21, 2.90s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 654/681 [47:33<01:18, 2.91s/it] {'loss': 0.9204, 'grad_norm': 39.34584045410156, 'learning_rate': 2.577954022936174e-09, 'beta_dpo/gap_mean': 25.800559997558594, 'beta_dpo/gap_std': 25.6098690032959, 'beta_dpo/beta_used_raw': 0.04106505215167999, 'beta_dpo/beta_used': 0.11472293734550476, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.2942886352539062, 'logits/rejected': -1.7099244594573975, 'epoch': 0.96} 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 654/681 [47:33<01:18, 2.91s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 655/681 [47:36<01:15, 2.92s/it] {'loss': 0.8524, 'grad_norm': 35.4230842590332, 'learning_rate': 2.397392281198729e-09, 'beta_dpo/gap_mean': 25.342327117919922, 'beta_dpo/gap_std': 26.117286682128906, 'beta_dpo/beta_used_raw': -0.00997423380613327, 'beta_dpo/beta_used': 0.09627825766801834, 'beta_dpo/mask_keep_frac': 1.0, 'logits/chosen': -1.9102520942687988, 'logits/rejected': -1.835174322128296, 'epoch': 0.96} 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 655/681 [47:36<01:15, 2.92s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 656/681 [47:39<01:14, 2.97s/it] {'loss': 0.9823, 'grad_norm': 15.73218059539795, 'learning_rate': 2.223355098446622e-09, 'beta_dpo/gap_mean': 25.836530685424805, 'beta_dpo/gap_std': 26.004581451416016, 'beta_dpo/beta_used_raw': 0.019424546509981155, 'beta_dpo/beta_used': 0.02918560430407524, 'beta_dpo/mask_keep_frac': 0.5, 'logits/chosen': -2.0381622314453125, 'logits/rejected': -2.282194137573242, 'epoch': 0.96} 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 656/681 [47:39<01:14, 2.97s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 657/681 [47:42<01:09, 2.88s/it] {'loss': 0.846, 'grad_norm': 36.36809158325195, 'learning_rate': 2.055847060721566e-09, 'beta_dpo/gap_mean': 26.164352416992188, 'beta_dpo/gap_std': 26.37403106689453, 'beta_dpo/beta_used_raw': -0.011161044239997864, 'beta_dpo/beta_used': 0.14083074033260345, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8447120189666748, 'logits/rejected': -1.3986084461212158, 'epoch': 0.96} 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 657/681 [47:42<01:09, 2.88s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 658/681 [47:44<01:04, 2.82s/it] {'loss': 0.8892, 'grad_norm': 41.52330780029297, 'learning_rate': 1.8948725820160662e-09, 'beta_dpo/gap_mean': 25.671611785888672, 'beta_dpo/gap_std': 26.10125732421875, 'beta_dpo/beta_used_raw': -0.04021822661161423, 'beta_dpo/beta_used': 0.09425677359104156, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.079184055328369, 'logits/rejected': -1.5296201705932617, 'epoch': 0.97} 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 658/681 [47:44<01:04, 2.82s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 659/681 [47:47<01:02, 2.85s/it] {'loss': 0.7889, 'grad_norm': 127.47429656982422, 'learning_rate': 1.7404359041573723e-09, 'beta_dpo/gap_mean': 26.545684814453125, 'beta_dpo/gap_std': 26.43194580078125, 'beta_dpo/beta_used_raw': 0.300968736410141, 'beta_dpo/beta_used': 0.300968736410141, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.7157797813415527, 'logits/rejected': -2.105652093887329, 'epoch': 0.97} 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 659/681 [47:47<01:02, 2.85s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 660/681 [47:50<00:59, 2.83s/it] {'loss': 0.7886, 'grad_norm': 40.15045928955078, 'learning_rate': 1.592541096695571e-09, 'beta_dpo/gap_mean': 27.32921600341797, 'beta_dpo/gap_std': 26.936813354492188, 'beta_dpo/beta_used_raw': 0.0901188924908638, 'beta_dpo/beta_used': 0.10049507021903992, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.3412139415740967, 'logits/rejected': -1.4522958993911743, 'epoch': 0.97} 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 660/681 [47:50<00:59, 2.83s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 661/681 [47:53<00:54, 2.73s/it] {'loss': 0.9341, 'grad_norm': 45.90566635131836, 'learning_rate': 1.4511920567963908e-09, 'beta_dpo/gap_mean': 27.41143798828125, 'beta_dpo/gap_std': 27.408355712890625, 'beta_dpo/beta_used_raw': -0.018630720674991608, 'beta_dpo/beta_used': 0.08502917736768723, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7122316360473633, 'logits/rejected': -1.2374494075775146, 'epoch': 0.97} 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 661/681 [47:53<00:54, 2.73s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 662/681 [47:56<00:53, 2.84s/it] {'loss': 1.3643, 'grad_norm': 0.7011018395423889, 'learning_rate': 1.3163925091384532e-09, 'beta_dpo/gap_mean': 27.318252563476562, 'beta_dpo/gap_std': 26.791423797607422, 'beta_dpo/beta_used_raw': -0.2160995602607727, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.200093388557434, 'logits/rejected': -0.6818442940711975, 'epoch': 0.97} 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 662/681 [47:56<00:53, 2.84s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 663/681 [47:59<00:53, 2.97s/it] {'loss': 0.7098, 'grad_norm': 45.353824615478516, 'learning_rate': 1.1881460058152382e-09, 'beta_dpo/gap_mean': 27.517772674560547, 'beta_dpo/gap_std': 26.901273727416992, 'beta_dpo/beta_used_raw': 0.12379209697246552, 'beta_dpo/beta_used': 0.12379209697246552, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -1.6320724487304688, 'logits/rejected': -1.3605599403381348, 'epoch': 0.97} 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 663/681 [47:59<00:53, 2.97s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 664/681 [48:02<00:51, 3.01s/it] {'loss': 0.889, 'grad_norm': 39.758148193359375, 'learning_rate': 1.066455926241383e-09, 'beta_dpo/gap_mean': 27.899158477783203, 'beta_dpo/gap_std': 26.73941421508789, 'beta_dpo/beta_used_raw': -0.04690101742744446, 'beta_dpo/beta_used': 0.08696911484003067, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -1.6941994428634644, 'logits/rejected': -1.2433688640594482, 'epoch': 0.98} 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 664/681 [48:02<00:51, 3.01s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 665/681 [48:05<00:46, 2.91s/it] {'loss': 0.8784, 'grad_norm': 16.841934204101562, 'learning_rate': 9.513254770636137e-10, 'beta_dpo/gap_mean': 27.266984939575195, 'beta_dpo/gap_std': 26.420181274414062, 'beta_dpo/beta_used_raw': -0.043198782950639725, 'beta_dpo/beta_used': 0.042768318206071854, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -2.474729537963867, 'logits/rejected': -2.2313597202301025, 'epoch': 0.98} 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 665/681 [48:05<00:46, 2.91s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 666/681 [48:08<00:44, 2.96s/it] {'loss': 1.3656, 'grad_norm': 0.7575967311859131, 'learning_rate': 8.427576920763956e-10, 'beta_dpo/gap_mean': 26.876924514770508, 'beta_dpo/gap_std': 26.414169311523438, 'beta_dpo/beta_used_raw': -0.2649265229701996, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.7433545589447021, 'logits/rejected': -1.490132451057434, 'epoch': 0.98} 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 666/681 [48:08<00:44, 2.96s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 667/681 [48:11<00:41, 2.97s/it] {'loss': 0.8868, 'grad_norm': 20.461111068725586, 'learning_rate': 7.407554321417764e-10, 'beta_dpo/gap_mean': 27.131610870361328, 'beta_dpo/gap_std': 26.764110565185547, 'beta_dpo/beta_used_raw': -0.007738005369901657, 'beta_dpo/beta_used': 0.04926947504281998, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.7287938594818115, 'logits/rejected': -1.0780360698699951, 'epoch': 0.98} 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 667/681 [48:11<00:41, 2.97s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 668/681 [48:14<00:38, 3.00s/it] {'loss': 0.881, 'grad_norm': 51.90634536743164, 'learning_rate': 6.453213851142225e-10, 'beta_dpo/gap_mean': 27.668758392333984, 'beta_dpo/gap_std': 26.51095962524414, 'beta_dpo/beta_used_raw': -0.020425312221050262, 'beta_dpo/beta_used': 0.11481890082359314, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7414575815200806, 'logits/rejected': -1.8504266738891602, 'epoch': 0.98} 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 668/681 [48:14<00:38, 3.00s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 669/681 [48:17<00:36, 3.03s/it] {'loss': 0.8646, 'grad_norm': 21.52220916748047, 'learning_rate': 5.564580657695939e-10, 'beta_dpo/gap_mean': 28.0015869140625, 'beta_dpo/gap_std': 26.40846061706543, 'beta_dpo/beta_used_raw': 0.031783655285835266, 'beta_dpo/beta_used': 0.089015893638134, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.7665306329727173, 'logits/rejected': -1.1365385055541992, 'epoch': 0.98} 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 669/681 [48:17<00:36, 3.03s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 670/681 [48:20<00:33, 3.06s/it] {'loss': 0.8828, 'grad_norm': 49.622772216796875, 'learning_rate': 4.741678157389739e-10, 'beta_dpo/gap_mean': 28.321340560913086, 'beta_dpo/gap_std': 26.639236450195312, 'beta_dpo/beta_used_raw': 0.09976670891046524, 'beta_dpo/beta_used': 0.11147114634513855, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.5533534288406372, 'logits/rejected': -1.235931634902954, 'epoch': 0.98} 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 670/681 [48:20<00:33, 3.06s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 671/681 [48:23<00:29, 2.95s/it] {'loss': 0.7011, 'grad_norm': 8.204655647277832, 'learning_rate': 3.9845280344705245e-10, 'beta_dpo/gap_mean': 28.04564094543457, 'beta_dpo/gap_std': 26.574295043945312, 'beta_dpo/beta_used_raw': -0.028427034616470337, 'beta_dpo/beta_used': 0.15611684322357178, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -0.9096536040306091, 'logits/rejected': -0.6570190191268921, 'epoch': 0.99} 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 671/681 [48:23<00:29, 2.95s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 672/681 [48:26<00:26, 2.95s/it] {'loss': 0.8612, 'grad_norm': 51.78870391845703, 'learning_rate': 3.293150240547549e-10, 'beta_dpo/gap_mean': 27.482242584228516, 'beta_dpo/gap_std': 26.394447326660156, 'beta_dpo/beta_used_raw': 0.05002519115805626, 'beta_dpo/beta_used': 0.10520876944065094, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -2.238128185272217, 'logits/rejected': -2.1167397499084473, 'epoch': 0.99} 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 672/681 [48:26<00:26, 2.95s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 673/681 [48:28<00:22, 2.84s/it] {'loss': 0.7891, 'grad_norm': 30.509424209594727, 'learning_rate': 2.6675629940689504e-10, 'beta_dpo/gap_mean': 27.103679656982422, 'beta_dpo/gap_std': 26.009197235107422, 'beta_dpo/beta_used_raw': 0.07913055270910263, 'beta_dpo/beta_used': 0.0886186733841896, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.1244845390319824, 'logits/rejected': -1.012803077697754, 'epoch': 0.99} 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 673/681 [48:28<00:22, 2.84s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 674/681 [48:31<00:20, 2.89s/it] {'loss': 0.8895, 'grad_norm': 11.617090225219727, 'learning_rate': 2.1077827798404725e-10, 'beta_dpo/gap_mean': 27.488269805908203, 'beta_dpo/gap_std': 25.604915618896484, 'beta_dpo/beta_used_raw': 0.018813492730259895, 'beta_dpo/beta_used': 0.04007472097873688, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.8489723205566406, 'logits/rejected': -1.3508100509643555, 'epoch': 0.99} 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 674/681 [48:31<00:20, 2.89s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 675/681 [48:34<00:16, 2.82s/it] {'loss': 0.8013, 'grad_norm': 25.02197265625, 'learning_rate': 1.6138243485910863e-10, 'beta_dpo/gap_mean': 27.70388412475586, 'beta_dpo/gap_std': 26.114885330200195, 'beta_dpo/beta_used_raw': 0.0895192101597786, 'beta_dpo/beta_used': 0.10179030150175095, 'beta_dpo/mask_keep_frac': 0.9375, 'logits/chosen': -1.0838446617126465, 'logits/rejected': -0.8627390265464783, 'epoch': 0.99} 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 675/681 [48:34<00:16, 2.82s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 676/681 [48:37<00:14, 2.88s/it] {'loss': 0.6234, 'grad_norm': 109.19337463378906, 'learning_rate': 1.1857007165852472e-10, 'beta_dpo/gap_mean': 27.704769134521484, 'beta_dpo/gap_std': 26.05438995361328, 'beta_dpo/beta_used_raw': 0.25374189019203186, 'beta_dpo/beta_used': 0.25374189019203186, 'beta_dpo/mask_keep_frac': 0.875, 'logits/chosen': -2.0344905853271484, 'logits/rejected': -1.4180444478988647, 'epoch': 0.99} 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 676/681 [48:37<00:14, 2.88s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 677/681 [48:40<00:11, 2.82s/it] {'loss': 0.6725, 'grad_norm': 18.980443954467773, 'learning_rate': 8.23423165278725e-11, 'beta_dpo/gap_mean': 28.181198120117188, 'beta_dpo/gap_std': 25.20414924621582, 'beta_dpo/beta_used_raw': 0.05424497649073601, 'beta_dpo/beta_used': 0.05424497649073601, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.439286708831787, 'logits/rejected': -2.477078437805176, 'epoch': 0.99} 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 677/681 [48:40<00:11, 2.82s/it] 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 678/681 [48:43<00:08, 2.83s/it] {'loss': 0.6773, 'grad_norm': 58.01787185668945, 'learning_rate': 5.270012410216185e-11, 'beta_dpo/gap_mean': 28.24429702758789, 'beta_dpo/gap_std': 24.93535614013672, 'beta_dpo/beta_used_raw': 0.24579310417175293, 'beta_dpo/beta_used': 0.24579310417175293, 'beta_dpo/mask_keep_frac': 0.6875, 'logits/chosen': -1.2655192613601685, 'logits/rejected': -0.5176064968109131, 'epoch': 1.0} 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 678/681 [48:43<00:08, 2.83s/it] 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 679/681 [48:45<00:05, 2.78s/it] {'loss': 0.7942, 'grad_norm': 21.957143783569336, 'learning_rate': 2.9644275480772416e-11, 'beta_dpo/gap_mean': 28.419395446777344, 'beta_dpo/gap_std': 24.707523345947266, 'beta_dpo/beta_used_raw': 0.09048715978860855, 'beta_dpo/beta_used': 0.09529916197061539, 'beta_dpo/mask_keep_frac': 0.8125, 'logits/chosen': -2.128697633743286, 'logits/rejected': -1.8750262260437012, 'epoch': 1.0} 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 679/681 [48:45<00:05, 2.78s/it] 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 680/681 [48:48<00:02, 2.86s/it] {'loss': 1.0468, 'grad_norm': 12.635197639465332, 'learning_rate': 1.31753782067201e-11, 'beta_dpo/gap_mean': 27.96090316772461, 'beta_dpo/gap_std': 25.136274337768555, 'beta_dpo/beta_used_raw': -0.06876889616250992, 'beta_dpo/beta_used': 0.02317173406481743, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -2.110539436340332, 'logits/rejected': -2.0527472496032715, 'epoch': 1.0} 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 680/681 [48:48<00:02, 2.86s/it] 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [48:51<00:00, 2.87s/it] {'loss': 1.3642, 'grad_norm': 0.6805768609046936, 'learning_rate': 3.2938662507808745e-12, 'beta_dpo/gap_mean': 27.429988861083984, 'beta_dpo/gap_std': 24.85990333557129, 'beta_dpo/beta_used_raw': -0.19943192601203918, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.75, 'logits/chosen': -1.4662553071975708, 'logits/rejected': -1.3521288633346558, 'epoch': 1.0} 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [48:51<00:00, 2.87s/it][INFO|trainer.py:3984] 2026-04-24 02:40:53,851 >> Saving model checkpoint to /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681 [INFO|configuration_utils.py:419] 2026-04-24 02:40:53,857 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681/config.json [INFO|configuration_utils.py:911] 2026-04-24 02:40:53,862 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681/generation_config.json [INFO|modeling_utils.py:3580] 2026-04-24 02:41:33,164 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681/model.safetensors.index.json. [INFO|tokenization_utils_base.py:2510] 2026-04-24 02:41:33,167 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681/tokenizer_config.json [INFO|tokenization_utils_base.py:2519] 2026-04-24 02:41:33,169 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-681/special_tokens_map.json [INFO|trainer.py:4083] 2026-04-24 02:44:37,665 >> Deleting older checkpoint [/scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/checkpoint-400] due to args.save_total_limit [INFO|trainer.py:2681] 2026-04-24 02:44:39,920 >> Training completed. Do not forget to share your model on huggingface.co/models =) {'train_runtime': 3178.2358, 'train_samples_per_second': 13.718, 'train_steps_per_second': 0.214, 'train_loss': 0.9969710769807365, 'epoch': 1.0} 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [52:52<00:00, 2.87s/it] 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [52:52<00:00, 4.66s/it] ***** train metrics ***** epoch = 1.0 total_flos = 0GF train_loss = 0.997 train_runtime = 0:52:58.23 train_samples = 43598 train_samples_per_second = 13.718 train_steps_per_second = 0.214 2026-04-24 02:44:39 - INFO - __main__ - *** Training complete *** 2026-04-24 02:44:39 - INFO - __main__ - *** Save model *** [INFO|configuration_utils.py:419] 2026-04-24 02:44:56,882 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/config.json [INFO|configuration_utils.py:911] 2026-04-24 02:44:56,892 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/generation_config.json [INFO|modeling_utils.py:3580] 2026-04-24 02:45:41,249 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 7 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/model.safetensors.index.json. [INFO|tokenization_utils_base.py:2510] 2026-04-24 02:45:41,252 >> tokenizer config file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/tokenizer_config.json [INFO|tokenization_utils_base.py:2519] 2026-04-24 02:45:41,254 >> Special tokens file saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/special_tokens_map.json 2026-04-24 02:45:41 - INFO - __main__ - Saved HF-compatible model artifacts to /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732 [INFO|modelcard.py:450] 2026-04-24 02:45:41,582 >> Dropping the following result as it does not have all the necessary fields: {'dataset': {'name': 'Anthropic/hh-rlhf', 'type': 'Anthropic/hh-rlhf'}} [INFO|configuration_utils.py:419] 2026-04-24 02:45:41,589 >> Configuration saved in /scratch/qu.yang1/outputs/qwen3-8b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260424-013732/config.json 2026-04-24 02:45:41 - INFO - __main__ - *** Evaluate *** [INFO|trainer.py:4307] 2026-04-24 02:45:41,590 >> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-24 02:45:41,590 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-24 02:45:41,590 >> Batch size = 8 0%| | 0/73 [00:00