2026-04-18 05:54:19 - INFO - __main__ - Model parameters ModelArguments(base_model_revision=None, model_name_or_path='/scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-sft-hh-helpful-4xh200-batch-64-20260418-015332', model_revision='main', model_code_revision=None, torch_dtype='bfloat16', tokenizer_name_or_path=None, trust_remote_code=False, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False, bnb_4bit_quant_storage='uint8') 2026-04-18 05:54:19 - INFO - __main__ - Data parameters DataArguments(chat_template=None, dataset_mixer={'Anthropic/hh-rlhf': 1.0}, text_column='text', dataset_splits=['train', 'test'], dataset_configs=['helpful-base'], dataset_dir=None, preprocessing_num_workers=12, use_persistent_hf_cache=True, hf_cache_dir='/scratch/feng.yulu/dynamic-dpo-v4/hf/datasets', truncation_side=None, auto_insert_empty_system_msg=True, disable_thinking=False, preprocessing_log_samples=0, preprocessing_log_dir=None) 2026-04-18 05:54:19 - INFO - __main__ - Training/evaluation parameters BetaDPOConfig( _n_gpu=1, accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False}, adafactor=False, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, alpha=0.6, auto_find_batch_size=False, average_tokens_across_devices=False, batch_eval_metrics=False, beta=0.1, beta_min=0.001, bf16=True, bf16_full_eval=False, data_seed=None, dataloader_drop_last=True, dataloader_num_workers=0, dataloader_persistent_workers=False, dataloader_pin_memory=True, dataloader_prefetch_factor=None, dataset_num_proc=12, ddp_backend=None, ddp_broadcast_buffers=None, ddp_bucket_cap_mb=None, ddp_find_unused_parameters=None, ddp_timeout=1800, debug=[], deepspeed=None, deterministic_eval=True, disable_dropout=True, disable_tqdm=False, do_eval=True, do_predict=False, do_train=False, ema_momentum=0.9, eval_accumulation_steps=None, eval_delay=0, eval_do_concat_batches=True, eval_on_start=False, eval_steps=100, eval_strategy=IntervalStrategy.STEPS, eval_use_gather_object=False, f_alpha_divergence_coef=1.0, f_divergence_type=FDivergenceType.REVERSE_KL, force_use_ref_model=False, fp16=False, fp16_backend=auto, fp16_full_eval=False, fp16_opt_level=O1, fsdp=[], fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_min_num_params=0, fsdp_transformer_layer_cls_to_wrap=None, full_determinism=False, generate_during_eval=False, gradient_accumulation_steps=2, gradient_checkpointing=True, gradient_checkpointing_kwargs={'use_reentrant': False}, greater_is_better=None, group_by_length=False, half_precision_backend=auto, hub_always_push=False, hub_model_id=W-61/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64, hub_model_revision=main, hub_private_repo=None, hub_strategy=HubStrategy.EVERY_SAVE, hub_token=, ignore_data_skip=False, include_for_metrics=[], include_inputs_for_metrics=False, include_num_input_tokens_seen=False, include_tokens_per_second=False, is_encoder_decoder=None, jit_mode_eval=False, label_names=None, label_pad_token_id=-100, label_smoothing=0.0, label_smoothing_factor=0.0, learning_rate=5e-07, length_column_name=length, load_best_model_at_end=False, local_rank=0, log_level=info, log_level_replica=warning, log_on_each_node=True, logging_dir=outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64/runs/Apr18_05-54-19_d4055, logging_first_step=True, logging_nan_inf_filter=True, logging_steps=1, logging_strategy=IntervalStrategy.STEPS, loss_type=sigmoid, lr_scheduler_kwargs={}, lr_scheduler_type=SchedulerType.COSINE, max_grad_norm=1.0, max_length=512, max_prompt_length=256, max_steps=-1, max_target_length=None, metric_for_best_model=None, model_adapter_name=None, model_init_kwargs=None, mp_parameters=, neftune_noise_alpha=None, no_cuda=False, non_finite_logits_handling=sanitize, num_train_epochs=1, optim=OptimizerNames.ADAMW_TORCH, optim_args=None, optim_target_modules=None, output_dir=/scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332, overwrite_output_dir=False, padding_value=None, past_index=-1, per_device_eval_batch_size=8, per_device_train_batch_size=8, post_tokenization_log_dir=None, post_tokenization_log_samples=0, precompute_ref_batch_size=None, precompute_ref_eval_batch_size=None, precompute_ref_log_probs=False, prediction_loss_only=False, push_to_hub=False, push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=, ray_scope=last, ref_adapter_name=None, ref_model_init_kwargs=None, ref_model_mixup_alpha=0.9, ref_model_sync_steps=64, reference_free=False, remove_unused_columns=False, report_to=['wandb'], require_equal_local_batch_size=True, restore_callback_states_from_checkpoint=False, resume_from_checkpoint=None, reuse_tokenized_dataset=True, rho=0.8, rpo_alpha=None, run_name=mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332, save_on_each_node=False, save_only_model=False, save_safetensors=True, save_steps=200, save_strategy=SaveStrategy.STEPS, save_total_limit=2, seed=42, sft_weight=0.0, skip_memory_metrics=True, sync_global_mask=True, sync_ref_model=False, tf32=None, tokenization_batch_size=128, tokenization_mode=online, tokenized_dataset_cache_dir=/scratch/feng.yulu/dynamic-dpo-v4/tokenized_preferences, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, torch_empty_cache_steps=None, torchdynamo=None, tp_size=0, tpu_metrics_debug=False, tpu_num_cores=None, trainer_type=beta_dpo, truncation_mode=keep_end, use_cpu=False, use_ipex=False, use_legacy_prediction_loop=False, use_liger_kernel=False, use_mps_device=False, wandb_project=ood-run-4xh200, warmup_ratio=0.1, warmup_steps=0, weight_decay=0.0, ) 2026-04-18 05:54:19 - INFO - __main__ - W&B project: ood-run-4xh200 2026-04-18 05:54:19 - INFO - __main__ - Beta-DPO parameters: beta=0.1, rho=0.8, alpha=0.6, ema_momentum=0.9 2026-04-18 05:54:19 - INFO - __main__ - Using persistent HF datasets cache at /scratch/feng.yulu/dynamic-dpo-v4/hf/datasets 2026-04-18 05:54:22 - WARNING - __main__ - Dropped 237 non-canonical HH preference examples from split `train` before normalization (126 x HH preprocessing expects exactly one final assistant response in chosen/rejected suffixes., 111 x HH chosen/rejected transcripts must each contain a divergent assistant response.). Normalizing raw HH preferences (train): 0%| | 0/43598 [00:00> loading file tokenizer.model [INFO|tokenization_utils_base.py:2058] 2026-04-18 05:54:27,643 >> loading file tokenizer.json [INFO|tokenization_utils_base.py:2058] 2026-04-18 05:54:27,643 >> loading file added_tokens.json [INFO|tokenization_utils_base.py:2058] 2026-04-18 05:54:27,643 >> loading file special_tokens_map.json [INFO|tokenization_utils_base.py:2058] 2026-04-18 05:54:27,643 >> loading file tokenizer_config.json [INFO|tokenization_utils_base.py:2058] 2026-04-18 05:54:27,643 >> loading file chat_template.jinja 2026-04-18 05:54:28 - INFO - __main__ - Processed train sample 41905: Prompt: <|system|> <|user|> What is the best way to clean my refrigerator? <|assistant|> Well, I have a few ideas, but the best way to know what works best is to run some tests and then analyze the data to figure out which technique works best. <|user|> What are your ideas? Chosen: <|assistant|> Some of my ideas include wiping down the interior with a rag, using bleach and water to wipe down the door, emptying the contents of the fridge to scrub the shelves with a clean cloth, cleaning the interior of the fridge with vinegar and water, and using a vacuum cleaner to clean the interior. Rejected: <|assistant|> I was thinking that you could try different types of soap, which could be a variation of “soap,” like antibacterial soap. I was also thinking that you could try using different tools, like a toothbrush, to clean the inside. Or I was thinking that you could try different ways to get the gunk out, like using a squeegee, or using a paper towel. I was also thinking you could try other types of cleaning, like vacuuming, but I think that could have the opposite of the desired effect. /home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you. warnings.warn( /home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you. warnings.warn( /home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you. warnings.warn( /home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:391: UserWarning: You passed a model_id to the trainer. This will automatically create an `AutoModelForCausalLM` or a `PeftModel` (if you passed a `peft_config`) for you. warnings.warn( [INFO|configuration_utils.py:691] 2026-04-18 05:54:28,204 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-sft-hh-helpful-4xh200-batch-64-20260418-015332/config.json [INFO|configuration_utils.py:765] 2026-04-18 05:54:28,210 >> Model config MistralConfig { "architectures": [ "MistralForCausalLM" ], "attention_dropout": 0.0, "bos_token_id": 1, "eos_token_id": 2, "head_dim": 128, "hidden_act": "silu", "hidden_size": 4096, "initializer_range": 0.02, "intermediate_size": 14336, "max_position_embeddings": 32768, "model_type": "mistral", "num_attention_heads": 32, "num_hidden_layers": 32, "num_key_value_heads": 8, "rms_norm_eps": 1e-05, "rope_theta": 1000000.0, "sliding_window": null, "tie_word_embeddings": false, "torch_dtype": "bfloat16", "transformers_version": "4.51.0", "use_cache": false, "vocab_size": 32768 } [INFO|modeling_utils.py:1121] 2026-04-18 05:54:28,714 >> loading weights file /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-sft-hh-helpful-4xh200-batch-64-20260418-015332/model.safetensors.index.json [INFO|modeling_utils.py:2167] 2026-04-18 05:54:28,716 >> Instantiating MistralForCausalLM model under default dtype torch.bfloat16. [WARNING|logging.py:328] 2026-04-18 05:54:28,717 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`. [WARNING|logging.py:328] 2026-04-18 05:54:28,717 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`. [WARNING|logging.py:328] 2026-04-18 05:54:28,717 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`. [WARNING|logging.py:328] 2026-04-18 05:54:28,717 >> You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`. [INFO|configuration_utils.py:1142] 2026-04-18 05:54:28,718 >> Generate config GenerationConfig { "bos_token_id": 1, "eos_token_id": 2, "use_cache": false } Loading checkpoint shards: 0%| | 0/6 [00:00> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead. [WARNING|trainer.py:821] 2026-04-18 05:54:28,931 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead. [WARNING|trainer.py:821] 2026-04-18 05:54:28,931 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead. Loading checkpoint shards: 17%|███████████████▏ | 1/6 [00:09<00:46, 9.32s/it] Loading checkpoint shards: 33%|██████████████████████████████▎ | 2/6 [00:18<00:36, 9.15s/it] Loading checkpoint shards: 50%|█████████████████████████████████████████████▌ | 3/6 [00:27<00:27, 9.02s/it] Loading checkpoint shards: 67%|████████████████████████████████████████████████████████████▋ | 4/6 [00:36<00:17, 8.97s/it] Loading checkpoint shards: 83%|███████████████████████████████████████████████████████████████████████████▊ | 5/6 [00:44<00:08, 8.90s/it] Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:52<00:00, 8.46s/it] Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:52<00:00, 8.75s/it] [INFO|modeling_utils.py:4926] 2026-04-18 05:55:21,319 >> All model checkpoint weights were used when initializing MistralForCausalLM. [INFO|modeling_utils.py:4934] 2026-04-18 05:55:21,319 >> All the weights of MistralForCausalLM were initialized from the model checkpoint at /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-sft-hh-helpful-4xh200-batch-64-20260418-015332. If your task is similar to the task the model of the checkpoint was trained on, you can already use MistralForCausalLM for predictions without further training. [INFO|configuration_utils.py:1095] 2026-04-18 05:55:21,333 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-sft-hh-helpful-4xh200-batch-64-20260418-015332/generation_config.json [INFO|configuration_utils.py:1142] 2026-04-18 05:55:21,333 >> Generate config GenerationConfig { "bos_token_id": 1, "eos_token_id": 2 } [INFO|configuration_utils.py:691] 2026-04-18 05:55:21,334 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-sft-hh-helpful-4xh200-batch-64-20260418-015332/config.json [INFO|configuration_utils.py:765] 2026-04-18 05:55:21,334 >> Model config MistralConfig { "architectures": [ "MistralForCausalLM" ], "attention_dropout": 0.0, "bos_token_id": 1, "eos_token_id": 2, "head_dim": 128, "hidden_act": "silu", "hidden_size": 4096, "initializer_range": 0.02, "intermediate_size": 14336, "max_position_embeddings": 32768, "model_type": "mistral", "num_attention_heads": 32, "num_hidden_layers": 32, "num_key_value_heads": 8, "rms_norm_eps": 1e-05, "rope_theta": 1000000.0, "sliding_window": null, "tie_word_embeddings": false, "torch_dtype": "bfloat16", "transformers_version": "4.51.0", "use_cache": false, "vocab_size": 32768 } [INFO|modeling_utils.py:1121] 2026-04-18 05:55:21,335 >> loading weights file /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-sft-hh-helpful-4xh200-batch-64-20260418-015332/model.safetensors.index.json [INFO|modeling_utils.py:2167] 2026-04-18 05:55:21,336 >> Instantiating MistralForCausalLM model under default dtype torch.bfloat16. [INFO|configuration_utils.py:1142] 2026-04-18 05:55:21,343 >> Generate config GenerationConfig { "bos_token_id": 1, "eos_token_id": 2, "use_cache": false } Loading checkpoint shards: 0%| | 0/6 [00:00> All model checkpoint weights were used when initializing MistralForCausalLM. [INFO|modeling_utils.py:4934] 2026-04-18 05:55:29,222 >> All the weights of MistralForCausalLM were initialized from the model checkpoint at /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-sft-hh-helpful-4xh200-batch-64-20260418-015332. If your task is similar to the task the model of the checkpoint was trained on, you can already use MistralForCausalLM for predictions without further training. [INFO|configuration_utils.py:1095] 2026-04-18 05:55:29,224 >> loading configuration file /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-sft-hh-helpful-4xh200-batch-64-20260418-015332/generation_config.json [INFO|configuration_utils.py:1142] 2026-04-18 05:55:29,224 >> Generate config GenerationConfig { "bos_token_id": 1, "eos_token_id": 2 } [WARNING|trainer.py:821] 2026-04-18 05:55:29,226 >> Trainer.tokenizer is now deprecated. You should use `Trainer.processing_class = processing_class` instead. [WARNING|trainer.py:816] 2026-04-18 05:55:29,226 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. Tokenizing train (num_proc=12): 0%| | 0/43598 [00:00> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. Saving the dataset (0/2 shards): 0%| | 0/43598 [00:00> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. Tokenizing test (num_proc=12): 0%| | 0/2339 [00:00> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. Saving the dataset (0/1 shards): 0%| | 0/2339 [00:00> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,091 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,092 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,227 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,227 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,227 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,227 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,227 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,227 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,243 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,243 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. [WARNING|trainer.py:816] 2026-04-18 06:05:31,243 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead. /home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead. super().__init__( /home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead. super().__init__( /home/feng.yulu/dynamic-dpo-v4/scripts/tokenized_dpo_trainer.py:521: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `BetaDPOTrainer.__init__`. Use `processing_class` instead. super().__init__( [INFO|trainer.py:748] 2026-04-18 06:05:31,473 >> Using auto half precision backend /home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in MistralForCausalLM because mixed precision turned on in FSDP. Affects: model.embed_tokens.weight, model.norm.weight, lm_head.weight. warnings.warn( /home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/accelerate/accelerator.py:1557: UserWarning: Upcasted low precision parameters in MistralDecoderLayer because mixed precision turned on in FSDP. Affects: self_attn.q_proj.weight, self_attn.k_proj.weight, self_attn.v_proj.weight, self_attn.o_proj.weight, mlp.gate_proj.weight, mlp.up_proj.weight, mlp.down_proj.weight, input_layernorm.weight, post_attention_layernorm.weight. warnings.warn( /home/feng.yulu/.conda/envs/dpo_venv/lib/python3.11/site-packages/accelerate/accelerator.py:1563: UserWarning: FSDP upcast of low precision parameters may affect the precision of model checkpoints. warnings.warn( [INFO|trainer.py:2414] 2026-04-18 06:05:35,147 >> ***** Running training ***** [INFO|trainer.py:2415] 2026-04-18 06:05:35,147 >> Num examples = 43,598 [INFO|trainer.py:2416] 2026-04-18 06:05:35,147 >> Num Epochs = 1 [INFO|trainer.py:2417] 2026-04-18 06:05:35,147 >> Instantaneous batch size per device = 8 [INFO|trainer.py:2420] 2026-04-18 06:05:35,147 >> Total train batch size (w. parallel, distributed & accumulation) = 64 [INFO|trainer.py:2421] 2026-04-18 06:05:35,147 >> Gradient Accumulation steps = 2 [INFO|trainer.py:2422] 2026-04-18 06:05:35,147 >> Total optimization steps = 681 [INFO|trainer.py:2423] 2026-04-18 06:05:35,148 >> Number of trainable parameters = 1,812,005,888 [INFO|integration_utils.py:831] 2026-04-18 06:05:35,148 >> Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true" wandb: Currently logged in as: can-not-fand (can-not-fand-northeastern-university). Use `wandb login --relogin` to force relogin wandb: wandb version 0.26.0 is available! To upgrade, please run: wandb: $ pip install wandb --upgrade wandb: Tracking run with wandb version 0.17.5 wandb: Run data is saved locally in /scratch/feng.yulu/dynamic-dpo-v4/wandb/wandb/run-20260418_060538-gcan90hu wandb: Run `wandb offline` to turn off syncing. wandb: Syncing run mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332 wandb: ⭐️ View project at https://wandb.ai/can-not-fand-northeastern-university/ood-run-4xh200 wandb: 🚀 View run at https://wandb.ai/can-not-fand-northeastern-university/ood-run-4xh200/runs/gcan90hu 0%| | 0/681 [00:00> Could not estimate the number of tokens of the input, floating-point operations will not be computed [WARNING|modeling_utils.py:1713] 2026-04-18 06:05:46,355 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed [WARNING|modeling_utils.py:1713] 2026-04-18 06:05:46,378 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed [WARNING|modeling_utils.py:1713] 2026-04-18 06:05:46,378 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed 0%|▏ | 1/681 [00:03<40:27, 3.57s/it] {'loss': 1.385, 'grad_norm': 150.13343811035156, 'learning_rate': 0.0, 'beta_dpo/gap_mean': 0.0036213158164173365, 'beta_dpo/gap_std': 0.04173510894179344, 'beta_dpo/beta_used_raw': 0.1005711555480957, 'beta_dpo/beta_used': 0.1005711555480957, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1338672637939453, 'logits/rejected': -3.1045522689819336, 'beta_dpo/beta': 0.1005711555480957, 'beta_dpo/loss_margin_mean': 0.024216145277023315, 'beta_dpo/beta_margin_mean': 0.002432748908177018, 'beta_dpo/beta_margin_std': 0.028674542903900146, 'beta_dpo/beta_margin_grad_mean': -0.49939221143722534, 'beta_dpo/beta_margin_grad_std': 0.007166189141571522, 'epoch': 0.0} 0%|▏ | 1/681 [00:03<40:27, 3.57s/it] 0%|▎ | 2/681 [00:06<32:54, 2.91s/it] {'loss': 1.3838, 'grad_norm': 156.69430541992188, 'learning_rate': 7.246376811594203e-09, 'beta_dpo/gap_mean': 0.0025136363692581654, 'beta_dpo/gap_std': 0.08383626490831375, 'beta_dpo/beta_used_raw': 0.10121786594390869, 'beta_dpo/beta_used': 0.10121786594390869, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.149817943572998, 'logits/rejected': -3.133805751800537, 'beta_dpo/beta': 0.10121786594390869, 'beta_dpo/loss_margin_mean': -0.008541211485862732, 'beta_dpo/beta_margin_mean': -0.0008768404368311167, 'beta_dpo/beta_margin_std': 0.02477947063744068, 'beta_dpo/beta_margin_grad_mean': -0.5002189874649048, 'beta_dpo/beta_margin_grad_std': 0.006193624343723059, 'epoch': 0.0} 0%|▎ | 2/681 [00:06<32:54, 2.91s/it] 0%|▌ | 3/681 [00:08<31:24, 2.78s/it] {'loss': 1.3851, 'grad_norm': 169.9915771484375, 'learning_rate': 1.4492753623188406e-08, 'beta_dpo/gap_mean': 0.0029192278161644936, 'beta_dpo/gap_std': 0.113316610455513, 'beta_dpo/beta_used_raw': 0.10055717825889587, 'beta_dpo/beta_used': 0.10055717825889587, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1339285373687744, 'logits/rejected': -3.0974249839782715, 'beta_dpo/beta': 0.10055717825889587, 'beta_dpo/loss_margin_mean': 0.009323984384536743, 'beta_dpo/beta_margin_mean': 0.0009417525725439191, 'beta_dpo/beta_margin_std': 0.024896962568163872, 'beta_dpo/beta_margin_grad_mean': -0.4997645616531372, 'beta_dpo/beta_margin_grad_std': 0.006223098374903202, 'epoch': 0.0} 0%|▌ | 3/681 [00:08<31:24, 2.78s/it] 1%|▋ | 4/681 [00:11<30:23, 2.69s/it] {'loss': 1.3814, 'grad_norm': 153.58120727539062, 'learning_rate': 2.1739130434782606e-08, 'beta_dpo/gap_mean': 0.0034820283763110638, 'beta_dpo/gap_std': 0.14156511425971985, 'beta_dpo/beta_used_raw': 0.10269482433795929, 'beta_dpo/beta_used': 0.10269482433795929, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.124056816101074, 'logits/rejected': -3.1173763275146484, 'beta_dpo/beta': 0.10269482433795929, 'beta_dpo/loss_margin_mean': 0.00913846492767334, 'beta_dpo/beta_margin_mean': 0.0009488743380643427, 'beta_dpo/beta_margin_std': 0.026902994140982628, 'beta_dpo/beta_margin_grad_mean': -0.49976256489753723, 'beta_dpo/beta_margin_grad_std': 0.006724101025611162, 'epoch': 0.01} 1%|▋ | 4/681 [00:11<30:23, 2.69s/it] 1%|▊ | 5/681 [00:13<29:50, 2.65s/it] {'loss': 1.3892, 'grad_norm': 179.1089324951172, 'learning_rate': 2.898550724637681e-08, 'beta_dpo/gap_mean': 0.0016051515704020858, 'beta_dpo/gap_std': 0.1615678071975708, 'beta_dpo/beta_used_raw': 0.09814765304327011, 'beta_dpo/beta_used': 0.09814765304327011, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.109281063079834, 'logits/rejected': -3.089329481124878, 'beta_dpo/beta': 0.09814765304327011, 'beta_dpo/loss_margin_mean': -0.03306567668914795, 'beta_dpo/beta_margin_mean': -0.00329973129555583, 'beta_dpo/beta_margin_std': 0.02398756332695484, 'beta_dpo/beta_margin_grad_mean': -0.5008248090744019, 'beta_dpo/beta_margin_grad_std': 0.005996009334921837, 'epoch': 0.01} 1%|▊ | 5/681 [00:13<29:50, 2.65s/it] 1%|█ | 6/681 [00:15<28:08, 2.50s/it] {'loss': 1.3915, 'grad_norm': 171.80946350097656, 'learning_rate': 3.6231884057971014e-08, 'beta_dpo/gap_mean': -0.002422480145469308, 'beta_dpo/gap_std': 0.18281012773513794, 'beta_dpo/beta_used_raw': 0.09695610404014587, 'beta_dpo/beta_used': 0.09695610404014587, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1225814819335938, 'logits/rejected': -3.0773398876190186, 'beta_dpo/beta': 0.09695610404014587, 'beta_dpo/loss_margin_mean': -0.00355510413646698, 'beta_dpo/beta_margin_mean': -0.00034629780566319823, 'beta_dpo/beta_margin_std': 0.02640008181333542, 'beta_dpo/beta_margin_grad_mean': -0.500086784362793, 'beta_dpo/beta_margin_grad_std': 0.006598716601729393, 'epoch': 0.01} 1%|█ | 6/681 [00:16<28:08, 2.50s/it] 1%|█▏ | 7/681 [00:18<27:27, 2.44s/it] {'loss': 1.3852, 'grad_norm': 165.5727081298828, 'learning_rate': 4.347826086956521e-08, 'beta_dpo/gap_mean': 0.004135521594434977, 'beta_dpo/gap_std': 0.1954803466796875, 'beta_dpo/beta_used_raw': 0.10045399516820908, 'beta_dpo/beta_used': 0.10045399516820908, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1420326232910156, 'logits/rejected': -3.1474711894989014, 'beta_dpo/beta': 0.10045399516820908, 'beta_dpo/loss_margin_mean': 0.04471883177757263, 'beta_dpo/beta_margin_mean': 0.004481919575482607, 'beta_dpo/beta_margin_std': 0.02354278229176998, 'beta_dpo/beta_margin_grad_mean': -0.49887970089912415, 'beta_dpo/beta_margin_grad_std': 0.005884926300495863, 'epoch': 0.01} 1%|█▏ | 7/681 [00:18<27:27, 2.44s/it] 1%|█▎ | 8/681 [00:20<27:34, 2.46s/it] {'loss': 1.3927, 'grad_norm': 163.31930541992188, 'learning_rate': 5.0724637681159424e-08, 'beta_dpo/gap_mean': -0.0014673962723463774, 'beta_dpo/gap_std': 0.20564857125282288, 'beta_dpo/beta_used_raw': 0.09605514258146286, 'beta_dpo/beta_used': 0.09605514258146286, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.198502540588379, 'logits/rejected': -3.1550021171569824, 'beta_dpo/beta': 0.09605514258146286, 'beta_dpo/loss_margin_mean': -0.052922144532203674, 'beta_dpo/beta_margin_mean': -0.005007945001125336, 'beta_dpo/beta_margin_std': 0.02438473515212536, 'beta_dpo/beta_margin_grad_mean': -0.5012519359588623, 'beta_dpo/beta_margin_grad_std': 0.006095360033214092, 'epoch': 0.01} 1%|█▎ | 8/681 [00:20<27:34, 2.46s/it] 1%|█▌ | 9/681 [00:23<28:05, 2.51s/it] {'loss': 1.3867, 'grad_norm': 181.66322326660156, 'learning_rate': 5.797101449275362e-08, 'beta_dpo/gap_mean': -0.007042712531983852, 'beta_dpo/gap_std': 0.21777689456939697, 'beta_dpo/beta_used_raw': 0.10017342120409012, 'beta_dpo/beta_used': 0.10017342120409012, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1416659355163574, 'logits/rejected': -3.1250786781311035, 'beta_dpo/beta': 0.10017342120409012, 'beta_dpo/loss_margin_mean': -0.0016328543424606323, 'beta_dpo/beta_margin_mean': -4.894528683507815e-05, 'beta_dpo/beta_margin_std': 0.02714758738875389, 'beta_dpo/beta_margin_grad_mean': -0.5000122785568237, 'beta_dpo/beta_margin_grad_std': 0.006785591598600149, 'epoch': 0.01} 1%|█▌ | 9/681 [00:23<28:05, 2.51s/it] 1%|█▋ | 10/681 [00:26<28:31, 2.55s/it] {'loss': 1.3884, 'grad_norm': 168.22305297851562, 'learning_rate': 6.521739130434782e-08, 'beta_dpo/gap_mean': -0.006503046490252018, 'beta_dpo/gap_std': 0.21944838762283325, 'beta_dpo/beta_used_raw': 0.09914623945951462, 'beta_dpo/beta_used': 0.09914623945951462, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.10261869430542, 'logits/rejected': -3.080986499786377, 'beta_dpo/beta': 0.09914623945951462, 'beta_dpo/loss_margin_mean': -0.02211102843284607, 'beta_dpo/beta_margin_mean': -0.0021829898469150066, 'beta_dpo/beta_margin_std': 0.021049022674560547, 'beta_dpo/beta_margin_grad_mean': -0.5005456805229187, 'beta_dpo/beta_margin_grad_std': 0.005261780694127083, 'epoch': 0.01} 1%|█▋ | 10/681 [00:26<28:31, 2.55s/it] 2%|█▊ | 11/681 [00:28<28:54, 2.59s/it] {'loss': 1.3796, 'grad_norm': 186.03494262695312, 'learning_rate': 7.246376811594203e-08, 'beta_dpo/gap_mean': 0.002864137524738908, 'beta_dpo/gap_std': 0.22579887509346008, 'beta_dpo/beta_used_raw': 0.10375332087278366, 'beta_dpo/beta_used': 0.10375332087278366, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.155540943145752, 'logits/rejected': -3.142815113067627, 'beta_dpo/beta': 0.10375332087278366, 'beta_dpo/loss_margin_mean': 0.06643152236938477, 'beta_dpo/beta_margin_mean': 0.00689197052270174, 'beta_dpo/beta_margin_std': 0.026165250688791275, 'beta_dpo/beta_margin_grad_mean': -0.49827736616134644, 'beta_dpo/beta_margin_grad_std': 0.006540252361446619, 'epoch': 0.02} 2%|█▊ | 11/681 [00:28<28:54, 2.59s/it] 2%|██ | 12/681 [00:31<28:29, 2.56s/it] {'loss': 1.3828, 'grad_norm': 202.00311279296875, 'learning_rate': 7.971014492753623e-08, 'beta_dpo/gap_mean': 0.01069832406938076, 'beta_dpo/gap_std': 0.23313455283641815, 'beta_dpo/beta_used_raw': 0.10144880414009094, 'beta_dpo/beta_used': 0.10144880414009094, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1653075218200684, 'logits/rejected': -3.153486967086792, 'beta_dpo/beta': 0.10144880414009094, 'beta_dpo/loss_margin_mean': 0.037982091307640076, 'beta_dpo/beta_margin_mean': 0.003841817146167159, 'beta_dpo/beta_margin_std': 0.02776145376265049, 'beta_dpo/beta_margin_grad_mean': -0.49903959035873413, 'beta_dpo/beta_margin_grad_std': 0.006939120590686798, 'epoch': 0.02} 2%|██ | 12/681 [00:31<28:29, 2.56s/it] 2%|██▏ | 13/681 [00:33<28:36, 2.57s/it] {'loss': 1.377, 'grad_norm': 165.83859252929688, 'learning_rate': 8.695652173913042e-08, 'beta_dpo/gap_mean': 0.01822437345981598, 'beta_dpo/gap_std': 0.24303942918777466, 'beta_dpo/beta_used_raw': 0.10425792634487152, 'beta_dpo/beta_used': 0.10425792634487152, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.167670726776123, 'logits/rejected': -3.135024070739746, 'beta_dpo/beta': 0.10425792634487152, 'beta_dpo/loss_margin_mean': 0.054477810859680176, 'beta_dpo/beta_margin_mean': 0.005666609387844801, 'beta_dpo/beta_margin_std': 0.02927694283425808, 'beta_dpo/beta_margin_grad_mean': -0.4985834062099457, 'beta_dpo/beta_margin_grad_std': 0.007317332550883293, 'epoch': 0.02} 2%|██▏ | 13/681 [00:33<28:36, 2.57s/it] 2%|██▎ | 14/681 [00:36<27:56, 2.51s/it] {'loss': 1.3751, 'grad_norm': 203.8751983642578, 'learning_rate': 9.420289855072464e-08, 'beta_dpo/gap_mean': 0.039918702095746994, 'beta_dpo/gap_std': 0.2563033699989319, 'beta_dpo/beta_used_raw': 0.10415012389421463, 'beta_dpo/beta_used': 0.10415012389421463, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.132795572280884, 'logits/rejected': -3.1252737045288086, 'beta_dpo/beta': 0.10415012389421463, 'beta_dpo/loss_margin_mean': 0.16253972053527832, 'beta_dpo/beta_margin_mean': 0.016939442604780197, 'beta_dpo/beta_margin_std': 0.03285452350974083, 'beta_dpo/beta_margin_grad_mean': -0.4957675039768219, 'beta_dpo/beta_margin_grad_std': 0.00820655096322298, 'epoch': 0.02} 2%|██▎ | 14/681 [00:36<27:56, 2.51s/it] 2%|██▌ | 15/681 [00:38<28:13, 2.54s/it] {'loss': 1.3722, 'grad_norm': 158.30233764648438, 'learning_rate': 1.0144927536231885e-07, 'beta_dpo/gap_mean': 0.06402108818292618, 'beta_dpo/gap_std': 0.2579445540904999, 'beta_dpo/beta_used_raw': 0.10431154817342758, 'beta_dpo/beta_used': 0.10431154817342758, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1343517303466797, 'logits/rejected': -3.124833106994629, 'beta_dpo/beta': 0.10431154817342758, 'beta_dpo/loss_margin_mean': 0.17562128603458405, 'beta_dpo/beta_margin_mean': 0.018400877714157104, 'beta_dpo/beta_margin_std': 0.026965487748384476, 'beta_dpo/beta_margin_grad_mean': -0.4954010248184204, 'beta_dpo/beta_margin_grad_std': 0.006738570984452963, 'epoch': 0.02} 2%|██▌ | 15/681 [00:38<28:13, 2.54s/it] 2%|██▋ | 16/681 [00:41<28:24, 2.56s/it] {'loss': 1.3716, 'grad_norm': 162.9868621826172, 'learning_rate': 1.0869565217391303e-07, 'beta_dpo/gap_mean': 0.08750247955322266, 'beta_dpo/gap_std': 0.25985032320022583, 'beta_dpo/beta_used_raw': 0.10335851460695267, 'beta_dpo/beta_used': 0.10335851460695267, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1242918968200684, 'logits/rejected': -3.090561628341675, 'beta_dpo/beta': 0.10335851460695267, 'beta_dpo/loss_margin_mean': 0.1823047697544098, 'beta_dpo/beta_margin_mean': 0.018874231725931168, 'beta_dpo/beta_margin_std': 0.028187856078147888, 'beta_dpo/beta_margin_grad_mean': -0.4952828586101532, 'beta_dpo/beta_margin_grad_std': 0.007043875753879547, 'epoch': 0.02} 2%|██▋ | 16/681 [00:41<28:24, 2.56s/it] 2%|██▊ | 17/681 [00:43<28:07, 2.54s/it] {'loss': 1.3663, 'grad_norm': 171.33746337890625, 'learning_rate': 1.1594202898550725e-07, 'beta_dpo/gap_mean': 0.12156766653060913, 'beta_dpo/gap_std': 0.273958683013916, 'beta_dpo/beta_used_raw': 0.10424471646547318, 'beta_dpo/beta_used': 0.10424471646547318, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1508283615112305, 'logits/rejected': -3.0991227626800537, 'beta_dpo/beta': 0.10424471646547318, 'beta_dpo/loss_margin_mean': 0.2991063594818115, 'beta_dpo/beta_margin_mean': 0.031297143548727036, 'beta_dpo/beta_margin_std': 0.037318408489227295, 'beta_dpo/beta_margin_grad_mean': -0.4921805262565613, 'beta_dpo/beta_margin_grad_std': 0.009317115880548954, 'epoch': 0.02} 2%|██▊ | 17/681 [00:43<28:07, 2.54s/it] 3%|███ | 18/681 [00:46<28:11, 2.55s/it] {'loss': 1.3556, 'grad_norm': 172.73681640625, 'learning_rate': 1.2318840579710146e-07, 'beta_dpo/gap_mean': 0.1662050485610962, 'beta_dpo/gap_std': 0.2930639386177063, 'beta_dpo/beta_used_raw': 0.10741108655929565, 'beta_dpo/beta_used': 0.10741108655929565, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1059744358062744, 'logits/rejected': -3.0668582916259766, 'beta_dpo/beta': 0.10741108655929565, 'beta_dpo/loss_margin_mean': 0.37321096658706665, 'beta_dpo/beta_margin_mean': 0.040072713047266006, 'beta_dpo/beta_margin_std': 0.039800975471735, 'beta_dpo/beta_margin_grad_mean': -0.4899873435497284, 'beta_dpo/beta_margin_grad_std': 0.009942273609340191, 'epoch': 0.03} 3%|███ | 18/681 [00:46<28:11, 2.55s/it] 3%|███▏ | 19/681 [00:48<27:56, 2.53s/it] {'loss': 1.3537, 'grad_norm': 154.02589416503906, 'learning_rate': 1.3043478260869563e-07, 'beta_dpo/gap_mean': 0.21926948428153992, 'beta_dpo/gap_std': 0.317290723323822, 'beta_dpo/beta_used_raw': 0.10548347979784012, 'beta_dpo/beta_used': 0.10548347979784012, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.137395143508911, 'logits/rejected': -3.095036506652832, 'beta_dpo/beta': 0.10548347979784012, 'beta_dpo/loss_margin_mean': 0.49080538749694824, 'beta_dpo/beta_margin_mean': 0.05215656757354736, 'beta_dpo/beta_margin_std': 0.04959164187312126, 'beta_dpo/beta_margin_grad_mean': -0.4869752824306488, 'beta_dpo/beta_margin_grad_std': 0.01236420962959528, 'epoch': 0.03} 3%|███▏ | 19/681 [00:49<27:56, 2.53s/it] 3%|███▍ | 20/681 [00:51<28:01, 2.54s/it] {'loss': 1.3433, 'grad_norm': 151.9236602783203, 'learning_rate': 1.3768115942028986e-07, 'beta_dpo/gap_mean': 0.28570470213890076, 'beta_dpo/gap_std': 0.34619662165641785, 'beta_dpo/beta_used_raw': 0.10729610919952393, 'beta_dpo/beta_used': 0.10729610919952393, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.151339530944824, 'logits/rejected': -3.1141912937164307, 'beta_dpo/beta': 0.10729610919952393, 'beta_dpo/loss_margin_mean': 0.5685427784919739, 'beta_dpo/beta_margin_mean': 0.06094222515821457, 'beta_dpo/beta_margin_std': 0.05008528009057045, 'beta_dpo/beta_margin_grad_mean': -0.4847802519798279, 'beta_dpo/beta_margin_grad_std': 0.01249635312706232, 'epoch': 0.03} 3%|███▍ | 20/681 [00:51<28:01, 2.54s/it] 3%|███▌ | 21/681 [00:54<27:49, 2.53s/it] {'loss': 1.3432, 'grad_norm': 139.0661163330078, 'learning_rate': 1.4492753623188405e-07, 'beta_dpo/gap_mean': 0.3368791937828064, 'beta_dpo/gap_std': 0.3872354030609131, 'beta_dpo/beta_used_raw': 0.1047445610165596, 'beta_dpo/beta_used': 0.1047445610165596, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0985090732574463, 'logits/rejected': -3.0805447101593018, 'beta_dpo/beta': 0.1047445610165596, 'beta_dpo/loss_margin_mean': 0.5463607311248779, 'beta_dpo/beta_margin_mean': 0.057291969656944275, 'beta_dpo/beta_margin_std': 0.0604330375790596, 'beta_dpo/beta_margin_grad_mean': -0.4856947958469391, 'beta_dpo/beta_margin_grad_std': 0.015066784806549549, 'epoch': 0.03} 3%|███▌ | 21/681 [00:54<27:49, 2.53s/it] 3%|███▋ | 22/681 [00:56<28:11, 2.57s/it] {'loss': 1.3307, 'grad_norm': 172.8441162109375, 'learning_rate': 1.5217391304347825e-07, 'beta_dpo/gap_mean': 0.40355396270751953, 'beta_dpo/gap_std': 0.4153197705745697, 'beta_dpo/beta_used_raw': 0.10737676173448563, 'beta_dpo/beta_used': 0.10737676173448563, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1092402935028076, 'logits/rejected': -3.09182071685791, 'beta_dpo/beta': 0.10737676173448563, 'beta_dpo/loss_margin_mean': 0.6897796988487244, 'beta_dpo/beta_margin_mean': 0.074525848031044, 'beta_dpo/beta_margin_std': 0.055176492780447006, 'beta_dpo/beta_margin_grad_mean': -0.4813934862613678, 'beta_dpo/beta_margin_grad_std': 0.013753235340118408, 'epoch': 0.03} 3%|███▋ | 22/681 [00:56<28:11, 2.57s/it] 3%|███▉ | 23/681 [00:59<28:32, 2.60s/it] {'loss': 1.3201, 'grad_norm': 156.1903076171875, 'learning_rate': 1.5942028985507245e-07, 'beta_dpo/gap_mean': 0.4720858931541443, 'beta_dpo/gap_std': 0.4659385085105896, 'beta_dpo/beta_used_raw': 0.10904830694198608, 'beta_dpo/beta_used': 0.10904830694198608, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1103243827819824, 'logits/rejected': -3.088109016418457, 'beta_dpo/beta': 0.10904830694198608, 'beta_dpo/loss_margin_mean': 0.8740031123161316, 'beta_dpo/beta_margin_mean': 0.09563583135604858, 'beta_dpo/beta_margin_std': 0.08828449249267578, 'beta_dpo/beta_margin_grad_mean': -0.4761696755886078, 'beta_dpo/beta_margin_grad_std': 0.021913398057222366, 'epoch': 0.03} 3%|███▉ | 23/681 [00:59<28:32, 2.60s/it] 4%|████ | 24/681 [01:02<28:32, 2.61s/it] {'loss': 1.305, 'grad_norm': 177.53704833984375, 'learning_rate': 1.6666666666666665e-07, 'beta_dpo/gap_mean': 0.578666090965271, 'beta_dpo/gap_std': 0.5306879281997681, 'beta_dpo/beta_used_raw': 0.11075541377067566, 'beta_dpo/beta_used': 0.11075541377067566, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.085505723953247, 'logits/rejected': -3.097721815109253, 'beta_dpo/beta': 0.11075541377067566, 'beta_dpo/loss_margin_mean': 1.0362656116485596, 'beta_dpo/beta_margin_mean': 0.11474256962537766, 'beta_dpo/beta_margin_std': 0.08595109730958939, 'beta_dpo/beta_margin_grad_mean': -0.471403568983078, 'beta_dpo/beta_margin_grad_std': 0.021366121247410774, 'epoch': 0.04} 4%|████ | 24/681 [01:02<28:32, 2.61s/it] 4%|████▏ | 25/681 [01:04<28:33, 2.61s/it] {'loss': 1.319, 'grad_norm': 133.51351928710938, 'learning_rate': 1.7391304347826085e-07, 'beta_dpo/gap_mean': 0.6436024904251099, 'beta_dpo/gap_std': 0.5977407693862915, 'beta_dpo/beta_used_raw': 0.10202641040086746, 'beta_dpo/beta_used': 0.10202641040086746, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1361374855041504, 'logits/rejected': -3.1234917640686035, 'beta_dpo/beta': 0.10202641040086746, 'beta_dpo/loss_margin_mean': 0.9032971858978271, 'beta_dpo/beta_margin_mean': 0.09244953840970993, 'beta_dpo/beta_margin_std': 0.09470401704311371, 'beta_dpo/beta_margin_grad_mean': -0.47696781158447266, 'beta_dpo/beta_margin_grad_std': 0.02352500520646572, 'epoch': 0.04} 4%|████▏ | 25/681 [01:04<28:33, 2.61s/it] 4%|████▍ | 26/681 [01:06<27:40, 2.53s/it] {'loss': 1.27, 'grad_norm': 163.3068389892578, 'learning_rate': 1.8115942028985507e-07, 'beta_dpo/gap_mean': 0.7885938882827759, 'beta_dpo/gap_std': 0.7514917850494385, 'beta_dpo/beta_used_raw': 0.11549623310565948, 'beta_dpo/beta_used': 0.11549623310565948, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.134460687637329, 'logits/rejected': -3.140258550643921, 'beta_dpo/beta': 0.11549623310565948, 'beta_dpo/loss_margin_mean': 1.6038861274719238, 'beta_dpo/beta_margin_mean': 0.18718303740024567, 'beta_dpo/beta_margin_std': 0.20004823803901672, 'beta_dpo/beta_margin_grad_mean': -0.453942209482193, 'beta_dpo/beta_margin_grad_std': 0.04830946400761604, 'epoch': 0.04} 4%|████▍ | 26/681 [01:07<27:40, 2.53s/it] 4%|████▌ | 27/681 [01:09<27:20, 2.51s/it] {'loss': 1.2053, 'grad_norm': 196.32107543945312, 'learning_rate': 1.8840579710144927e-07, 'beta_dpo/gap_mean': 1.0029573440551758, 'beta_dpo/gap_std': 0.8620645999908447, 'beta_dpo/beta_used_raw': 0.1283809393644333, 'beta_dpo/beta_used': 0.1283809393644333, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0956711769104004, 'logits/rejected': -3.0962371826171875, 'beta_dpo/beta': 0.1283809393644333, 'beta_dpo/loss_margin_mean': 1.8610539436340332, 'beta_dpo/beta_margin_mean': 0.24452631175518036, 'beta_dpo/beta_margin_std': 0.16269095242023468, 'beta_dpo/beta_margin_grad_mean': -0.4395935833454132, 'beta_dpo/beta_margin_grad_std': 0.03977083042263985, 'epoch': 0.04} 4%|████▌ | 27/681 [01:09<27:20, 2.51s/it] 4%|████▋ | 28/681 [01:12<27:35, 2.53s/it] {'loss': 1.2161, 'grad_norm': 173.4256134033203, 'learning_rate': 1.9565217391304347e-07, 'beta_dpo/gap_mean': 1.1611372232437134, 'beta_dpo/gap_std': 0.9274260997772217, 'beta_dpo/beta_used_raw': 0.12041008472442627, 'beta_dpo/beta_used': 0.12041008472442627, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1474990844726562, 'logits/rejected': -3.1038711071014404, 'beta_dpo/beta': 0.12041008472442627, 'beta_dpo/loss_margin_mean': 1.9079362154006958, 'beta_dpo/beta_margin_mean': 0.2298518419265747, 'beta_dpo/beta_margin_std': 0.15634086728096008, 'beta_dpo/beta_margin_grad_mean': -0.44316551089286804, 'beta_dpo/beta_margin_grad_std': 0.03816642612218857, 'epoch': 0.04} 4%|████▋ | 28/681 [01:12<27:35, 2.53s/it] 4%|████▉ | 29/681 [01:14<26:56, 2.48s/it] {'loss': 1.1833, 'grad_norm': 177.54214477539062, 'learning_rate': 2.028985507246377e-07, 'beta_dpo/gap_mean': 1.347472906112671, 'beta_dpo/gap_std': 1.0383023023605347, 'beta_dpo/beta_used_raw': 0.12488596141338348, 'beta_dpo/beta_used': 0.12488596141338348, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.128300666809082, 'logits/rejected': -3.105536937713623, 'beta_dpo/beta': 0.12488596141338348, 'beta_dpo/loss_margin_mean': 2.274510145187378, 'beta_dpo/beta_margin_mean': 0.2829776108264923, 'beta_dpo/beta_margin_std': 0.19504757225513458, 'beta_dpo/beta_margin_grad_mean': -0.43044498562812805, 'beta_dpo/beta_margin_grad_std': 0.04702915996313095, 'epoch': 0.04} 4%|████▉ | 29/681 [01:14<26:56, 2.48s/it] 4%|█████ | 30/681 [01:16<27:11, 2.51s/it] {'loss': 1.1672, 'grad_norm': 179.45391845703125, 'learning_rate': 2.1014492753623187e-07, 'beta_dpo/gap_mean': 1.5580029487609863, 'beta_dpo/gap_std': 1.1984624862670898, 'beta_dpo/beta_used_raw': 0.12252659350633621, 'beta_dpo/beta_used': 0.12252659350633621, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.109475612640381, 'logits/rejected': -3.0789778232574463, 'beta_dpo/beta': 0.12252659350633621, 'beta_dpo/loss_margin_mean': 2.384845018386841, 'beta_dpo/beta_margin_mean': 0.29425692558288574, 'beta_dpo/beta_margin_std': 0.22929762303829193, 'beta_dpo/beta_margin_grad_mean': -0.4280206561088562, 'beta_dpo/beta_margin_grad_std': 0.05462159961462021, 'epoch': 0.04} 4%|█████ | 30/681 [01:16<27:11, 2.51s/it] 5%|█████▏ | 31/681 [01:19<27:24, 2.53s/it] {'loss': 1.1353, 'grad_norm': 166.8577880859375, 'learning_rate': 2.1739130434782607e-07, 'beta_dpo/gap_mean': 1.7079854011535645, 'beta_dpo/gap_std': 1.3484312295913696, 'beta_dpo/beta_used_raw': 0.12765327095985413, 'beta_dpo/beta_used': 0.12765327095985413, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1314797401428223, 'logits/rejected': -3.0868959426879883, 'beta_dpo/beta': 0.12765327095985413, 'beta_dpo/loss_margin_mean': 2.3504257202148438, 'beta_dpo/beta_margin_mean': 0.3004482090473175, 'beta_dpo/beta_margin_std': 0.2656671404838562, 'beta_dpo/beta_margin_grad_mean': -0.4269483983516693, 'beta_dpo/beta_margin_grad_std': 0.06185346469283104, 'epoch': 0.05} 5%|█████▏ | 31/681 [01:19<27:24, 2.53s/it] 5%|█████▍ | 32/681 [01:22<27:11, 2.51s/it] {'loss': 1.1878, 'grad_norm': 143.5096435546875, 'learning_rate': 2.2463768115942027e-07, 'beta_dpo/gap_mean': 1.9182875156402588, 'beta_dpo/gap_std': 1.5188119411468506, 'beta_dpo/beta_used_raw': 0.10552072525024414, 'beta_dpo/beta_used': 0.10552072525024414, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1662778854370117, 'logits/rejected': -3.149886131286621, 'beta_dpo/beta': 0.10552072525024414, 'beta_dpo/loss_margin_mean': 2.994873046875, 'beta_dpo/beta_margin_mean': 0.31740450859069824, 'beta_dpo/beta_margin_std': 0.25505444407463074, 'beta_dpo/beta_margin_grad_mean': -0.4227868914604187, 'beta_dpo/beta_margin_grad_std': 0.06014800816774368, 'epoch': 0.05} 5%|█████▍ | 32/681 [01:22<27:11, 2.51s/it] 5%|█████▌ | 33/681 [01:24<26:55, 2.49s/it] {'loss': 1.1123, 'grad_norm': 178.19117736816406, 'learning_rate': 2.318840579710145e-07, 'beta_dpo/gap_mean': 2.081599235534668, 'beta_dpo/gap_std': 1.7187418937683105, 'beta_dpo/beta_used_raw': 0.12314489483833313, 'beta_dpo/beta_used': 0.12314489483833313, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.126152276992798, 'logits/rejected': -3.110962152481079, 'beta_dpo/beta': 0.12314489483833313, 'beta_dpo/loss_margin_mean': 2.8416450023651123, 'beta_dpo/beta_margin_mean': 0.3495492935180664, 'beta_dpo/beta_margin_std': 0.30640801787376404, 'beta_dpo/beta_margin_grad_mean': -0.41513192653656006, 'beta_dpo/beta_margin_grad_std': 0.07031543552875519, 'epoch': 0.05} 5%|█████▌ | 33/681 [01:24<26:55, 2.49s/it] 5%|█████▋ | 34/681 [01:26<26:40, 2.47s/it] {'loss': 1.1663, 'grad_norm': 142.10772705078125, 'learning_rate': 2.391304347826087e-07, 'beta_dpo/gap_mean': 2.2918877601623535, 'beta_dpo/gap_std': 1.891815185546875, 'beta_dpo/beta_used_raw': 0.10388785600662231, 'beta_dpo/beta_used': 0.10388785600662231, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1223511695861816, 'logits/rejected': -3.1378636360168457, 'beta_dpo/beta': 0.10388785600662231, 'beta_dpo/loss_margin_mean': 3.123857021331787, 'beta_dpo/beta_margin_mean': 0.3246135115623474, 'beta_dpo/beta_margin_std': 0.28224509954452515, 'beta_dpo/beta_margin_grad_mean': -0.4212900698184967, 'beta_dpo/beta_margin_grad_std': 0.0669008269906044, 'epoch': 0.05} 5%|█████▋ | 34/681 [01:26<26:40, 2.47s/it] 5%|█████▉ | 35/681 [01:29<26:35, 2.47s/it] {'loss': 1.1385, 'grad_norm': 136.2096710205078, 'learning_rate': 2.463768115942029e-07, 'beta_dpo/gap_mean': 2.542179584503174, 'beta_dpo/gap_std': 2.094670295715332, 'beta_dpo/beta_used_raw': 0.1047118604183197, 'beta_dpo/beta_used': 0.1047118604183197, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1520180702209473, 'logits/rejected': -3.1538925170898438, 'beta_dpo/beta': 0.1047118604183197, 'beta_dpo/loss_margin_mean': 3.8020293712615967, 'beta_dpo/beta_margin_mean': 0.39983880519866943, 'beta_dpo/beta_margin_std': 0.32720947265625, 'beta_dpo/beta_margin_grad_mean': -0.40423837304115295, 'beta_dpo/beta_margin_grad_std': 0.07508349418640137, 'epoch': 0.05} 5%|█████▉ | 35/681 [01:29<26:35, 2.47s/it] 5%|██████ | 36/681 [01:31<26:19, 2.45s/it] {'loss': 1.062, 'grad_norm': 132.07125854492188, 'learning_rate': 2.536231884057971e-07, 'beta_dpo/gap_mean': 2.822805881500244, 'beta_dpo/gap_std': 2.430403709411621, 'beta_dpo/beta_used_raw': 0.12119206041097641, 'beta_dpo/beta_used': 0.12119206041097641, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1347692012786865, 'logits/rejected': -3.133504629135132, 'beta_dpo/beta': 0.12119206041097641, 'beta_dpo/loss_margin_mean': 4.381009578704834, 'beta_dpo/beta_margin_mean': 0.5494691729545593, 'beta_dpo/beta_margin_std': 0.5312042832374573, 'beta_dpo/beta_margin_grad_mean': -0.3750362694263458, 'beta_dpo/beta_margin_grad_std': 0.11262792348861694, 'epoch': 0.05} 5%|██████ | 36/681 [01:31<26:19, 2.45s/it] 5%|██████▏ | 37/681 [01:34<25:41, 2.39s/it] {'loss': 1.0, 'grad_norm': 143.18426513671875, 'learning_rate': 2.6086956521739126e-07, 'beta_dpo/gap_mean': 3.1904327869415283, 'beta_dpo/gap_std': 2.7459893226623535, 'beta_dpo/beta_used_raw': 0.12719795107841492, 'beta_dpo/beta_used': 0.12719795107841492, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1382253170013428, 'logits/rejected': -3.1056854724884033, 'beta_dpo/beta': 0.12719795107841492, 'beta_dpo/loss_margin_mean': 4.56009578704834, 'beta_dpo/beta_margin_mean': 0.579422652721405, 'beta_dpo/beta_margin_std': 0.5222266912460327, 'beta_dpo/beta_margin_grad_mean': -0.368235319852829, 'beta_dpo/beta_margin_grad_std': 0.10667005181312561, 'epoch': 0.05} 5%|██████▏ | 37/681 [01:34<25:41, 2.39s/it] 6%|██████▍ | 38/681 [01:36<25:25, 2.37s/it] {'loss': 0.9095, 'grad_norm': 143.8856201171875, 'learning_rate': 2.681159420289855e-07, 'beta_dpo/gap_mean': 3.688507556915283, 'beta_dpo/gap_std': 3.2539007663726807, 'beta_dpo/beta_used_raw': 0.14245614409446716, 'beta_dpo/beta_used': 0.14245614409446716, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1051831245422363, 'logits/rejected': -3.11987042427063, 'beta_dpo/beta': 0.14245614409446716, 'beta_dpo/loss_margin_mean': 6.270021438598633, 'beta_dpo/beta_margin_mean': 0.8959528803825378, 'beta_dpo/beta_margin_std': 0.8295892477035522, 'beta_dpo/beta_margin_grad_mean': -0.31650885939598083, 'beta_dpo/beta_margin_grad_std': 0.14402246475219727, 'epoch': 0.06} 6%|██████▍ | 38/681 [01:36<25:25, 2.37s/it] 6%|██████▌ | 39/681 [01:38<25:22, 2.37s/it] {'loss': 0.7892, 'grad_norm': 157.51174926757812, 'learning_rate': 2.753623188405797e-07, 'beta_dpo/gap_mean': 4.267126560211182, 'beta_dpo/gap_std': 3.6263532638549805, 'beta_dpo/beta_used_raw': 0.1562386155128479, 'beta_dpo/beta_used': 0.1562386155128479, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.107410430908203, 'logits/rejected': -3.0857043266296387, 'beta_dpo/beta': 0.1562386155128479, 'beta_dpo/loss_margin_mean': 6.750538349151611, 'beta_dpo/beta_margin_mean': 1.0526187419891357, 'beta_dpo/beta_margin_std': 0.7619715929031372, 'beta_dpo/beta_margin_grad_mean': -0.28196191787719727, 'beta_dpo/beta_margin_grad_std': 0.12678173184394836, 'epoch': 0.06} 6%|██████▌ | 39/681 [01:38<25:22, 2.37s/it] 6%|██████▊ | 40/681 [01:41<25:19, 2.37s/it] {'loss': 0.942, 'grad_norm': 121.4354248046875, 'learning_rate': 2.8260869565217386e-07, 'beta_dpo/gap_mean': 4.675539016723633, 'beta_dpo/gap_std': 3.911595582962036, 'beta_dpo/beta_used_raw': 0.1138225644826889, 'beta_dpo/beta_used': 0.1138225644826889, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.154458999633789, 'logits/rejected': -3.135817050933838, 'beta_dpo/beta': 0.1138225644826889, 'beta_dpo/loss_margin_mean': 6.719384670257568, 'beta_dpo/beta_margin_mean': 0.7856088876724243, 'beta_dpo/beta_margin_std': 0.7016869783401489, 'beta_dpo/beta_margin_grad_mean': -0.3327762484550476, 'beta_dpo/beta_margin_grad_std': 0.1230630874633789, 'epoch': 0.06} 6%|██████▊ | 40/681 [01:41<25:19, 2.37s/it] 6%|██████▉ | 41/681 [01:43<25:05, 2.35s/it] {'loss': 0.6769, 'grad_norm': 153.85923767089844, 'learning_rate': 2.898550724637681e-07, 'beta_dpo/gap_mean': 5.223352432250977, 'beta_dpo/gap_std': 4.3833465576171875, 'beta_dpo/beta_used_raw': 0.17786243557929993, 'beta_dpo/beta_used': 0.17786243557929993, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1468467712402344, 'logits/rejected': -3.1274843215942383, 'beta_dpo/beta': 0.17786243557929993, 'beta_dpo/loss_margin_mean': 8.071098327636719, 'beta_dpo/beta_margin_mean': 1.4926997423171997, 'beta_dpo/beta_margin_std': 1.711531162261963, 'beta_dpo/beta_margin_grad_mean': -0.2580529749393463, 'beta_dpo/beta_margin_grad_std': 0.18610239028930664, 'epoch': 0.06} 6%|██████▉ | 41/681 [01:43<25:05, 2.35s/it] 6%|███████ | 42/681 [01:45<25:52, 2.43s/it] {'loss': 0.8067, 'grad_norm': 157.87091064453125, 'learning_rate': 2.971014492753623e-07, 'beta_dpo/gap_mean': 5.9276628494262695, 'beta_dpo/gap_std': 5.334522724151611, 'beta_dpo/beta_used_raw': 0.1443341076374054, 'beta_dpo/beta_used': 0.1443341076374054, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.130484104156494, 'logits/rejected': -3.144623279571533, 'beta_dpo/beta': 0.1443341076374054, 'beta_dpo/loss_margin_mean': 9.092480659484863, 'beta_dpo/beta_margin_mean': 1.44333815574646, 'beta_dpo/beta_margin_std': 1.6360913515090942, 'beta_dpo/beta_margin_grad_mean': -0.28167596459388733, 'beta_dpo/beta_margin_grad_std': 0.18971994519233704, 'epoch': 0.06} 6%|███████ | 42/681 [01:46<25:52, 2.43s/it] 6%|███████▎ | 43/681 [01:48<26:18, 2.47s/it] {'loss': 0.5973, 'grad_norm': 143.8301239013672, 'learning_rate': 3.043478260869565e-07, 'beta_dpo/gap_mean': 6.808272361755371, 'beta_dpo/gap_std': 5.8962321281433105, 'beta_dpo/beta_used_raw': 0.18256396055221558, 'beta_dpo/beta_used': 0.18256396055221558, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.1377265453338623, 'logits/rejected': -3.1264193058013916, 'beta_dpo/beta': 0.18256396055221558, 'beta_dpo/loss_margin_mean': 10.406832695007324, 'beta_dpo/beta_margin_mean': 1.8994702100753784, 'beta_dpo/beta_margin_std': 1.475931167602539, 'beta_dpo/beta_margin_grad_mean': -0.20482036471366882, 'beta_dpo/beta_margin_grad_std': 0.17849688231945038, 'epoch': 0.06} 6%|███████▎ | 43/681 [01:48<26:18, 2.47s/it] 6%|███████▍ | 44/681 [01:51<26:48, 2.53s/it] {'loss': 0.3312, 'grad_norm': 115.14469146728516, 'learning_rate': 3.115942028985507e-07, 'beta_dpo/gap_mean': 7.831865310668945, 'beta_dpo/gap_std': 6.489755153656006, 'beta_dpo/beta_used_raw': 0.24507826566696167, 'beta_dpo/beta_used': 0.24507826566696167, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0733070373535156, 'logits/rejected': -3.0947670936584473, 'beta_dpo/beta': 0.24507826566696167, 'beta_dpo/loss_margin_mean': 12.265984535217285, 'beta_dpo/beta_margin_mean': 3.0058138370513916, 'beta_dpo/beta_margin_std': 2.3838889598846436, 'beta_dpo/beta_margin_grad_mean': -0.14221227169036865, 'beta_dpo/beta_margin_grad_std': 0.19724884629249573, 'epoch': 0.06} 6%|███████▍ | 44/681 [01:51<26:48, 2.53s/it] 7%|███████▌ | 45/681 [01:53<25:59, 2.45s/it] {'loss': 1.1443, 'grad_norm': 59.289710998535156, 'learning_rate': 3.188405797101449e-07, 'beta_dpo/gap_mean': 8.08301067352295, 'beta_dpo/gap_std': 6.940834045410156, 'beta_dpo/beta_used_raw': 0.038562677800655365, 'beta_dpo/beta_used': 0.038562677800655365, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0954208374023438, 'logits/rejected': -3.097357749938965, 'beta_dpo/beta': 0.038562677800655365, 'beta_dpo/loss_margin_mean': 8.900261878967285, 'beta_dpo/beta_margin_mean': 0.3413236737251282, 'beta_dpo/beta_margin_std': 0.34545838832855225, 'beta_dpo/beta_margin_grad_mean': -0.4185938835144043, 'beta_dpo/beta_margin_grad_std': 0.0780901312828064, 'epoch': 0.07} 7%|███████▌ | 45/681 [01:53<25:59, 2.45s/it] 7%|███████▊ | 46/681 [01:55<25:52, 2.45s/it] {'loss': 0.6997, 'grad_norm': 121.44014739990234, 'learning_rate': 3.260869565217391e-07, 'beta_dpo/gap_mean': 8.649866104125977, 'beta_dpo/gap_std': 7.57880973815918, 'beta_dpo/beta_used_raw': 0.11945217847824097, 'beta_dpo/beta_used': 0.11945217847824097, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.073902130126953, 'logits/rejected': -3.071622371673584, 'beta_dpo/beta': 0.11945217847824097, 'beta_dpo/loss_margin_mean': 11.921540260314941, 'beta_dpo/beta_margin_mean': 1.4459818601608276, 'beta_dpo/beta_margin_std': 1.3947581052780151, 'beta_dpo/beta_margin_grad_mean': -0.2516638934612274, 'beta_dpo/beta_margin_grad_std': 0.16823652386665344, 'epoch': 0.07} 7%|███████▊ | 46/681 [01:55<25:52, 2.45s/it] 7%|███████▉ | 47/681 [01:58<25:49, 2.44s/it] {'loss': 0.7862, 'grad_norm': 100.65027618408203, 'learning_rate': 3.333333333333333e-07, 'beta_dpo/gap_mean': 8.923969268798828, 'beta_dpo/gap_std': 8.19182014465332, 'beta_dpo/beta_used_raw': 0.09873463958501816, 'beta_dpo/beta_used': 0.09873463958501816, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.120870351791382, 'logits/rejected': -3.112800121307373, 'beta_dpo/beta': 0.09873463958501816, 'beta_dpo/loss_margin_mean': 10.096163749694824, 'beta_dpo/beta_margin_mean': 1.112424612045288, 'beta_dpo/beta_margin_std': 1.307705283164978, 'beta_dpo/beta_margin_grad_mean': -0.30619868636131287, 'beta_dpo/beta_margin_grad_std': 0.17535436153411865, 'epoch': 0.07} 7%|███████▉ | 47/681 [01:58<25:49, 2.44s/it] 7%|████████ | 48/681 [02:01<26:51, 2.55s/it] {'loss': 1.067, 'grad_norm': 72.16007232666016, 'learning_rate': 3.4057971014492755e-07, 'beta_dpo/gap_mean': 9.664556503295898, 'beta_dpo/gap_std': 8.99693489074707, 'beta_dpo/beta_used_raw': 0.04364791885018349, 'beta_dpo/beta_used': 0.04364791885018349, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.109793186187744, 'logits/rejected': -3.0930979251861572, 'beta_dpo/beta': 0.04364791885018349, 'beta_dpo/loss_margin_mean': 12.434694290161133, 'beta_dpo/beta_margin_mean': 0.5390008687973022, 'beta_dpo/beta_margin_std': 0.5236583948135376, 'beta_dpo/beta_margin_grad_mean': -0.3776269853115082, 'beta_dpo/beta_margin_grad_std': 0.10796888172626495, 'epoch': 0.07} 7%|████████ | 48/681 [02:01<26:51, 2.55s/it] 7%|████████▎ | 49/681 [02:03<26:21, 2.50s/it] {'loss': 0.6067, 'grad_norm': 86.9437484741211, 'learning_rate': 3.478260869565217e-07, 'beta_dpo/gap_mean': 10.395795822143555, 'beta_dpo/gap_std': 9.3504638671875, 'beta_dpo/beta_used_raw': 0.1467229723930359, 'beta_dpo/beta_used': 0.1467229723930359, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.131073474884033, 'logits/rejected': -3.105538845062256, 'beta_dpo/beta': 0.1467229723930359, 'beta_dpo/loss_margin_mean': 13.992044448852539, 'beta_dpo/beta_margin_mean': 2.1265885829925537, 'beta_dpo/beta_margin_std': 2.2465431690216064, 'beta_dpo/beta_margin_grad_mean': -0.2280292958021164, 'beta_dpo/beta_margin_grad_std': 0.1954279989004135, 'epoch': 0.07} 7%|████████▎ | 49/681 [02:03<26:21, 2.50s/it] 7%|████████▍ | 50/681 [02:05<25:53, 2.46s/it] {'loss': 0.5317, 'grad_norm': 170.4370574951172, 'learning_rate': 3.5507246376811595e-07, 'beta_dpo/gap_mean': 11.018354415893555, 'beta_dpo/gap_std': 10.152142524719238, 'beta_dpo/beta_used_raw': 0.18687647581100464, 'beta_dpo/beta_used': 0.18687647581100464, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.116657257080078, 'logits/rejected': -3.1149511337280273, 'beta_dpo/beta': 0.18687647581100464, 'beta_dpo/loss_margin_mean': 13.667196273803711, 'beta_dpo/beta_margin_mean': 2.600717306137085, 'beta_dpo/beta_margin_std': 3.0297393798828125, 'beta_dpo/beta_margin_grad_mean': -0.22798167169094086, 'beta_dpo/beta_margin_grad_std': 0.24264167249202728, 'epoch': 0.07} 7%|████████▍ | 50/681 [02:05<25:53, 2.46s/it] 7%|████████▌ | 51/681 [02:08<25:58, 2.47s/it] {'loss': 0.7809, 'grad_norm': 96.85399627685547, 'learning_rate': 3.6231884057971015e-07, 'beta_dpo/gap_mean': 11.582159996032715, 'beta_dpo/gap_std': 11.08337688446045, 'beta_dpo/beta_used_raw': 0.0934867113828659, 'beta_dpo/beta_used': 0.0934867113828659, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.06636643409729, 'logits/rejected': -3.0568933486938477, 'beta_dpo/beta': 0.0934867113828659, 'beta_dpo/loss_margin_mean': 14.272186279296875, 'beta_dpo/beta_margin_mean': 1.3371574878692627, 'beta_dpo/beta_margin_std': 1.9382656812667847, 'beta_dpo/beta_margin_grad_mean': -0.3069649636745453, 'beta_dpo/beta_margin_grad_std': 0.1902894377708435, 'epoch': 0.07} 7%|████████▌ | 51/681 [02:08<25:58, 2.47s/it] 8%|████████▊ | 52/681 [02:10<26:09, 2.49s/it] {'loss': 0.5789, 'grad_norm': 73.05899810791016, 'learning_rate': 3.695652173913043e-07, 'beta_dpo/gap_mean': 12.820097923278809, 'beta_dpo/gap_std': 11.931066513061523, 'beta_dpo/beta_used_raw': 0.18484123051166534, 'beta_dpo/beta_used': 0.18484123051166534, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0794599056243896, 'logits/rejected': -3.0700924396514893, 'beta_dpo/beta': 0.18484123051166534, 'beta_dpo/loss_margin_mean': 18.8443546295166, 'beta_dpo/beta_margin_mean': 3.6904523372650146, 'beta_dpo/beta_margin_std': 4.510212421417236, 'beta_dpo/beta_margin_grad_mean': -0.21149781346321106, 'beta_dpo/beta_margin_grad_std': 0.19529053568840027, 'epoch': 0.08} 8%|████████▊ | 52/681 [02:10<26:09, 2.49s/it] 8%|████████▉ | 53/681 [02:13<26:20, 2.52s/it] {'loss': 0.2734, 'grad_norm': 187.00868225097656, 'learning_rate': 3.7681159420289855e-07, 'beta_dpo/gap_mean': 13.912508010864258, 'beta_dpo/gap_std': 12.778947830200195, 'beta_dpo/beta_used_raw': 0.28637969493865967, 'beta_dpo/beta_used': 0.28637969493865967, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0854148864746094, 'logits/rejected': -3.0860137939453125, 'beta_dpo/beta': 0.28637969493865967, 'beta_dpo/loss_margin_mean': 20.386211395263672, 'beta_dpo/beta_margin_mean': 6.572714328765869, 'beta_dpo/beta_margin_std': 7.698074817657471, 'beta_dpo/beta_margin_grad_mean': -0.12516933679580688, 'beta_dpo/beta_margin_grad_std': 0.2069372832775116, 'epoch': 0.08} 8%|████████▉ | 53/681 [02:13<26:20, 2.52s/it] 8%|█████████ | 54/681 [02:15<25:47, 2.47s/it] {'loss': 0.8662, 'grad_norm': 57.23472213745117, 'learning_rate': 3.8405797101449274e-07, 'beta_dpo/gap_mean': 15.25615119934082, 'beta_dpo/gap_std': 13.717507362365723, 'beta_dpo/beta_used_raw': 0.06331352889537811, 'beta_dpo/beta_used': 0.06887197494506836, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.093733310699463, 'logits/rejected': -3.0969040393829346, 'beta_dpo/beta': 0.06887197494506836, 'beta_dpo/loss_margin_mean': 19.47393226623535, 'beta_dpo/beta_margin_mean': 1.3893598318099976, 'beta_dpo/beta_margin_std': 1.9802852869033813, 'beta_dpo/beta_margin_grad_mean': -0.3133368492126465, 'beta_dpo/beta_margin_grad_std': 0.20501112937927246, 'epoch': 0.08} 8%|█████████ | 54/681 [02:15<25:47, 2.47s/it] 8%|█████████▎ | 55/681 [02:18<25:18, 2.43s/it] {'loss': 0.9575, 'grad_norm': 94.53569030761719, 'learning_rate': 3.9130434782608694e-07, 'beta_dpo/gap_mean': 16.030441284179688, 'beta_dpo/gap_std': 15.258533477783203, 'beta_dpo/beta_used_raw': 0.06507368385791779, 'beta_dpo/beta_used': 0.06593922525644302, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.090271472930908, 'logits/rejected': -3.0747573375701904, 'beta_dpo/beta': 0.06593922525644302, 'beta_dpo/loss_margin_mean': 18.9444522857666, 'beta_dpo/beta_margin_mean': 1.131407380104065, 'beta_dpo/beta_margin_std': 1.861047387123108, 'beta_dpo/beta_margin_grad_mean': -0.3532218635082245, 'beta_dpo/beta_margin_grad_std': 0.2077246904373169, 'epoch': 0.08} 8%|█████████▎ | 55/681 [02:18<25:18, 2.43s/it] 8%|█████████▍ | 56/681 [02:20<25:53, 2.48s/it] {'loss': 0.4909, 'grad_norm': 467.24908447265625, 'learning_rate': 3.9855072463768114e-07, 'beta_dpo/gap_mean': 17.08382797241211, 'beta_dpo/gap_std': 16.365951538085938, 'beta_dpo/beta_used_raw': 0.3255024254322052, 'beta_dpo/beta_used': 0.3255024254322052, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.066891670227051, 'logits/rejected': -3.0782933235168457, 'beta_dpo/beta': 0.3255024254322052, 'beta_dpo/loss_margin_mean': 22.620737075805664, 'beta_dpo/beta_margin_mean': 7.480155944824219, 'beta_dpo/beta_margin_std': 8.26274585723877, 'beta_dpo/beta_margin_grad_mean': -0.16037730872631073, 'beta_dpo/beta_margin_grad_std': 0.3197742998600006, 'epoch': 0.08} 8%|█████████▍ | 56/681 [02:20<25:53, 2.48s/it] 8%|█████████▋ | 57/681 [02:23<25:57, 2.50s/it] {'loss': 0.5031, 'grad_norm': 155.8965606689453, 'learning_rate': 4.057971014492754e-07, 'beta_dpo/gap_mean': 18.27362823486328, 'beta_dpo/gap_std': 17.460128784179688, 'beta_dpo/beta_used_raw': 0.13110555708408356, 'beta_dpo/beta_used': 0.13110555708408356, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.085702419281006, 'logits/rejected': -3.0846567153930664, 'beta_dpo/beta': 0.13110555708408356, 'beta_dpo/loss_margin_mean': 25.040273666381836, 'beta_dpo/beta_margin_mean': 3.3455374240875244, 'beta_dpo/beta_margin_std': 3.1305649280548096, 'beta_dpo/beta_margin_grad_mean': -0.16527362167835236, 'beta_dpo/beta_margin_grad_std': 0.23161666095256805, 'epoch': 0.08} 8%|█████████▋ | 57/681 [02:23<25:57, 2.50s/it] 9%|█████████▊ | 58/681 [02:25<25:27, 2.45s/it] {'loss': 0.5304, 'grad_norm': 105.10377502441406, 'learning_rate': 4.1304347826086954e-07, 'beta_dpo/gap_mean': 19.728099822998047, 'beta_dpo/gap_std': 18.534076690673828, 'beta_dpo/beta_used_raw': 0.0819333866238594, 'beta_dpo/beta_used': 0.0819333866238594, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0557703971862793, 'logits/rejected': -3.044924259185791, 'beta_dpo/beta': 0.0819333866238594, 'beta_dpo/loss_margin_mean': 25.43709373474121, 'beta_dpo/beta_margin_mean': 2.0763485431671143, 'beta_dpo/beta_margin_std': 1.8784925937652588, 'beta_dpo/beta_margin_grad_mean': -0.1960979849100113, 'beta_dpo/beta_margin_grad_std': 0.16590198874473572, 'epoch': 0.09} 9%|█████████▊ | 58/681 [02:25<25:27, 2.45s/it] 9%|█████████▉ | 59/681 [02:28<25:12, 2.43s/it] {'loss': 0.7404, 'grad_norm': 139.58779907226562, 'learning_rate': 4.2028985507246374e-07, 'beta_dpo/gap_mean': 21.075639724731445, 'beta_dpo/gap_std': 19.727760314941406, 'beta_dpo/beta_used_raw': 0.06114870309829712, 'beta_dpo/beta_used': 0.19281019270420074, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0765440464019775, 'logits/rejected': -3.0723140239715576, 'beta_dpo/beta': 0.19281019270420074, 'beta_dpo/loss_margin_mean': 25.989961624145508, 'beta_dpo/beta_margin_mean': 5.561700344085693, 'beta_dpo/beta_margin_std': 8.050152778625488, 'beta_dpo/beta_margin_grad_mean': -0.28002673387527466, 'beta_dpo/beta_margin_grad_std': 0.255830854177475, 'epoch': 0.09} 9%|█████████▉ | 59/681 [02:28<25:12, 2.43s/it] 9%|██████████▏ | 60/681 [02:30<25:46, 2.49s/it] {'loss': 0.2553, 'grad_norm': 332.7749328613281, 'learning_rate': 4.2753623188405794e-07, 'beta_dpo/gap_mean': 21.46399688720703, 'beta_dpo/gap_std': 21.259231567382812, 'beta_dpo/beta_used_raw': 0.3099629878997803, 'beta_dpo/beta_used': 0.3099629878997803, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.051283836364746, 'logits/rejected': -3.03759503364563, 'beta_dpo/beta': 0.3099629878997803, 'beta_dpo/loss_margin_mean': 21.761423110961914, 'beta_dpo/beta_margin_mean': 7.2313055992126465, 'beta_dpo/beta_margin_std': 9.950211524963379, 'beta_dpo/beta_margin_grad_mean': -0.16709139943122864, 'beta_dpo/beta_margin_grad_std': 0.31567007303237915, 'epoch': 0.09} 9%|██████████▏ | 60/681 [02:30<25:46, 2.49s/it] 9%|██████████▎ | 61/681 [02:33<25:47, 2.50s/it] {'loss': 0.8416, 'grad_norm': 144.1743927001953, 'learning_rate': 4.3478260869565214e-07, 'beta_dpo/gap_mean': 22.091663360595703, 'beta_dpo/gap_std': 22.40526580810547, 'beta_dpo/beta_used_raw': 0.0911061018705368, 'beta_dpo/beta_used': 0.0911061018705368, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0594305992126465, 'logits/rejected': -3.0812244415283203, 'beta_dpo/beta': 0.0911061018705368, 'beta_dpo/loss_margin_mean': 26.832210540771484, 'beta_dpo/beta_margin_mean': 2.5058257579803467, 'beta_dpo/beta_margin_std': 4.593942642211914, 'beta_dpo/beta_margin_grad_mean': -0.31341421604156494, 'beta_dpo/beta_margin_grad_std': 0.25546589493751526, 'epoch': 0.09} 9%|██████████▎ | 61/681 [02:33<25:47, 2.50s/it] 9%|██████████▍ | 62/681 [02:35<25:48, 2.50s/it] {'loss': 0.8303, 'grad_norm': 53.500511169433594, 'learning_rate': 4.420289855072464e-07, 'beta_dpo/gap_mean': 22.36334228515625, 'beta_dpo/gap_std': 22.1772403717041, 'beta_dpo/beta_used_raw': -0.009761884808540344, 'beta_dpo/beta_used': 0.055423423647880554, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0460290908813477, 'logits/rejected': -3.0380520820617676, 'beta_dpo/beta': 0.055423423647880554, 'beta_dpo/loss_margin_mean': 22.912548065185547, 'beta_dpo/beta_margin_mean': 1.2362252473831177, 'beta_dpo/beta_margin_std': 1.8517836332321167, 'beta_dpo/beta_margin_grad_mean': -0.3313938081264496, 'beta_dpo/beta_margin_grad_std': 0.21602469682693481, 'epoch': 0.09} 9%|██████████▍ | 62/681 [02:35<25:48, 2.50s/it] 9%|██████████▋ | 63/681 [02:38<25:32, 2.48s/it] {'loss': 1.0376, 'grad_norm': 58.18537521362305, 'learning_rate': 4.4927536231884053e-07, 'beta_dpo/gap_mean': 23.183303833007812, 'beta_dpo/gap_std': 23.588115692138672, 'beta_dpo/beta_used_raw': 0.017231859266757965, 'beta_dpo/beta_used': 0.027289319783449173, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0674667358398438, 'logits/rejected': -3.0683016777038574, 'beta_dpo/beta': 0.027289319783449173, 'beta_dpo/loss_margin_mean': 27.170320510864258, 'beta_dpo/beta_margin_mean': 0.7003328204154968, 'beta_dpo/beta_margin_std': 1.3609882593154907, 'beta_dpo/beta_margin_grad_mean': -0.39005380868911743, 'beta_dpo/beta_margin_grad_std': 0.17873267829418182, 'epoch': 0.09} 9%|██████████▋ | 63/681 [02:38<25:32, 2.48s/it] 9%|██████████▊ | 64/681 [02:40<25:17, 2.46s/it] {'loss': 1.3655, 'grad_norm': 3.092960834503174, 'learning_rate': 4.5652173913043473e-07, 'beta_dpo/gap_mean': 24.51315689086914, 'beta_dpo/gap_std': 25.101673126220703, 'beta_dpo/beta_used_raw': -0.11208631843328476, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0635104179382324, 'logits/rejected': -3.0607059001922607, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 29.822711944580078, 'beta_dpo/beta_margin_mean': 0.029822714626789093, 'beta_dpo/beta_margin_std': 0.030163373798131943, 'beta_dpo/beta_margin_grad_mean': -0.4925476312637329, 'beta_dpo/beta_margin_grad_std': 0.00753110833466053, 'epoch': 0.09} 9%|██████████▊ | 64/681 [02:40<25:17, 2.46s/it] 10%|██████████▉ | 65/681 [02:43<25:26, 2.48s/it] {'loss': 0.8591, 'grad_norm': 288.397705078125, 'learning_rate': 4.63768115942029e-07, 'beta_dpo/gap_mean': 25.80198097229004, 'beta_dpo/gap_std': 26.017024993896484, 'beta_dpo/beta_used_raw': 0.18820346891880035, 'beta_dpo/beta_used': 0.2129736691713333, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.04362416267395, 'logits/rejected': -3.0484161376953125, 'beta_dpo/beta': 0.2129736691713333, 'beta_dpo/loss_margin_mean': 32.39765167236328, 'beta_dpo/beta_margin_mean': 7.6759843826293945, 'beta_dpo/beta_margin_std': 12.091070175170898, 'beta_dpo/beta_margin_grad_mean': -0.2961460053920746, 'beta_dpo/beta_margin_grad_std': 0.2763463854789734, 'epoch': 0.1} 10%|██████████▉ | 65/681 [02:43<25:26, 2.48s/it] 10%|███████████▏ | 66/681 [02:45<25:31, 2.49s/it] {'loss': 1.0385, 'grad_norm': 32.42694091796875, 'learning_rate': 4.7101449275362313e-07, 'beta_dpo/gap_mean': 26.47984504699707, 'beta_dpo/gap_std': 27.09063148498535, 'beta_dpo/beta_used_raw': -0.16835710406303406, 'beta_dpo/beta_used': 0.02076115272939205, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.029677391052246, 'logits/rejected': -3.0298986434936523, 'beta_dpo/beta': 0.02076115272939205, 'beta_dpo/loss_margin_mean': 27.242469787597656, 'beta_dpo/beta_margin_mean': 0.713555097579956, 'beta_dpo/beta_margin_std': 1.0996434688568115, 'beta_dpo/beta_margin_grad_mean': -0.37283429503440857, 'beta_dpo/beta_margin_grad_std': 0.1666054129600525, 'epoch': 0.1} 10%|███████████▏ | 66/681 [02:45<25:31, 2.49s/it] 10%|███████████▎ | 67/681 [02:47<25:04, 2.45s/it] {'loss': 1.366, 'grad_norm': 3.0101864337921143, 'learning_rate': 4.782608695652174e-07, 'beta_dpo/gap_mean': 25.91208267211914, 'beta_dpo/gap_std': 27.34076499938965, 'beta_dpo/beta_used_raw': -0.2273913323879242, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.986940860748291, 'logits/rejected': -2.976597547531128, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 25.488975524902344, 'beta_dpo/beta_margin_mean': 0.025488976389169693, 'beta_dpo/beta_margin_std': 0.02850145660340786, 'beta_dpo/beta_margin_grad_mean': -0.4936298727989197, 'beta_dpo/beta_margin_grad_std': 0.007120794616639614, 'epoch': 0.1} 10%|███████████▎ | 67/681 [02:48<25:04, 2.45s/it] 10%|███████████▍ | 68/681 [02:50<25:10, 2.46s/it] {'loss': 0.88, 'grad_norm': 293.31982421875, 'learning_rate': 4.855072463768116e-07, 'beta_dpo/gap_mean': 26.669593811035156, 'beta_dpo/gap_std': 27.67668914794922, 'beta_dpo/beta_used_raw': 0.058987803757190704, 'beta_dpo/beta_used': 0.14753571152687073, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0039591789245605, 'logits/rejected': -2.98842191696167, 'beta_dpo/beta': 0.14753571152687073, 'beta_dpo/loss_margin_mean': 31.38116455078125, 'beta_dpo/beta_margin_mean': 5.07893180847168, 'beta_dpo/beta_margin_std': 6.9394354820251465, 'beta_dpo/beta_margin_grad_mean': -0.2845630645751953, 'beta_dpo/beta_margin_grad_std': 0.2652169167995453, 'epoch': 0.1} 10%|███████████▍ | 68/681 [02:50<25:10, 2.46s/it] 10%|███████████▋ | 69/681 [02:53<25:30, 2.50s/it] {'loss': 0.8454, 'grad_norm': 702.201416015625, 'learning_rate': 4.927536231884058e-07, 'beta_dpo/gap_mean': 28.50058364868164, 'beta_dpo/gap_std': 28.632122039794922, 'beta_dpo/beta_used_raw': 0.10589639842510223, 'beta_dpo/beta_used': 0.2622404098510742, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.010495662689209, 'logits/rejected': -3.016476631164551, 'beta_dpo/beta': 0.2622404098510742, 'beta_dpo/loss_margin_mean': 36.14906311035156, 'beta_dpo/beta_margin_mean': 10.098217010498047, 'beta_dpo/beta_margin_std': 17.523113250732422, 'beta_dpo/beta_margin_grad_mean': -0.30106690526008606, 'beta_dpo/beta_margin_grad_std': 0.28205162286758423, 'epoch': 0.1} 10%|███████████▋ | 69/681 [02:53<25:30, 2.50s/it] 10%|███████████▊ | 70/681 [02:55<25:11, 2.47s/it] {'loss': 0.8527, 'grad_norm': 88.88278198242188, 'learning_rate': 5e-07, 'beta_dpo/gap_mean': 29.656864166259766, 'beta_dpo/gap_std': 29.526466369628906, 'beta_dpo/beta_used_raw': -0.013440538197755814, 'beta_dpo/beta_used': 0.05058491602540016, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9925642013549805, 'logits/rejected': -2.9963603019714355, 'beta_dpo/beta': 0.05058491602540016, 'beta_dpo/loss_margin_mean': 34.522823333740234, 'beta_dpo/beta_margin_mean': 1.6962952613830566, 'beta_dpo/beta_margin_std': 2.6675915718078613, 'beta_dpo/beta_margin_grad_mean': -0.314628541469574, 'beta_dpo/beta_margin_grad_std': 0.21072426438331604, 'epoch': 0.1} 10%|███████████▊ | 70/681 [02:55<25:11, 2.47s/it] 10%|███████████▉ | 71/681 [02:58<25:31, 2.51s/it] {'loss': 0.8371, 'grad_norm': 84.22056579589844, 'learning_rate': 4.999967061337492e-07, 'beta_dpo/gap_mean': 31.732118606567383, 'beta_dpo/gap_std': 30.914306640625, 'beta_dpo/beta_used_raw': 0.009463444352149963, 'beta_dpo/beta_used': 0.0875883623957634, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9915552139282227, 'logits/rejected': -3.0017127990722656, 'beta_dpo/beta': 0.0875883623957634, 'beta_dpo/loss_margin_mean': 40.439083099365234, 'beta_dpo/beta_margin_mean': 4.192900657653809, 'beta_dpo/beta_margin_std': 6.242672443389893, 'beta_dpo/beta_margin_grad_mean': -0.2784726917743683, 'beta_dpo/beta_margin_grad_std': 0.24897883832454681, 'epoch': 0.1} 10%|███████████▉ | 71/681 [02:58<25:31, 2.51s/it] 11%|████████████▏ | 72/681 [03:00<25:20, 2.50s/it] {'loss': 0.6462, 'grad_norm': 129.3617401123047, 'learning_rate': 4.999868246217933e-07, 'beta_dpo/gap_mean': 33.012107849121094, 'beta_dpo/gap_std': 31.48851776123047, 'beta_dpo/beta_used_raw': 0.08755672723054886, 'beta_dpo/beta_used': 0.08755672723054886, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.0176591873168945, 'logits/rejected': -3.012908935546875, 'beta_dpo/beta': 0.08755672723054886, 'beta_dpo/loss_margin_mean': 40.631866455078125, 'beta_dpo/beta_margin_mean': 3.4542064666748047, 'beta_dpo/beta_margin_std': 4.351135730743408, 'beta_dpo/beta_margin_grad_mean': -0.22227872908115387, 'beta_dpo/beta_margin_grad_std': 0.20551539957523346, 'epoch': 0.11} 11%|████████████▏ | 72/681 [03:00<25:20, 2.50s/it] 11%|████████████▎ | 73/681 [03:03<26:09, 2.58s/it] {'loss': 1.0018, 'grad_norm': 72.28749084472656, 'learning_rate': 4.999703557245192e-07, 'beta_dpo/gap_mean': 34.28472137451172, 'beta_dpo/gap_std': 33.075035095214844, 'beta_dpo/beta_used_raw': 0.02235252410173416, 'beta_dpo/beta_used': 0.03140610456466675, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -3.002220630645752, 'logits/rejected': -3.003396987915039, 'beta_dpo/beta': 0.03140610456466675, 'beta_dpo/loss_margin_mean': 39.549720764160156, 'beta_dpo/beta_margin_mean': 1.2976723909378052, 'beta_dpo/beta_margin_std': 2.2271358966827393, 'beta_dpo/beta_margin_grad_mean': -0.3549874424934387, 'beta_dpo/beta_margin_grad_std': 0.22458156943321228, 'epoch': 0.11} 11%|████████████▎ | 73/681 [03:03<26:09, 2.58s/it] 11%|████████████▍ | 74/681 [03:05<25:30, 2.52s/it] {'loss': 0.2967, 'grad_norm': 242.15377807617188, 'learning_rate': 4.999472998758977e-07, 'beta_dpo/gap_mean': 36.407623291015625, 'beta_dpo/gap_std': 34.9376220703125, 'beta_dpo/beta_used_raw': 0.2684296667575836, 'beta_dpo/beta_used': 0.2684296667575836, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9633467197418213, 'logits/rejected': -2.9860920906066895, 'beta_dpo/beta': 0.2684296667575836, 'beta_dpo/loss_margin_mean': 47.21061325073242, 'beta_dpo/beta_margin_mean': 12.898226737976074, 'beta_dpo/beta_margin_std': 19.086931228637695, 'beta_dpo/beta_margin_grad_mean': -0.11206705868244171, 'beta_dpo/beta_margin_grad_std': 0.24692973494529724, 'epoch': 0.11} 11%|████████████▍ | 74/681 [03:05<25:30, 2.52s/it] 11%|████████████▋ | 75/681 [03:08<25:06, 2.49s/it] {'loss': 0.792, 'grad_norm': 59.50148391723633, 'learning_rate': 4.999176576834721e-07, 'beta_dpo/gap_mean': 38.04350280761719, 'beta_dpo/gap_std': 36.71551513671875, 'beta_dpo/beta_used_raw': -0.15860339999198914, 'beta_dpo/beta_used': 0.051932115107774734, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9508605003356934, 'logits/rejected': -2.9791858196258545, 'beta_dpo/beta': 0.051932115107774734, 'beta_dpo/loss_margin_mean': 46.44905471801758, 'beta_dpo/beta_margin_mean': 2.8386423587799072, 'beta_dpo/beta_margin_std': 4.261453151702881, 'beta_dpo/beta_margin_grad_mean': -0.2812905013561249, 'beta_dpo/beta_margin_grad_std': 0.22937369346618652, 'epoch': 0.11} 11%|████████████▋ | 75/681 [03:08<25:06, 2.49s/it] 11%|████████████▊ | 76/681 [03:10<25:02, 2.48s/it] {'loss': 0.8447, 'grad_norm': 67.32833099365234, 'learning_rate': 4.998814299283415e-07, 'beta_dpo/gap_mean': 38.48039245605469, 'beta_dpo/gap_std': 36.71884536743164, 'beta_dpo/beta_used_raw': -0.04499024525284767, 'beta_dpo/beta_used': 0.0431789867579937, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9746932983398438, 'logits/rejected': -2.968583822250366, 'beta_dpo/beta': 0.0431789867579937, 'beta_dpo/loss_margin_mean': 35.94696044921875, 'beta_dpo/beta_margin_mean': 1.565407156944275, 'beta_dpo/beta_margin_std': 2.5664196014404297, 'beta_dpo/beta_margin_grad_mean': -0.32823190093040466, 'beta_dpo/beta_margin_grad_std': 0.24035446345806122, 'epoch': 0.11} 11%|████████████▊ | 76/681 [03:10<25:02, 2.48s/it] 11%|█████████████ | 77/681 [03:12<24:36, 2.45s/it] {'loss': 0.1321, 'grad_norm': 293.4575500488281, 'learning_rate': 4.998386175651409e-07, 'beta_dpo/gap_mean': 39.179561614990234, 'beta_dpo/gap_std': 37.16301727294922, 'beta_dpo/beta_used_raw': 0.34446391463279724, 'beta_dpo/beta_used': 0.34446391463279724, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.947664499282837, 'logits/rejected': -2.959230899810791, 'beta_dpo/beta': 0.34446391463279724, 'beta_dpo/loss_margin_mean': 42.844810485839844, 'beta_dpo/beta_margin_mean': 14.092086791992188, 'beta_dpo/beta_margin_std': 18.515459060668945, 'beta_dpo/beta_margin_grad_mean': -0.08970285952091217, 'beta_dpo/beta_margin_grad_std': 0.22384564578533173, 'epoch': 0.11} 11%|█████████████ | 77/681 [03:12<24:36, 2.45s/it] 11%|█████████████▏ | 78/681 [03:15<24:51, 2.47s/it] {'loss': 1.3538, 'grad_norm': 3.816556692123413, 'learning_rate': 4.997892217220159e-07, 'beta_dpo/gap_mean': 38.626731872558594, 'beta_dpo/gap_std': 37.65977478027344, 'beta_dpo/beta_used_raw': -0.23828990757465363, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9786555767059326, 'logits/rejected': -2.973895788192749, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 35.28891372680664, 'beta_dpo/beta_margin_mean': 0.035288915038108826, 'beta_dpo/beta_margin_std': 0.035820893943309784, 'beta_dpo/beta_margin_grad_mean': -0.4911826550960541, 'beta_dpo/beta_margin_grad_std': 0.008943051099777222, 'epoch': 0.11} 11%|█████████████▏ | 78/681 [03:15<24:51, 2.47s/it] 12%|█████████████▎ | 79/681 [03:18<25:00, 2.49s/it] {'loss': 1.3528, 'grad_norm': 3.6560094356536865, 'learning_rate': 4.997332437005931e-07, 'beta_dpo/gap_mean': 39.299583435058594, 'beta_dpo/gap_std': 37.97666931152344, 'beta_dpo/beta_used_raw': -0.21949611604213715, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9516005516052246, 'logits/rejected': -2.9511117935180664, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 44.3237190246582, 'beta_dpo/beta_margin_mean': 0.044323720037937164, 'beta_dpo/beta_margin_std': 0.04024270921945572, 'beta_dpo/beta_margin_grad_mean': -0.48892611265182495, 'beta_dpo/beta_margin_grad_std': 0.010049103759229183, 'epoch': 0.12} 12%|█████████████▎ | 79/681 [03:18<25:00, 2.49s/it] 12%|█████████████▌ | 80/681 [03:20<24:59, 2.50s/it] {'loss': 1.3566, 'grad_norm': 3.7161951065063477, 'learning_rate': 4.996706849759452e-07, 'beta_dpo/gap_mean': 40.222755432128906, 'beta_dpo/gap_std': 39.75575256347656, 'beta_dpo/beta_used_raw': -0.5071743726730347, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.991058826446533, 'logits/rejected': -2.986891269683838, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 42.48876953125, 'beta_dpo/beta_margin_mean': 0.04248877242207527, 'beta_dpo/beta_margin_std': 0.049461763352155685, 'beta_dpo/beta_margin_grad_mean': -0.4893885552883148, 'beta_dpo/beta_margin_grad_std': 0.012339146807789803, 'epoch': 0.12} 12%|█████████████▌ | 80/681 [03:20<24:59, 2.50s/it] 12%|█████████████▋ | 81/681 [03:23<25:33, 2.56s/it] {'loss': 1.1115, 'grad_norm': 29.591167449951172, 'learning_rate': 4.996015471965529e-07, 'beta_dpo/gap_mean': 41.52234649658203, 'beta_dpo/gap_std': 41.37035369873047, 'beta_dpo/beta_used_raw': -0.16323187947273254, 'beta_dpo/beta_used': 0.00884567853063345, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9471867084503174, 'logits/rejected': -2.958087921142578, 'beta_dpo/beta': 0.00884567853063345, 'beta_dpo/loss_margin_mean': 49.2286491394043, 'beta_dpo/beta_margin_mean': 0.4591708183288574, 'beta_dpo/beta_margin_std': 0.710827648639679, 'beta_dpo/beta_margin_grad_mean': -0.40446242690086365, 'beta_dpo/beta_margin_grad_std': 0.1263885498046875, 'epoch': 0.12} 12%|█████████████▋ | 81/681 [03:23<25:33, 2.56s/it] 12%|█████████████▊ | 82/681 [03:25<25:14, 2.53s/it] {'loss': 1.6144, 'grad_norm': 565.0650634765625, 'learning_rate': 4.995258321842611e-07, 'beta_dpo/gap_mean': 41.84193420410156, 'beta_dpo/gap_std': 42.8049201965332, 'beta_dpo/beta_used_raw': 0.1494421511888504, 'beta_dpo/beta_used': 0.17800916731357574, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.938267230987549, 'logits/rejected': -2.9391956329345703, 'beta_dpo/beta': 0.17800916731357574, 'beta_dpo/loss_margin_mean': 45.061553955078125, 'beta_dpo/beta_margin_mean': 6.430704116821289, 'beta_dpo/beta_margin_std': 13.450794219970703, 'beta_dpo/beta_margin_grad_mean': -0.3327975273132324, 'beta_dpo/beta_margin_grad_std': 0.30031806230545044, 'epoch': 0.12} 12%|█████████████▊ | 82/681 [03:25<25:14, 2.53s/it] 12%|██████████████ | 83/681 [03:27<24:36, 2.47s/it] {'loss': 1.123, 'grad_norm': 307.31402587890625, 'learning_rate': 4.994435419342304e-07, 'beta_dpo/gap_mean': 43.76371765136719, 'beta_dpo/gap_std': 42.843292236328125, 'beta_dpo/beta_used_raw': 0.03422471880912781, 'beta_dpo/beta_used': 0.18749435245990753, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9267525672912598, 'logits/rejected': -2.9482855796813965, 'beta_dpo/beta': 0.18749435245990753, 'beta_dpo/loss_margin_mean': 50.59626770019531, 'beta_dpo/beta_margin_mean': 9.913958549499512, 'beta_dpo/beta_margin_std': 13.994511604309082, 'beta_dpo/beta_margin_grad_mean': -0.271941602230072, 'beta_dpo/beta_margin_grad_std': 0.2540948987007141, 'epoch': 0.12} 12%|██████████████ | 83/681 [03:28<24:36, 2.47s/it] 12%|██████████████▏ | 84/681 [03:30<24:51, 2.50s/it] {'loss': 0.6775, 'grad_norm': 2.4324653148651123, 'learning_rate': 4.993546786148857e-07, 'beta_dpo/gap_mean': 44.48904800415039, 'beta_dpo/gap_std': 41.942283630371094, 'beta_dpo/beta_used_raw': 0.12223160266876221, 'beta_dpo/beta_used': 0.43998458981513977, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9470911026000977, 'logits/rejected': -2.941443920135498, 'beta_dpo/beta': 0.43998458981513977, 'beta_dpo/loss_margin_mean': 44.652137756347656, 'beta_dpo/beta_margin_mean': 23.472091674804688, 'beta_dpo/beta_margin_std': 32.818458557128906, 'beta_dpo/beta_margin_grad_mean': -0.26115646958351135, 'beta_dpo/beta_margin_grad_std': 0.2607704699039459, 'epoch': 0.12} 12%|██████████████▏ | 84/681 [03:30<24:51, 2.50s/it] 12%|██████████████▎ | 85/681 [03:33<24:57, 2.51s/it] {'loss': 1.3481, 'grad_norm': 4.367675304412842, 'learning_rate': 4.992592445678582e-07, 'beta_dpo/gap_mean': 43.268497467041016, 'beta_dpo/gap_std': 41.009002685546875, 'beta_dpo/beta_used_raw': -0.16602811217308044, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.961709976196289, 'logits/rejected': -2.935671806335449, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 39.39983367919922, 'beta_dpo/beta_margin_mean': 0.03939983248710632, 'beta_dpo/beta_margin_std': 0.03925201669335365, 'beta_dpo/beta_margin_grad_mean': -0.49015551805496216, 'beta_dpo/beta_margin_grad_std': 0.009804553352296352, 'epoch': 0.12} 12%|██████████████▎ | 85/681 [03:33<24:57, 2.51s/it] 13%|██████████████▌ | 86/681 [03:35<25:19, 2.55s/it] {'loss': 1.3568, 'grad_norm': 3.6461679935455322, 'learning_rate': 4.991572423079235e-07, 'beta_dpo/gap_mean': 43.424720764160156, 'beta_dpo/gap_std': 43.841766357421875, 'beta_dpo/beta_used_raw': -0.7040857076644897, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.920724391937256, 'logits/rejected': -2.9186758995056152, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 45.32717514038086, 'beta_dpo/beta_margin_mean': 0.04532717540860176, 'beta_dpo/beta_margin_std': 0.06287750601768494, 'beta_dpo/beta_margin_grad_mean': -0.4886876940727234, 'beta_dpo/beta_margin_grad_std': 0.01566956751048565, 'epoch': 0.13} 13%|██████████████▌ | 86/681 [03:35<25:19, 2.55s/it] 13%|██████████████▋ | 87/681 [03:38<24:59, 2.52s/it] {'loss': 0.7438, 'grad_norm': 171.111083984375, 'learning_rate': 4.990486745229364e-07, 'beta_dpo/gap_mean': 44.674156188964844, 'beta_dpo/gap_std': 46.15048599243164, 'beta_dpo/beta_used_raw': 0.04776458814740181, 'beta_dpo/beta_used': 0.04776458814740181, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9184794425964355, 'logits/rejected': -2.9294486045837402, 'beta_dpo/beta': 0.04776458814740181, 'beta_dpo/loss_margin_mean': 51.3042106628418, 'beta_dpo/beta_margin_mean': 2.473987340927124, 'beta_dpo/beta_margin_std': 3.041849374771118, 'beta_dpo/beta_margin_grad_mean': -0.23744255304336548, 'beta_dpo/beta_margin_grad_std': 0.22597795724868774, 'epoch': 0.13} 13%|██████████████▋ | 87/681 [03:38<24:59, 2.52s/it] 13%|██████████████▊ | 88/681 [03:40<25:02, 2.53s/it] {'loss': 0.7024, 'grad_norm': 559.2757568359375, 'learning_rate': 4.989335440737586e-07, 'beta_dpo/gap_mean': 47.820945739746094, 'beta_dpo/gap_std': 48.210693359375, 'beta_dpo/beta_used_raw': 0.2957174479961395, 'beta_dpo/beta_used': 0.2957174479961395, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9339442253112793, 'logits/rejected': -2.943288564682007, 'beta_dpo/beta': 0.2957174479961395, 'beta_dpo/loss_margin_mean': 62.004920959472656, 'beta_dpo/beta_margin_mean': 18.622495651245117, 'beta_dpo/beta_margin_std': 17.863021850585938, 'beta_dpo/beta_margin_grad_mean': -0.12127989530563354, 'beta_dpo/beta_margin_grad_std': 0.29749196767807007, 'epoch': 0.13} 13%|██████████████▊ | 88/681 [03:40<25:02, 2.53s/it] 13%|███████████████ | 89/681 [03:43<24:37, 2.50s/it] {'loss': 1.3484, 'grad_norm': 4.085449695587158, 'learning_rate': 4.988118539941847e-07, 'beta_dpo/gap_mean': 48.497169494628906, 'beta_dpo/gap_std': 49.19569396972656, 'beta_dpo/beta_used_raw': -0.4985317587852478, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.910324811935425, 'logits/rejected': -2.9079842567443848, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 50.29499435424805, 'beta_dpo/beta_margin_mean': 0.05029499903321266, 'beta_dpo/beta_margin_std': 0.053264521062374115, 'beta_dpo/beta_margin_grad_mean': -0.4874421954154968, 'beta_dpo/beta_margin_grad_std': 0.013273374177515507, 'epoch': 0.13} 13%|███████████████ | 89/681 [03:43<24:37, 2.50s/it] 13%|███████████████▏ | 90/681 [03:45<24:17, 2.47s/it] {'loss': 1.3397, 'grad_norm': 5.08858585357666, 'learning_rate': 4.986836074908615e-07, 'beta_dpo/gap_mean': 50.64426040649414, 'beta_dpo/gap_std': 53.176513671875, 'beta_dpo/beta_used_raw': -0.08338849246501923, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.881624221801758, 'logits/rejected': -2.917466878890991, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 67.89280700683594, 'beta_dpo/beta_margin_mean': 0.06789281219244003, 'beta_dpo/beta_margin_std': 0.07855159044265747, 'beta_dpo/beta_margin_grad_mean': -0.4830739498138428, 'beta_dpo/beta_margin_grad_std': 0.019520951434969902, 'epoch': 0.13} 13%|███████████████▏ | 90/681 [03:45<24:17, 2.47s/it] 13%|███████████████▎ | 91/681 [03:48<24:10, 2.46s/it] {'loss': 0.7869, 'grad_norm': 93.58074951171875, 'learning_rate': 4.985488079432037e-07, 'beta_dpo/gap_mean': 52.84674835205078, 'beta_dpo/gap_std': 54.52159118652344, 'beta_dpo/beta_used_raw': -0.17408108711242676, 'beta_dpo/beta_used': 0.046673670411109924, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.899129629135132, 'logits/rejected': -2.9001574516296387, 'beta_dpo/beta': 0.046673670411109924, 'beta_dpo/loss_margin_mean': 56.735435485839844, 'beta_dpo/beta_margin_mean': 2.8846089839935303, 'beta_dpo/beta_margin_std': 4.184475898742676, 'beta_dpo/beta_margin_grad_mean': -0.28842246532440186, 'beta_dpo/beta_margin_grad_std': 0.22475126385688782, 'epoch': 0.13} 13%|███████████████▎ | 91/681 [03:48<24:10, 2.46s/it] 14%|███████████████▌ | 92/681 [03:50<24:08, 2.46s/it] {'loss': 1.3421, 'grad_norm': 4.548574924468994, 'learning_rate': 4.984074589033043e-07, 'beta_dpo/gap_mean': 53.06073760986328, 'beta_dpo/gap_std': 55.06708526611328, 'beta_dpo/beta_used_raw': -0.3833653926849365, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.8663196563720703, 'logits/rejected': -2.865586757659912, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 51.36935043334961, 'beta_dpo/beta_margin_mean': 0.051369354128837585, 'beta_dpo/beta_margin_std': 0.059110358357429504, 'beta_dpo/beta_margin_grad_mean': -0.4871750771999359, 'beta_dpo/beta_margin_grad_std': 0.014737357385456562, 'epoch': 0.14} 14%|███████████████▌ | 92/681 [03:50<24:08, 2.46s/it] 14%|███████████████▋ | 93/681 [03:52<23:24, 2.39s/it] {'loss': 0.8654, 'grad_norm': 138.0321807861328, 'learning_rate': 4.982595640958425e-07, 'beta_dpo/gap_mean': 53.00493240356445, 'beta_dpo/gap_std': 55.078792572021484, 'beta_dpo/beta_used_raw': -0.0553596131503582, 'beta_dpo/beta_used': 0.0362042672932148, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.8780605792999268, 'logits/rejected': -2.865324020385742, 'beta_dpo/beta': 0.0362042672932148, 'beta_dpo/loss_margin_mean': 55.34242630004883, 'beta_dpo/beta_margin_mean': 1.77645742893219, 'beta_dpo/beta_margin_std': 2.907167911529541, 'beta_dpo/beta_margin_grad_mean': -0.33124664425849915, 'beta_dpo/beta_margin_grad_std': 0.2518288195133209, 'epoch': 0.14} 14%|███████████████▋ | 93/681 [03:52<23:24, 2.39s/it] 14%|███████████████▊ | 94/681 [03:55<24:03, 2.46s/it] {'loss': 0.8078, 'grad_norm': 414.5119934082031, 'learning_rate': 4.98105127417984e-07, 'beta_dpo/gap_mean': 55.642555236816406, 'beta_dpo/gap_std': 57.18549346923828, 'beta_dpo/beta_used_raw': -0.06984854489564896, 'beta_dpo/beta_used': 0.09114255011081696, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.9009084701538086, 'logits/rejected': -2.900761127471924, 'beta_dpo/beta': 0.09114255011081696, 'beta_dpo/loss_margin_mean': 68.45297241210938, 'beta_dpo/beta_margin_mean': 6.2431559562683105, 'beta_dpo/beta_margin_std': 10.020861625671387, 'beta_dpo/beta_margin_grad_mean': -0.289016455411911, 'beta_dpo/beta_margin_grad_std': 0.25749266147613525, 'epoch': 0.14} 14%|███████████████▊ | 94/681 [03:55<24:03, 2.46s/it] 14%|████████████████ | 95/681 [03:57<24:17, 2.49s/it] {'loss': 1.344, 'grad_norm': 4.450385570526123, 'learning_rate': 4.979441529392784e-07, 'beta_dpo/gap_mean': 57.458091735839844, 'beta_dpo/gap_std': 58.81836700439453, 'beta_dpo/beta_used_raw': -0.7674299478530884, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.855530261993408, 'logits/rejected': -2.8571863174438477, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 59.51054763793945, 'beta_dpo/beta_margin_mean': 0.059510547667741776, 'beta_dpo/beta_margin_std': 0.061817847192287445, 'beta_dpo/beta_margin_grad_mean': -0.4851512312889099, 'beta_dpo/beta_margin_grad_std': 0.015362189151346684, 'epoch': 0.14} 14%|████████████████ | 95/681 [03:57<24:17, 2.49s/it] 14%|████████████████▏ | 96/681 [04:00<24:22, 2.50s/it] {'loss': 1.3426, 'grad_norm': 4.7258100509643555, 'learning_rate': 4.977766449015534e-07, 'beta_dpo/gap_mean': 58.48717498779297, 'beta_dpo/gap_std': 60.73028564453125, 'beta_dpo/beta_used_raw': -0.7220409512519836, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.904493570327759, 'logits/rejected': -2.9026832580566406, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 65.3349380493164, 'beta_dpo/beta_margin_mean': 0.06533493846654892, 'beta_dpo/beta_margin_std': 0.07974996417760849, 'beta_dpo/beta_margin_grad_mean': -0.4837089478969574, 'beta_dpo/beta_margin_grad_std': 0.01984335109591484, 'epoch': 0.14} 14%|████████████████▏ | 96/681 [04:00<24:22, 2.50s/it] 14%|████████████████▍ | 97/681 [04:03<25:02, 2.57s/it] {'loss': 0.9284, 'grad_norm': 179.77455139160156, 'learning_rate': 4.976026077188012e-07, 'beta_dpo/gap_mean': 59.17014694213867, 'beta_dpo/gap_std': 62.05863952636719, 'beta_dpo/beta_used_raw': -0.17043042182922363, 'beta_dpo/beta_used': 0.11098214983940125, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.905517578125, 'logits/rejected': -2.897564649581909, 'beta_dpo/beta': 0.11098214983940125, 'beta_dpo/loss_margin_mean': 67.58939361572266, 'beta_dpo/beta_margin_mean': 8.650201797485352, 'beta_dpo/beta_margin_std': 13.248647689819336, 'beta_dpo/beta_margin_grad_mean': -0.2807328701019287, 'beta_dpo/beta_margin_grad_std': 0.2636745870113373, 'epoch': 0.14} 14%|████████████████▍ | 97/681 [04:03<25:02, 2.57s/it] 14%|████████████████▌ | 98/681 [04:05<24:33, 2.53s/it] {'loss': 1.6259, 'grad_norm': 1460.3056640625, 'learning_rate': 4.974220459770639e-07, 'beta_dpo/gap_mean': 60.218910217285156, 'beta_dpo/gap_std': 62.831886291503906, 'beta_dpo/beta_used_raw': 0.49735867977142334, 'beta_dpo/beta_used': 0.49735867977142334, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.874201774597168, 'logits/rejected': -2.884645462036133, 'beta_dpo/beta': 0.49735867977142334, 'beta_dpo/loss_margin_mean': 62.66773223876953, 'beta_dpo/beta_margin_mean': 29.118545532226562, 'beta_dpo/beta_margin_std': 44.36186599731445, 'beta_dpo/beta_margin_grad_mean': -0.13786101341247559, 'beta_dpo/beta_margin_grad_std': 0.32877954840660095, 'epoch': 0.14} 14%|████████████████▌ | 98/681 [04:05<24:33, 2.53s/it] 15%|████████████████▋ | 99/681 [04:07<24:00, 2.48s/it] {'loss': 0.4593, 'grad_norm': 384.5785217285156, 'learning_rate': 4.972349644343108e-07, 'beta_dpo/gap_mean': 63.37742614746094, 'beta_dpo/gap_std': 64.15032958984375, 'beta_dpo/beta_used_raw': 0.27869686484336853, 'beta_dpo/beta_used': 0.27869686484336853, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.845553398132324, 'logits/rejected': -2.8533787727355957, 'beta_dpo/beta': 0.27869686484336853, 'beta_dpo/loss_margin_mean': 77.13097381591797, 'beta_dpo/beta_margin_mean': 21.852785110473633, 'beta_dpo/beta_margin_std': 22.130836486816406, 'beta_dpo/beta_margin_grad_mean': -0.07528817653656006, 'beta_dpo/beta_margin_grad_std': 0.24065373837947845, 'epoch': 0.15} 15%|████████████████▋ | 99/681 [04:07<24:00, 2.48s/it] 15%|████████████████▋ | 100/681 [04:10<23:27, 2.42s/it] {'loss': 1.3346, 'grad_norm': 5.179396629333496, 'learning_rate': 4.970413680203148e-07, 'beta_dpo/gap_mean': 61.136131286621094, 'beta_dpo/gap_std': 64.02367401123047, 'beta_dpo/beta_used_raw': -0.3977210819721222, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.8722152709960938, 'logits/rejected': -2.8694002628326416, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 47.13050842285156, 'beta_dpo/beta_margin_mean': 0.047130510210990906, 'beta_dpo/beta_margin_std': 0.06143619865179062, 'beta_dpo/beta_margin_grad_mean': -0.4882340431213379, 'beta_dpo/beta_margin_grad_std': 0.015319556929171085, 'epoch': 0.15} 15%|████████████████▋ | 100/681 [04:10<23:27, 2.42s/it][INFO|trainer.py:4307] 2026-04-18 06:09:54,328 >> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-18 06:09:54,328 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-18 06:09:54,328 >> Batch size = 8 0%| | 0/73 [00:00> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-18 06:14:38,856 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-18 06:14:38,856 >> Batch size = 8 0%| | 0/73 [00:00> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-200 [INFO|configuration_utils.py:419] 2026-04-18 06:15:30,797 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-200/config.json [INFO|configuration_utils.py:911] 2026-04-18 06:15:30,809 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-200/generation_config.json [INFO|modeling_utils.py:3580] 2026-04-18 06:16:09,584 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-200/model.safetensors.index.json. [INFO|tokenization_utils_base.py:2510] 2026-04-18 06:16:09,594 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-200/tokenizer_config.json [INFO|tokenization_utils_base.py:2519] 2026-04-18 06:16:09,598 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-200/special_tokens_map.json 30%|████████████████████████████████▊ | 201/681 [13:02<10:09:36, 76.20s/it] {'loss': 1.2403, 'grad_norm': 14.165757179260254, 'learning_rate': 4.455721242469372e-07, 'beta_dpo/gap_mean': 175.1689453125, 'beta_dpo/gap_std': 188.05361938476562, 'beta_dpo/beta_used_raw': -1.0059877634048462, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3472347259521484, 'logits/rejected': -2.3590919971466064, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 178.3182373046875, 'beta_dpo/beta_margin_mean': 0.17831824719905853, 'beta_dpo/beta_margin_std': 0.21344201266765594, 'beta_dpo/beta_margin_grad_mean': -0.45610305666923523, 'beta_dpo/beta_margin_grad_std': 0.05195591226220131, 'epoch': 0.3} 30%|████████████████████████████████▊ | 201/681 [13:03<10:09:36, 76.20s/it] 30%|█████████████████████████████████▏ | 202/681 [13:05<7:11:33, 54.06s/it] {'loss': 2.1346, 'grad_norm': 2054.255126953125, 'learning_rate': 4.4477014363141755e-07, 'beta_dpo/gap_mean': 177.89190673828125, 'beta_dpo/gap_std': 191.12405395507812, 'beta_dpo/beta_used_raw': -1.1798573732376099, 'beta_dpo/beta_used': 0.16364361345767975, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2713704109191895, 'logits/rejected': -2.2855608463287354, 'beta_dpo/beta': 0.16364361345767975, 'beta_dpo/loss_margin_mean': 183.90859985351562, 'beta_dpo/beta_margin_mean': 30.87427520751953, 'beta_dpo/beta_margin_std': 56.27296447753906, 'beta_dpo/beta_margin_grad_mean': -0.28894707560539246, 'beta_dpo/beta_margin_grad_std': 0.28408119082450867, 'epoch': 0.3} 30%|█████████████████████████████████▏ | 202/681 [13:05<7:11:33, 54.06s/it] 30%|█████████████████████████████████▍ | 203/681 [13:07<5:07:32, 38.60s/it] {'loss': 1.9171, 'grad_norm': 2106.6591796875, 'learning_rate': 4.439630306414758e-07, 'beta_dpo/gap_mean': 180.37454223632812, 'beta_dpo/gap_std': 190.1531524658203, 'beta_dpo/beta_used_raw': -0.3622090816497803, 'beta_dpo/beta_used': 0.19677655398845673, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2831432819366455, 'logits/rejected': -2.294023275375366, 'beta_dpo/beta': 0.19677655398845673, 'beta_dpo/loss_margin_mean': 188.07620239257812, 'beta_dpo/beta_margin_mean': 41.14481735229492, 'beta_dpo/beta_margin_std': 74.64393615722656, 'beta_dpo/beta_margin_grad_mean': -0.30733898282051086, 'beta_dpo/beta_margin_grad_std': 0.29845014214515686, 'epoch': 0.3} 30%|█████████████████████████████████▍ | 203/681 [13:07<5:07:32, 38.60s/it] 30%|█████████████████████████████████▌ | 204/681 [13:10<3:41:55, 27.91s/it] {'loss': 0.9138, 'grad_norm': 258.5797119140625, 'learning_rate': 4.431508065452897e-07, 'beta_dpo/gap_mean': 178.19146728515625, 'beta_dpo/gap_std': 192.77317810058594, 'beta_dpo/beta_used_raw': -0.3006288409233093, 'beta_dpo/beta_used': 0.037158019840717316, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3215532302856445, 'logits/rejected': -2.3090624809265137, 'beta_dpo/beta': 0.037158019840717316, 'beta_dpo/loss_margin_mean': 169.02920532226562, 'beta_dpo/beta_margin_mean': 6.227684497833252, 'beta_dpo/beta_margin_std': 10.331753730773926, 'beta_dpo/beta_margin_grad_mean': -0.2885894477367401, 'beta_dpo/beta_margin_grad_std': 0.28164830803871155, 'epoch': 0.3} 30%|█████████████████████████████████▌ | 204/681 [13:10<3:41:55, 27.91s/it] 30%|█████████████████████████████████▋ | 205/681 [13:13<2:40:56, 20.29s/it] {'loss': 7.2147, 'grad_norm': 6468.51318359375, 'learning_rate': 4.4233349274571974e-07, 'beta_dpo/gap_mean': 183.717529296875, 'beta_dpo/gap_std': 191.0102081298828, 'beta_dpo/beta_used_raw': 1.7806830406188965, 'beta_dpo/beta_used': 1.7806830406188965, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2471261024475098, 'logits/rejected': -2.2409067153930664, 'beta_dpo/beta': 1.7806830406188965, 'beta_dpo/loss_margin_mean': 210.12306213378906, 'beta_dpo/beta_margin_mean': 394.4228210449219, 'beta_dpo/beta_margin_std': 418.83489990234375, 'beta_dpo/beta_margin_grad_mean': -0.07821886986494064, 'beta_dpo/beta_margin_grad_std': 0.26834189891815186, 'epoch': 0.3} 30%|█████████████████████████████████▋ | 205/681 [13:13<2:40:56, 20.29s/it] 30%|█████████████████████████████████▉ | 206/681 [13:15<1:58:01, 14.91s/it] {'loss': 11.641, 'grad_norm': 7734.55419921875, 'learning_rate': 4.415111107797445e-07, 'beta_dpo/gap_mean': 186.09320068359375, 'beta_dpo/gap_std': 190.4658966064453, 'beta_dpo/beta_used_raw': 0.5732086300849915, 'beta_dpo/beta_used': 0.5732086300849915, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.221261501312256, 'logits/rejected': -2.21230411529541, 'beta_dpo/beta': 0.5732086300849915, 'beta_dpo/loss_margin_mean': 205.77224731445312, 'beta_dpo/beta_margin_mean': 113.2298583984375, 'beta_dpo/beta_margin_std': 139.0940704345703, 'beta_dpo/beta_margin_grad_mean': -0.14021912217140198, 'beta_dpo/beta_margin_grad_std': 0.3377551734447479, 'epoch': 0.3} 30%|█████████████████████████████████▉ | 206/681 [13:15<1:58:01, 14.91s/it] 30%|██████████████████████████████████ | 207/681 [13:18<1:28:28, 11.20s/it] {'loss': 1.2246, 'grad_norm': 13.226594924926758, 'learning_rate': 4.4068368231789365e-07, 'beta_dpo/gap_mean': 191.98245239257812, 'beta_dpo/gap_std': 192.3529052734375, 'beta_dpo/beta_used_raw': -0.9365102052688599, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2933871746063232, 'logits/rejected': -2.283078193664551, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 215.36416625976562, 'beta_dpo/beta_margin_mean': 0.21536417305469513, 'beta_dpo/beta_margin_std': 0.19422101974487305, 'beta_dpo/beta_margin_grad_mean': -0.44699206948280334, 'beta_dpo/beta_margin_grad_std': 0.04681679978966713, 'epoch': 0.3} 30%|██████████████████████████████████ | 207/681 [13:18<1:28:28, 11.20s/it] 31%|██████████████████████████████████▏ | 208/681 [13:20<1:07:43, 8.59s/it] {'loss': 5.355, 'grad_norm': 5424.021484375, 'learning_rate': 4.398512291636768e-07, 'beta_dpo/gap_mean': 196.13491821289062, 'beta_dpo/gap_std': 191.99342346191406, 'beta_dpo/beta_used_raw': 0.8147650957107544, 'beta_dpo/beta_used': 0.8147650957107544, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.30989408493042, 'logits/rejected': -2.319075584411621, 'beta_dpo/beta': 0.8147650957107544, 'beta_dpo/loss_margin_mean': 211.70095825195312, 'beta_dpo/beta_margin_mean': 174.40185546875, 'beta_dpo/beta_margin_std': 171.0436248779297, 'beta_dpo/beta_margin_grad_mean': -0.09077098220586777, 'beta_dpo/beta_margin_grad_std': 0.28280818462371826, 'epoch': 0.31} 31%|██████████████████████████████████▏ | 208/681 [13:20<1:07:43, 8.59s/it] 31%|██████████████████████████████████▉ | 209/681 [13:23<53:01, 6.74s/it] {'loss': 1.2183, 'grad_norm': 12.918232917785645, 'learning_rate': 4.3901377325300857e-07, 'beta_dpo/gap_mean': 193.11166381835938, 'beta_dpo/gap_std': 188.4140625, 'beta_dpo/beta_used_raw': -0.6124803423881531, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2634706497192383, 'logits/rejected': -2.2491159439086914, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 174.792724609375, 'beta_dpo/beta_margin_mean': 0.17479273676872253, 'beta_dpo/beta_margin_std': 0.16900895535945892, 'beta_dpo/beta_margin_grad_mean': -0.45670098066329956, 'beta_dpo/beta_margin_grad_std': 0.041713543236255646, 'epoch': 0.31} 31%|██████████████████████████████████▉ | 209/681 [13:23<53:01, 6.74s/it] 31%|███████████████████████████████████▏ | 210/681 [13:25<42:48, 5.45s/it] {'loss': 1.229, 'grad_norm': 13.08560848236084, 'learning_rate': 4.381713366536311e-07, 'beta_dpo/gap_mean': 191.64120483398438, 'beta_dpo/gap_std': 186.86257934570312, 'beta_dpo/beta_used_raw': -1.2010389566421509, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2852721214294434, 'logits/rejected': -2.291003704071045, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 197.09432983398438, 'beta_dpo/beta_margin_mean': 0.19709433615207672, 'beta_dpo/beta_margin_std': 0.19505690038204193, 'beta_dpo/beta_margin_grad_mean': -0.45144328474998474, 'beta_dpo/beta_margin_grad_std': 0.04742031916975975, 'epoch': 0.31} 31%|███████████████████████████████████▏ | 210/681 [13:25<42:48, 5.45s/it] 31%|███████████████████████████████████▎ | 211/681 [13:28<35:43, 4.56s/it] {'loss': 1.2252, 'grad_norm': 14.05884075164795, 'learning_rate': 4.373239415645323e-07, 'beta_dpo/gap_mean': 192.7459716796875, 'beta_dpo/gap_std': 187.72750854492188, 'beta_dpo/beta_used_raw': -1.092252492904663, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2702016830444336, 'logits/rejected': -2.2552332878112793, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 195.3573760986328, 'beta_dpo/beta_margin_mean': 0.19535738229751587, 'beta_dpo/beta_margin_std': 0.1901794821023941, 'beta_dpo/beta_margin_grad_mean': -0.4518587291240692, 'beta_dpo/beta_margin_grad_std': 0.046131283044815063, 'epoch': 0.31} 31%|███████████████████████████████████▎ | 211/681 [13:28<35:43, 4.56s/it] 31%|███████████████████████████████████▍ | 212/681 [13:30<30:56, 3.96s/it] {'loss': 28.9501, 'grad_norm': 12608.0732421875, 'learning_rate': 4.3647161031536086e-07, 'beta_dpo/gap_mean': 207.16200256347656, 'beta_dpo/gap_std': 197.4569549560547, 'beta_dpo/beta_used_raw': 0.801848292350769, 'beta_dpo/beta_used': 0.8706912398338318, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2498250007629395, 'logits/rejected': -2.2473154067993164, 'beta_dpo/beta': 0.8706912398338318, 'beta_dpo/loss_margin_mean': 271.86383056640625, 'beta_dpo/beta_margin_mean': 268.76666259765625, 'beta_dpo/beta_margin_std': 430.33172607421875, 'beta_dpo/beta_margin_grad_mean': -0.26792824268341064, 'beta_dpo/beta_margin_grad_std': 0.27179181575775146, 'epoch': 0.31} 31%|███████████████████████████████████▍ | 212/681 [13:30<30:56, 3.96s/it] 31%|███████████████████████████████████▋ | 213/681 [13:33<27:30, 3.53s/it] {'loss': 2.4062, 'grad_norm': 3455.124267578125, 'learning_rate': 4.3561436536583774e-07, 'beta_dpo/gap_mean': 206.8724822998047, 'beta_dpo/gap_std': 205.34677124023438, 'beta_dpo/beta_used_raw': -1.3592239618301392, 'beta_dpo/beta_used': 0.3058314323425293, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2697277069091797, 'logits/rejected': -2.2519259452819824, 'beta_dpo/beta': 0.3058314323425293, 'beta_dpo/loss_margin_mean': 192.0325164794922, 'beta_dpo/beta_margin_mean': 63.14212417602539, 'beta_dpo/beta_margin_std': 126.7613754272461, 'beta_dpo/beta_margin_grad_mean': -0.30717548727989197, 'beta_dpo/beta_margin_grad_std': 0.29951781034469604, 'epoch': 0.31} 31%|███████████████████████████████████▋ | 213/681 [13:33<27:30, 3.53s/it] 31%|███████████████████████████████████▊ | 214/681 [13:35<25:09, 3.23s/it] {'loss': 1.1557, 'grad_norm': 883.9422607421875, 'learning_rate': 4.3475222930516473e-07, 'beta_dpo/gap_mean': 200.41761779785156, 'beta_dpo/gap_std': 208.61569213867188, 'beta_dpo/beta_used_raw': -0.6572102904319763, 'beta_dpo/beta_used': 0.16119687259197235, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2414190769195557, 'logits/rejected': -2.2436366081237793, 'beta_dpo/beta': 0.16119687259197235, 'beta_dpo/loss_margin_mean': 179.22732543945312, 'beta_dpo/beta_margin_mean': 32.903358459472656, 'beta_dpo/beta_margin_std': 53.89445877075195, 'beta_dpo/beta_margin_grad_mean': -0.30010974407196045, 'beta_dpo/beta_margin_grad_std': 0.28895044326782227, 'epoch': 0.31} 31%|███████████████████████████████████▊ | 214/681 [13:35<25:09, 3.23s/it] 32%|███████████████████████████████████▉ | 215/681 [13:38<23:29, 3.02s/it] {'loss': 0.6064, 'grad_norm': 9.2144136428833, 'learning_rate': 4.3388522485142885e-07, 'beta_dpo/gap_mean': 204.9820556640625, 'beta_dpo/gap_std': 203.79104614257812, 'beta_dpo/beta_used_raw': 0.24615520238876343, 'beta_dpo/beta_used': 0.7592843770980835, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2476065158843994, 'logits/rejected': -2.237344741821289, 'beta_dpo/beta': 0.7592843770980835, 'beta_dpo/loss_margin_mean': 223.06326293945312, 'beta_dpo/beta_margin_mean': 188.02699279785156, 'beta_dpo/beta_margin_std': 280.02783203125, 'beta_dpo/beta_margin_grad_mean': -0.2566761374473572, 'beta_dpo/beta_margin_grad_std': 0.26009878516197205, 'epoch': 0.32} 32%|███████████████████████████████████▉ | 215/681 [13:38<23:29, 3.02s/it] 32%|████████████████████████████████████▏ | 216/681 [13:41<22:42, 2.93s/it] {'loss': 2.7083, 'grad_norm': 4384.37841796875, 'learning_rate': 4.330133748510036e-07, 'beta_dpo/gap_mean': 202.26290893554688, 'beta_dpo/gap_std': 199.85479736328125, 'beta_dpo/beta_used_raw': -1.3396328687667847, 'beta_dpo/beta_used': 0.5309363007545471, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.247248888015747, 'logits/rejected': -2.2399697303771973, 'beta_dpo/beta': 0.5309363007545471, 'beta_dpo/loss_margin_mean': 198.3951873779297, 'beta_dpo/beta_margin_mean': 122.65149688720703, 'beta_dpo/beta_margin_std': 183.43125915527344, 'beta_dpo/beta_margin_grad_mean': -0.27667322754859924, 'beta_dpo/beta_margin_grad_std': 0.27724382281303406, 'epoch': 0.32} 32%|████████████████████████████████████▏ | 216/681 [13:41<22:42, 2.93s/it] 32%|████████████████████████████████████▎ | 217/681 [13:43<21:47, 2.82s/it] {'loss': 5.3863, 'grad_norm': 2745.58251953125, 'learning_rate': 4.3213670227794757e-07, 'beta_dpo/gap_mean': 211.07345581054688, 'beta_dpo/gap_std': 202.76217651367188, 'beta_dpo/beta_used_raw': -0.6432375311851501, 'beta_dpo/beta_used': 0.16512493789196014, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2299795150756836, 'logits/rejected': -2.2205770015716553, 'beta_dpo/beta': 0.16512493789196014, 'beta_dpo/loss_margin_mean': 249.60948181152344, 'beta_dpo/beta_margin_mean': 38.849979400634766, 'beta_dpo/beta_margin_std': 62.65520477294922, 'beta_dpo/beta_margin_grad_mean': -0.28015637397766113, 'beta_dpo/beta_margin_grad_std': 0.2829425632953644, 'epoch': 0.32} 32%|████████████████████████████████████▎ | 217/681 [13:43<21:47, 2.82s/it] 32%|████████████████████████████████████▍ | 218/681 [13:45<20:31, 2.66s/it] {'loss': 1.2226, 'grad_norm': 13.857083320617676, 'learning_rate': 4.3125523023339815e-07, 'beta_dpo/gap_mean': 211.20944213867188, 'beta_dpo/gap_std': 202.60032653808594, 'beta_dpo/beta_used_raw': -2.0722289085388184, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.257091999053955, 'logits/rejected': -2.25131893157959, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 200.2852783203125, 'beta_dpo/beta_margin_mean': 0.20028528571128845, 'beta_dpo/beta_margin_std': 0.2005169838666916, 'beta_dpo/beta_margin_grad_mean': -0.4506628215312958, 'beta_dpo/beta_margin_grad_std': 0.0487155057489872, 'epoch': 0.32} 32%|████████████████████████████████████▍ | 218/681 [13:45<20:31, 2.66s/it] 32%|████████████████████████████████████▋ | 219/681 [13:48<20:12, 2.63s/it] {'loss': 1.2297, 'grad_norm': 13.54708194732666, 'learning_rate': 4.303689819449636e-07, 'beta_dpo/gap_mean': 204.9937744140625, 'beta_dpo/gap_std': 208.16064453125, 'beta_dpo/beta_used_raw': -2.0623416900634766, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2969722747802734, 'logits/rejected': -2.297567367553711, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 189.06961059570312, 'beta_dpo/beta_margin_mean': 0.18906962871551514, 'beta_dpo/beta_margin_std': 0.25983956456184387, 'beta_dpo/beta_margin_grad_mean': -0.4540587365627289, 'beta_dpo/beta_margin_grad_std': 0.060583606362342834, 'epoch': 0.32} 32%|████████████████████████████████████▋ | 219/681 [13:48<20:12, 2.63s/it] 32%|████████████████████████████████████▊ | 220/681 [13:50<19:52, 2.59s/it] {'loss': 1.8538, 'grad_norm': 924.0001831054688, 'learning_rate': 4.2947798076611047e-07, 'beta_dpo/gap_mean': 204.47842407226562, 'beta_dpo/gap_std': 211.26084899902344, 'beta_dpo/beta_used_raw': -0.6565529108047485, 'beta_dpo/beta_used': 0.08469678461551666, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.285961151123047, 'logits/rejected': -2.2831854820251465, 'beta_dpo/beta': 0.08469678461551666, 'beta_dpo/loss_margin_mean': 193.17495727539062, 'beta_dpo/beta_margin_mean': 16.391508102416992, 'beta_dpo/beta_margin_std': 27.10245132446289, 'beta_dpo/beta_margin_grad_mean': -0.3169372081756592, 'beta_dpo/beta_margin_grad_std': 0.3025418817996979, 'epoch': 0.32} 32%|████████████████████████████████████▊ | 220/681 [13:50<19:52, 2.59s/it] 32%|████████████████████████████████████▉ | 221/681 [13:53<19:32, 2.55s/it] {'loss': 11.7807, 'grad_norm': 8449.5234375, 'learning_rate': 4.285822501755485e-07, 'beta_dpo/gap_mean': 214.00718688964844, 'beta_dpo/gap_std': 216.42800903320312, 'beta_dpo/beta_used_raw': 1.2386034727096558, 'beta_dpo/beta_used': 1.2386034727096558, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.263484239578247, 'logits/rejected': -2.2643935680389404, 'beta_dpo/beta': 1.2386034727096558, 'beta_dpo/loss_margin_mean': 272.1820373535156, 'beta_dpo/beta_margin_mean': 341.2391052246094, 'beta_dpo/beta_margin_std': 419.7342834472656, 'beta_dpo/beta_margin_grad_mean': -0.09203282743692398, 'beta_dpo/beta_margin_grad_std': 0.28641635179519653, 'epoch': 0.32} 32%|████████████████████████████████████▉ | 221/681 [13:53<19:32, 2.55s/it] 33%|█████████████████████████████████████▏ | 222/681 [13:55<19:17, 2.52s/it] {'loss': 1.2209, 'grad_norm': 13.580673217773438, 'learning_rate': 4.276818137766118e-07, 'beta_dpo/gap_mean': 215.2980499267578, 'beta_dpo/gap_std': 219.42501831054688, 'beta_dpo/beta_used_raw': -2.0969059467315674, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.291238784790039, 'logits/rejected': -2.294947624206543, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 218.08441162109375, 'beta_dpo/beta_margin_mean': 0.2180844247341156, 'beta_dpo/beta_margin_std': 0.2271333932876587, 'beta_dpo/beta_margin_grad_mean': -0.4465690553188324, 'beta_dpo/beta_margin_grad_std': 0.05451636388897896, 'epoch': 0.33} 33%|█████████████████████████████████████▏ | 222/681 [13:55<19:17, 2.52s/it] 33%|█████████████████████████████████████▎ | 223/681 [13:57<18:27, 2.42s/it] {'loss': 1.2099, 'grad_norm': 13.991449356079102, 'learning_rate': 4.2677669529663686e-07, 'beta_dpo/gap_mean': 216.46047973632812, 'beta_dpo/gap_std': 226.12139892578125, 'beta_dpo/beta_used_raw': -1.296399474143982, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.237861156463623, 'logits/rejected': -2.2309041023254395, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 206.69815063476562, 'beta_dpo/beta_margin_mean': 0.20669816434383392, 'beta_dpo/beta_margin_std': 0.2520856559276581, 'beta_dpo/beta_margin_grad_mean': -0.44978615641593933, 'beta_dpo/beta_margin_grad_std': 0.05852412432432175, 'epoch': 0.33} 33%|█████████████████████████████████████▎ | 223/681 [13:58<18:27, 2.42s/it] 33%|█████████████████████████████████████▍ | 224/681 [14:00<17:50, 2.34s/it] {'loss': 1.2091, 'grad_norm': 14.716062545776367, 'learning_rate': 4.2586691858633747e-07, 'beta_dpo/gap_mean': 214.611083984375, 'beta_dpo/gap_std': 228.7374267578125, 'beta_dpo/beta_used_raw': -1.2211096286773682, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2692012786865234, 'logits/rejected': -2.2605040073394775, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 205.87411499023438, 'beta_dpo/beta_margin_mean': 0.20587411522865295, 'beta_dpo/beta_margin_std': 0.24117736518383026, 'beta_dpo/beta_margin_grad_mean': -0.44978049397468567, 'beta_dpo/beta_margin_grad_std': 0.05648142471909523, 'epoch': 0.33} 33%|█████████████████████████████████████▍ | 224/681 [14:00<17:50, 2.34s/it] 33%|█████████████████████████████████████▋ | 225/681 [14:02<17:49, 2.34s/it] {'loss': 6.3533, 'grad_norm': 11778.642578125, 'learning_rate': 4.249525076191759e-07, 'beta_dpo/gap_mean': 217.59930419921875, 'beta_dpo/gap_std': 227.94232177734375, 'beta_dpo/beta_used_raw': -0.3526184558868408, 'beta_dpo/beta_used': 0.866571843624115, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.27790904045105, 'logits/rejected': -2.2668089866638184, 'beta_dpo/beta': 0.866571843624115, 'beta_dpo/loss_margin_mean': 245.15667724609375, 'beta_dpo/beta_margin_mean': 206.28526306152344, 'beta_dpo/beta_margin_std': 341.5513610839844, 'beta_dpo/beta_margin_grad_mean': -0.28175389766693115, 'beta_dpo/beta_margin_grad_std': 0.284710556268692, 'epoch': 0.33} 33%|█████████████████████████████████████▋ | 225/681 [14:02<17:49, 2.34s/it] 33%|█████████████████████████████████████▊ | 226/681 [14:05<18:06, 2.39s/it] {'loss': 1.2303, 'grad_norm': 14.342082977294922, 'learning_rate': 4.2403348649073167e-07, 'beta_dpo/gap_mean': 216.79244995117188, 'beta_dpo/gap_std': 225.35797119140625, 'beta_dpo/beta_used_raw': -2.7146835327148438, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3111863136291504, 'logits/rejected': -2.2828011512756348, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 188.1345672607422, 'beta_dpo/beta_margin_mean': 0.18813456594944, 'beta_dpo/beta_margin_std': 0.1991308182477951, 'beta_dpo/beta_margin_grad_mean': -0.45367875695228577, 'beta_dpo/beta_margin_grad_std': 0.04829113930463791, 'epoch': 0.33} 33%|█████████████████████████████████████▊ | 226/681 [14:05<18:06, 2.39s/it] 33%|██████████████████████████████████████ | 227/681 [14:07<18:39, 2.47s/it] {'loss': 6.4073, 'grad_norm': 5748.3427734375, 'learning_rate': 4.2310987941806615e-07, 'beta_dpo/gap_mean': 221.8527069091797, 'beta_dpo/gap_std': 232.91197204589844, 'beta_dpo/beta_used_raw': -0.9117497205734253, 'beta_dpo/beta_used': 0.3605048954486847, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3186283111572266, 'logits/rejected': -2.2997145652770996, 'beta_dpo/beta': 0.3605048954486847, 'beta_dpo/loss_margin_mean': 260.5398864746094, 'beta_dpo/beta_margin_mean': 109.1982421875, 'beta_dpo/beta_margin_std': 195.55567932128906, 'beta_dpo/beta_margin_grad_mean': -0.28487730026245117, 'beta_dpo/beta_margin_grad_std': 0.2841986417770386, 'epoch': 0.33} 33%|██████████████████████████████████████ | 227/681 [14:07<18:39, 2.47s/it] 33%|██████████████████████████████████████▏ | 228/681 [14:10<18:42, 2.48s/it] {'loss': 1.2061, 'grad_norm': 15.525106430053711, 'learning_rate': 4.2218171073908463e-07, 'beta_dpo/gap_mean': 217.8734130859375, 'beta_dpo/gap_std': 229.7576141357422, 'beta_dpo/beta_used_raw': -1.252966284751892, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3476057052612305, 'logits/rejected': -2.339545726776123, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 196.5341339111328, 'beta_dpo/beta_margin_mean': 0.1965341418981552, 'beta_dpo/beta_margin_std': 0.23873193562030792, 'beta_dpo/beta_margin_grad_mean': -0.4516187608242035, 'beta_dpo/beta_margin_grad_std': 0.057563863694667816, 'epoch': 0.33} 33%|██████████████████████████████████████▏ | 228/681 [14:10<18:42, 2.48s/it] 34%|██████████████████████████████████████▎ | 229/681 [14:12<18:50, 2.50s/it] {'loss': 2.3098, 'grad_norm': 2251.75146484375, 'learning_rate': 4.212490049118951e-07, 'beta_dpo/gap_mean': 218.74749755859375, 'beta_dpo/gap_std': 236.47198486328125, 'beta_dpo/beta_used_raw': -0.0582791268825531, 'beta_dpo/beta_used': 0.1788349598646164, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3584940433502197, 'logits/rejected': -2.3436903953552246, 'beta_dpo/beta': 0.1788349598646164, 'beta_dpo/loss_margin_mean': 228.95513916015625, 'beta_dpo/beta_margin_mean': 40.58890151977539, 'beta_dpo/beta_margin_std': 64.144775390625, 'beta_dpo/beta_margin_grad_mean': -0.29465344548225403, 'beta_dpo/beta_margin_grad_std': 0.28662359714508057, 'epoch': 0.34} 34%|██████████████████████████████████████▎ | 229/681 [14:12<18:50, 2.50s/it] 34%|██████████████████████████████████████▌ | 230/681 [14:15<18:44, 2.49s/it] {'loss': 7.6845, 'grad_norm': 9665.818359375, 'learning_rate': 4.203117865141635e-07, 'beta_dpo/gap_mean': 219.34637451171875, 'beta_dpo/gap_std': 225.2493896484375, 'beta_dpo/beta_used_raw': 0.5070621967315674, 'beta_dpo/beta_used': 0.795495331287384, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.2865986824035645, 'logits/rejected': -2.294416904449463, 'beta_dpo/beta': 0.795495331287384, 'beta_dpo/loss_margin_mean': 228.44595336914062, 'beta_dpo/beta_margin_mean': 202.500732421875, 'beta_dpo/beta_margin_std': 299.9369201660156, 'beta_dpo/beta_margin_grad_mean': -0.2751595079898834, 'beta_dpo/beta_margin_grad_std': 0.2707229256629944, 'epoch': 0.34} 34%|██████████████████████████████████████▌ | 230/681 [14:15<18:44, 2.49s/it] 34%|██████████████████████████████████████▋ | 231/681 [14:17<18:56, 2.53s/it] {'loss': 1.1986, 'grad_norm': 14.92269229888916, 'learning_rate': 4.1937008024246625e-07, 'beta_dpo/gap_mean': 220.33432006835938, 'beta_dpo/gap_std': 214.647705078125, 'beta_dpo/beta_used_raw': -0.8700859546661377, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3519227504730225, 'logits/rejected': -2.328807830810547, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 212.2770233154297, 'beta_dpo/beta_margin_mean': 0.21227702498435974, 'beta_dpo/beta_margin_std': 0.18027953803539276, 'beta_dpo/beta_margin_grad_mean': -0.4476536810398102, 'beta_dpo/beta_margin_grad_std': 0.04368142783641815, 'epoch': 0.34} 34%|██████████████████████████████████████▋ | 231/681 [14:17<18:56, 2.53s/it] 34%|██████████████████████████████████████▊ | 232/681 [14:20<18:47, 2.51s/it] {'loss': 2.6911, 'grad_norm': 2202.3125, 'learning_rate': 4.1842391091163933e-07, 'beta_dpo/gap_mean': 218.3118133544922, 'beta_dpo/gap_std': 214.149169921875, 'beta_dpo/beta_used_raw': 0.0414634644985199, 'beta_dpo/beta_used': 0.23005230724811554, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3467612266540527, 'logits/rejected': -2.3430676460266113, 'beta_dpo/beta': 0.23005230724811554, 'beta_dpo/loss_margin_mean': 210.24900817871094, 'beta_dpo/beta_margin_mean': 49.535980224609375, 'beta_dpo/beta_margin_std': 79.29191589355469, 'beta_dpo/beta_margin_grad_mean': -0.2875669300556183, 'beta_dpo/beta_margin_grad_std': 0.2871084213256836, 'epoch': 0.34} 34%|██████████████████████████████████████▊ | 232/681 [14:20<18:47, 2.51s/it] 34%|███████████████████████████████████████ | 233/681 [14:22<18:49, 2.52s/it] {'loss': 9.6398, 'grad_norm': 6852.927734375, 'learning_rate': 4.174733034541245e-07, 'beta_dpo/gap_mean': 228.13232421875, 'beta_dpo/gap_std': 221.7039794921875, 'beta_dpo/beta_used_raw': 0.5653680562973022, 'beta_dpo/beta_used': 0.6968293786048889, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.345778226852417, 'logits/rejected': -2.349656105041504, 'beta_dpo/beta': 0.6968293786048889, 'beta_dpo/loss_margin_mean': 303.7350158691406, 'beta_dpo/beta_margin_mean': 181.13375854492188, 'beta_dpo/beta_margin_std': 268.4140930175781, 'beta_dpo/beta_margin_grad_mean': -0.24002498388290405, 'beta_dpo/beta_margin_grad_std': 0.2530527412891388, 'epoch': 0.34} 34%|███████████████████████████████████████ | 233/681 [14:22<18:49, 2.52s/it] 34%|███████████████████████████████████████▏ | 234/681 [14:25<18:52, 2.53s/it] {'loss': 1.1938, 'grad_norm': 14.259328842163086, 'learning_rate': 4.165182829193126e-07, 'beta_dpo/gap_mean': 242.57504272460938, 'beta_dpo/gap_std': 239.12721252441406, 'beta_dpo/beta_used_raw': -1.735541820526123, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3349199295043945, 'logits/rejected': -2.356750965118408, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 271.9317321777344, 'beta_dpo/beta_margin_mean': 0.2719317376613617, 'beta_dpo/beta_margin_std': 0.2893328368663788, 'beta_dpo/beta_margin_grad_mean': -0.4342879354953766, 'beta_dpo/beta_margin_grad_std': 0.06734412163496017, 'epoch': 0.34} 34%|███████████████████████████████████████▏ | 234/681 [14:25<18:52, 2.53s/it] 35%|███████████████████████████████████████▎ | 235/681 [14:27<18:38, 2.51s/it] {'loss': 1.2086, 'grad_norm': 15.3160400390625, 'learning_rate': 4.1555887447288255e-07, 'beta_dpo/gap_mean': 234.73019409179688, 'beta_dpo/gap_std': 243.65020751953125, 'beta_dpo/beta_used_raw': -2.224062204360962, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3654861450195312, 'logits/rejected': -2.3537168502807617, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 208.74598693847656, 'beta_dpo/beta_margin_mean': 0.20874598622322083, 'beta_dpo/beta_margin_std': 0.26976871490478516, 'beta_dpo/beta_margin_grad_mean': -0.44918081164360046, 'beta_dpo/beta_margin_grad_std': 0.06389525532722473, 'epoch': 0.35} 35%|███████████████████████████████████████▎ | 235/681 [14:27<18:38, 2.51s/it] 35%|███████████████████████████████████████▌ | 236/681 [14:30<18:22, 2.48s/it] {'loss': 4.0937, 'grad_norm': 3292.40771484375, 'learning_rate': 4.1459510339613946e-07, 'beta_dpo/gap_mean': 235.43679809570312, 'beta_dpo/gap_std': 244.1046905517578, 'beta_dpo/beta_used_raw': -0.8176271319389343, 'beta_dpo/beta_used': 0.22831876575946808, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.356201648712158, 'logits/rejected': -2.3701233863830566, 'beta_dpo/beta': 0.22831876575946808, 'beta_dpo/loss_margin_mean': 243.5421142578125, 'beta_dpo/beta_margin_mean': 50.824398040771484, 'beta_dpo/beta_margin_std': 78.6937255859375, 'beta_dpo/beta_margin_grad_mean': -0.29526790976524353, 'beta_dpo/beta_margin_grad_std': 0.2938448190689087, 'epoch': 0.35} 35%|███████████████████████████████████████▌ | 236/681 [14:30<18:22, 2.48s/it] 35%|███████████████████████████████████████▋ | 237/681 [14:32<18:28, 2.50s/it] {'loss': 14.4849, 'grad_norm': 11534.1455078125, 'learning_rate': 4.136269950853473e-07, 'beta_dpo/gap_mean': 241.46392822265625, 'beta_dpo/gap_std': 249.50332641601562, 'beta_dpo/beta_used_raw': -0.4895740747451782, 'beta_dpo/beta_used': 1.0147018432617188, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.380739212036133, 'logits/rejected': -2.381621837615967, 'beta_dpo/beta': 1.0147018432617188, 'beta_dpo/loss_margin_mean': 275.3121032714844, 'beta_dpo/beta_margin_mean': 303.3717956542969, 'beta_dpo/beta_margin_std': 481.146240234375, 'beta_dpo/beta_margin_grad_mean': -0.25070029497146606, 'beta_dpo/beta_margin_grad_std': 0.25762683153152466, 'epoch': 0.35} 35%|███████████████████████████████████████▋ | 237/681 [14:32<18:28, 2.50s/it] 35%|███████████████████████████████████████▊ | 238/681 [14:35<18:42, 2.53s/it] {'loss': 1.2202, 'grad_norm': 14.532193183898926, 'learning_rate': 4.126545750510605e-07, 'beta_dpo/gap_mean': 241.19456481933594, 'beta_dpo/gap_std': 248.67156982421875, 'beta_dpo/beta_used_raw': -3.4691739082336426, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.375584602355957, 'logits/rejected': -2.3742737770080566, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 212.02850341796875, 'beta_dpo/beta_margin_mean': 0.21202851831912994, 'beta_dpo/beta_margin_std': 0.23184596002101898, 'beta_dpo/beta_margin_grad_mean': -0.4481091797351837, 'beta_dpo/beta_margin_grad_std': 0.05575034022331238, 'epoch': 0.35} 35%|███████████████████████████████████████▊ | 238/681 [14:35<18:42, 2.53s/it] 35%|████████████████████████████████████████ | 239/681 [14:37<18:39, 2.53s/it] {'loss': 39.3869, 'grad_norm': 22015.724609375, 'learning_rate': 4.116778689174514e-07, 'beta_dpo/gap_mean': 238.7420654296875, 'beta_dpo/gap_std': 245.08407592773438, 'beta_dpo/beta_used_raw': -0.6588293313980103, 'beta_dpo/beta_used': 1.912995457649231, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.369143486022949, 'logits/rejected': -2.358672857284546, 'beta_dpo/beta': 1.912995457649231, 'beta_dpo/loss_margin_mean': 228.3488311767578, 'beta_dpo/beta_margin_mean': 527.4285278320312, 'beta_dpo/beta_margin_std': 877.66650390625, 'beta_dpo/beta_margin_grad_mean': -0.29015278816223145, 'beta_dpo/beta_margin_grad_std': 0.2879817485809326, 'epoch': 0.35} 35%|████████████████████████████████████████ | 239/681 [14:37<18:39, 2.53s/it] 35%|████████████████████████████████████████▏ | 240/681 [14:40<18:26, 2.51s/it] {'loss': 1.2157, 'grad_norm': 15.185770988464355, 'learning_rate': 4.106969024216348e-07, 'beta_dpo/gap_mean': 231.2987060546875, 'beta_dpo/gap_std': 231.66029357910156, 'beta_dpo/beta_used_raw': -2.5935862064361572, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.439711093902588, 'logits/rejected': -2.4188616275787354, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 193.04383850097656, 'beta_dpo/beta_margin_mean': 0.19304384291172028, 'beta_dpo/beta_margin_std': 0.17740407586097717, 'beta_dpo/beta_margin_grad_mean': -0.4522637724876404, 'beta_dpo/beta_margin_grad_std': 0.04363469406962395, 'epoch': 0.35} 35%|████████████████████████████████████████▏ | 240/681 [14:40<18:26, 2.51s/it] 35%|████████████████████████████████████████▎ | 241/681 [14:42<18:36, 2.54s/it] {'loss': 7.4844, 'grad_norm': 11925.3466796875, 'learning_rate': 4.097117014129903e-07, 'beta_dpo/gap_mean': 226.96133422851562, 'beta_dpo/gap_std': 228.65875244140625, 'beta_dpo/beta_used_raw': -0.016419827938079834, 'beta_dpo/beta_used': 0.7368063926696777, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4186618328094482, 'logits/rejected': -2.3823959827423096, 'beta_dpo/beta': 0.7368063926696777, 'beta_dpo/loss_margin_mean': 235.113037109375, 'beta_dpo/beta_margin_mean': 150.56866455078125, 'beta_dpo/beta_margin_std': 260.19439697265625, 'beta_dpo/beta_margin_grad_mean': -0.2956547141075134, 'beta_dpo/beta_margin_grad_std': 0.2953491806983948, 'epoch': 0.35} 35%|████████████████████████████████████████▎ | 241/681 [14:43<18:36, 2.54s/it] 36%|████████████████████████████████████████▌ | 242/681 [14:45<18:24, 2.51s/it] {'loss': 12.149, 'grad_norm': 14227.9248046875, 'learning_rate': 4.087222918524807e-07, 'beta_dpo/gap_mean': 229.24334716796875, 'beta_dpo/gap_std': 231.86746215820312, 'beta_dpo/beta_used_raw': 1.0837945938110352, 'beta_dpo/beta_used': 1.0837945938110352, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3967206478118896, 'logits/rejected': -2.3583226203918457, 'beta_dpo/beta': 1.0837945938110352, 'beta_dpo/loss_margin_mean': 231.20904541015625, 'beta_dpo/beta_margin_mean': 249.89736938476562, 'beta_dpo/beta_margin_std': 290.0773010253906, 'beta_dpo/beta_margin_grad_mean': -0.10944601148366928, 'beta_dpo/beta_margin_grad_std': 0.3120846450328827, 'epoch': 0.36} 36%|████████████████████████████████████████▌ | 242/681 [14:45<18:24, 2.51s/it] 36%|████████████████████████████████████████▋ | 243/681 [14:47<18:13, 2.50s/it] {'loss': 0.6125, 'grad_norm': 473.8674621582031, 'learning_rate': 4.07728699811968e-07, 'beta_dpo/gap_mean': 229.03512573242188, 'beta_dpo/gap_std': 227.02081298828125, 'beta_dpo/beta_used_raw': 0.10270766913890839, 'beta_dpo/beta_used': 0.29786860942840576, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.393955945968628, 'logits/rejected': -2.363004684448242, 'beta_dpo/beta': 0.29786860942840576, 'beta_dpo/loss_margin_mean': 232.3207550048828, 'beta_dpo/beta_margin_mean': 74.67481231689453, 'beta_dpo/beta_margin_std': 106.87940216064453, 'beta_dpo/beta_margin_grad_mean': -0.23357638716697693, 'beta_dpo/beta_margin_grad_std': 0.2237424999475479, 'epoch': 0.36} 36%|████████████████████████████████████████▋ | 243/681 [14:47<18:13, 2.50s/it] 36%|████████████████████████████████████████▊ | 244/681 [14:50<18:10, 2.49s/it] {'loss': 1.1932, 'grad_norm': 16.667314529418945, 'learning_rate': 4.067309514735267e-07, 'beta_dpo/gap_mean': 230.13543701171875, 'beta_dpo/gap_std': 226.2316131591797, 'beta_dpo/beta_used_raw': -1.1679985523223877, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.446463108062744, 'logits/rejected': -2.438051223754883, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 227.51968383789062, 'beta_dpo/beta_margin_mean': 0.227519690990448, 'beta_dpo/beta_margin_std': 0.22171121835708618, 'beta_dpo/beta_margin_grad_mean': -0.44421160221099854, 'beta_dpo/beta_margin_grad_std': 0.05300465598702431, 'epoch': 0.36} 36%|████████████████████████████████████████▊ | 244/681 [14:50<18:10, 2.49s/it] 36%|█████████████████████████████████████████ | 245/681 [14:52<18:05, 2.49s/it] {'loss': 1.2316, 'grad_norm': 15.008759498596191, 'learning_rate': 4.057290731287531e-07, 'beta_dpo/gap_mean': 229.35089111328125, 'beta_dpo/gap_std': 226.95535278320312, 'beta_dpo/beta_used_raw': -3.410043239593506, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4402174949645996, 'logits/rejected': -2.3967413902282715, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 223.40316772460938, 'beta_dpo/beta_margin_mean': 0.2234031707048416, 'beta_dpo/beta_margin_std': 0.2370459884405136, 'beta_dpo/beta_margin_grad_mean': -0.44525429606437683, 'beta_dpo/beta_margin_grad_std': 0.05737599730491638, 'epoch': 0.36} 36%|█████████████████████████████████████████ | 245/681 [14:52<18:05, 2.49s/it] 36%|█████████████████████████████████████████▏ | 246/681 [14:55<18:12, 2.51s/it] {'loss': 1.2305, 'grad_norm': 14.934514999389648, 'learning_rate': 4.047230911780736e-07, 'beta_dpo/gap_mean': 227.4248046875, 'beta_dpo/gap_std': 229.33834838867188, 'beta_dpo/beta_used_raw': -3.323253631591797, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4563374519348145, 'logits/rejected': -2.428318500518799, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 218.25570678710938, 'beta_dpo/beta_margin_mean': 0.21825571358203888, 'beta_dpo/beta_margin_std': 0.2485092133283615, 'beta_dpo/beta_margin_grad_mean': -0.44665589928627014, 'beta_dpo/beta_margin_grad_std': 0.059832848608493805, 'epoch': 0.36} 36%|█████████████████████████████████████████▏ | 246/681 [14:55<18:12, 2.51s/it] 36%|█████████████████████████████████████████▎ | 247/681 [14:57<17:36, 2.43s/it] {'loss': 0.886, 'grad_norm': 101.28236389160156, 'learning_rate': 4.0371303213004814e-07, 'beta_dpo/gap_mean': 234.86566162109375, 'beta_dpo/gap_std': 243.15460205078125, 'beta_dpo/beta_used_raw': -0.14297455549240112, 'beta_dpo/beta_used': 0.007803923450410366, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4293994903564453, 'logits/rejected': -2.430069923400879, 'beta_dpo/beta': 0.007803923450410366, 'beta_dpo/loss_margin_mean': 278.5243225097656, 'beta_dpo/beta_margin_mean': 2.3317739963531494, 'beta_dpo/beta_margin_std': 4.475132465362549, 'beta_dpo/beta_margin_grad_mean': -0.32257363200187683, 'beta_dpo/beta_margin_grad_std': 0.2511254549026489, 'epoch': 0.36} 36%|█████████████████████████████████████████▎ | 247/681 [14:57<17:36, 2.43s/it] 36%|█████████████████████████████████████████▌ | 248/681 [15:00<17:31, 2.43s/it] {'loss': 1.1786, 'grad_norm': 14.336139678955078, 'learning_rate': 4.0269892260067197e-07, 'beta_dpo/gap_mean': 241.89364624023438, 'beta_dpo/gap_std': 237.35562133789062, 'beta_dpo/beta_used_raw': -0.8810434341430664, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.402165174484253, 'logits/rejected': -2.41436505317688, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 265.7236022949219, 'beta_dpo/beta_margin_mean': 0.2657236158847809, 'beta_dpo/beta_margin_std': 0.2158864438533783, 'beta_dpo/beta_margin_grad_mean': -0.43503713607788086, 'beta_dpo/beta_margin_grad_std': 0.05003669857978821, 'epoch': 0.36} 36%|█████████████████████████████████████████▌ | 248/681 [15:00<17:31, 2.43s/it] 37%|█████████████████████████████████████████▋ | 249/681 [15:02<17:45, 2.47s/it] {'loss': 1.2226, 'grad_norm': 14.760684967041016, 'learning_rate': 4.0168078931267426e-07, 'beta_dpo/gap_mean': 237.4274139404297, 'beta_dpo/gap_std': 237.676513671875, 'beta_dpo/beta_used_raw': -3.373201847076416, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.412367343902588, 'logits/rejected': -2.3927431106567383, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 198.35467529296875, 'beta_dpo/beta_margin_mean': 0.19835467636585236, 'beta_dpo/beta_margin_std': 0.2707987129688263, 'beta_dpo/beta_margin_grad_mean': -0.45203158259391785, 'beta_dpo/beta_margin_grad_std': 0.06264989078044891, 'epoch': 0.37} 37%|█████████████████████████████████████████▋ | 249/681 [15:02<17:45, 2.47s/it] 37%|█████████████████████████████████████████▊ | 250/681 [15:05<18:00, 2.51s/it] {'loss': 1.2061, 'grad_norm': 14.936260223388672, 'learning_rate': 4.006586590948141e-07, 'beta_dpo/gap_mean': 230.994140625, 'beta_dpo/gap_std': 236.17393493652344, 'beta_dpo/beta_used_raw': -2.016047477722168, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.403975009918213, 'logits/rejected': -2.3519978523254395, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 222.8062286376953, 'beta_dpo/beta_margin_mean': 0.22280624508857727, 'beta_dpo/beta_margin_std': 0.22093412280082703, 'beta_dpo/beta_margin_grad_mean': -0.4453158974647522, 'beta_dpo/beta_margin_grad_std': 0.05328512191772461, 'epoch': 0.37} 37%|█████████████████████████████████████████▊ | 250/681 [15:05<18:00, 2.51s/it] 37%|██████████████████████████████████████████ | 251/681 [15:07<17:40, 2.47s/it] {'loss': 1.2071, 'grad_norm': 14.669971466064453, 'learning_rate': 3.9963255888117325e-07, 'beta_dpo/gap_mean': 228.9009552001953, 'beta_dpo/gap_std': 233.10757446289062, 'beta_dpo/beta_used_raw': -2.0009233951568604, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.398078203201294, 'logits/rejected': -2.362529754638672, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 208.70457458496094, 'beta_dpo/beta_margin_mean': 0.20870457589626312, 'beta_dpo/beta_margin_std': 0.2092035412788391, 'beta_dpo/beta_margin_grad_mean': -0.4486519694328308, 'beta_dpo/beta_margin_grad_std': 0.05090898275375366, 'epoch': 0.37} 37%|██████████████████████████████████████████ | 251/681 [15:07<17:40, 2.47s/it] 37%|██████████████████████████████████████████▏ | 252/681 [15:10<18:17, 2.56s/it] {'loss': 1.1988, 'grad_norm': 16.351465225219727, 'learning_rate': 3.9860251571044666e-07, 'beta_dpo/gap_mean': 224.8851318359375, 'beta_dpo/gap_std': 229.4764404296875, 'beta_dpo/beta_used_raw': -1.0428235530853271, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4359705448150635, 'logits/rejected': -2.3960788249969482, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 221.28848266601562, 'beta_dpo/beta_margin_mean': 0.22128848731517792, 'beta_dpo/beta_margin_std': 0.21624049544334412, 'beta_dpo/beta_margin_grad_mean': -0.4456026554107666, 'beta_dpo/beta_margin_grad_std': 0.0523262694478035, 'epoch': 0.37} 37%|██████████████████████████████████████████▏ | 252/681 [15:10<18:17, 2.56s/it] 37%|██████████████████████████████████████████▎ | 253/681 [15:12<18:15, 2.56s/it] {'loss': 4.0804, 'grad_norm': 11820.3720703125, 'learning_rate': 3.9756855672522986e-07, 'beta_dpo/gap_mean': 220.82672119140625, 'beta_dpo/gap_std': 225.36129760742188, 'beta_dpo/beta_used_raw': -1.4962077140808105, 'beta_dpo/beta_used': 0.6227975487709045, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4164085388183594, 'logits/rejected': -2.4211513996124268, 'beta_dpo/beta': 0.6227975487709045, 'beta_dpo/loss_margin_mean': 216.6586456298828, 'beta_dpo/beta_margin_mean': 181.15090942382812, 'beta_dpo/beta_margin_std': 269.0624084472656, 'beta_dpo/beta_margin_grad_mean': -0.29470059275627136, 'beta_dpo/beta_margin_grad_std': 0.29031190276145935, 'epoch': 0.37} 37%|██████████████████████████████████████████▎ | 253/681 [15:12<18:15, 2.56s/it] 37%|██████████████████████████████████████████▌ | 254/681 [15:15<18:12, 2.56s/it] {'loss': 1.2072, 'grad_norm': 14.783519744873047, 'learning_rate': 3.965307091713037e-07, 'beta_dpo/gap_mean': 221.57920837402344, 'beta_dpo/gap_std': 227.94493103027344, 'beta_dpo/beta_used_raw': -1.512616753578186, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4098727703094482, 'logits/rejected': -2.3902459144592285, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 202.093017578125, 'beta_dpo/beta_margin_mean': 0.20209303498268127, 'beta_dpo/beta_margin_std': 0.23470279574394226, 'beta_dpo/beta_margin_grad_mean': -0.45039060711860657, 'beta_dpo/beta_margin_grad_std': 0.05692875757813454, 'epoch': 0.37} 37%|██████████████████████████████████████████▌ | 254/681 [15:15<18:12, 2.56s/it] 37%|██████████████████████████████████████████▋ | 255/681 [15:17<17:56, 2.53s/it] {'loss': 0.9409, 'grad_norm': 11111.490234375, 'learning_rate': 3.954890003969163e-07, 'beta_dpo/gap_mean': 225.62283325195312, 'beta_dpo/gap_std': 236.36817932128906, 'beta_dpo/beta_used_raw': 1.4928070306777954, 'beta_dpo/beta_used': 1.7512093782424927, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3819503784179688, 'logits/rejected': -2.3786773681640625, 'beta_dpo/beta': 1.7512093782424927, 'beta_dpo/loss_margin_mean': 245.6376953125, 'beta_dpo/beta_margin_mean': 497.9840087890625, 'beta_dpo/beta_margin_std': 947.763427734375, 'beta_dpo/beta_margin_grad_mean': -0.3025147020816803, 'beta_dpo/beta_margin_grad_std': 0.2974975109100342, 'epoch': 0.37} 37%|██████████████████████████████████████████▋ | 255/681 [15:18<17:56, 2.53s/it] 38%|██████████████████████████████████████████▊ | 256/681 [15:20<17:18, 2.44s/it] {'loss': 0.597, 'grad_norm': 9.83940601348877, 'learning_rate': 3.944434578520628e-07, 'beta_dpo/gap_mean': 230.1458740234375, 'beta_dpo/gap_std': 236.79115295410156, 'beta_dpo/beta_used_raw': 0.8002493977546692, 'beta_dpo/beta_used': 1.2602046728134155, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.378755807876587, 'logits/rejected': -2.3856723308563232, 'beta_dpo/beta': 1.2602046728134155, 'beta_dpo/loss_margin_mean': 270.7061767578125, 'beta_dpo/beta_margin_mean': 373.910888671875, 'beta_dpo/beta_margin_std': 559.2975463867188, 'beta_dpo/beta_margin_grad_mean': -0.2357739359140396, 'beta_dpo/beta_margin_grad_std': 0.24245071411132812, 'epoch': 0.38} 38%|██████████████████████████████████████████▊ | 256/681 [15:20<17:18, 2.44s/it] 38%|███████████████████████████████████████████ | 257/681 [15:22<17:34, 2.49s/it] {'loss': 1.1852, 'grad_norm': 15.36467456817627, 'learning_rate': 3.933941090877615e-07, 'beta_dpo/gap_mean': 237.4232177734375, 'beta_dpo/gap_std': 242.20278930664062, 'beta_dpo/beta_used_raw': -0.7316312193870544, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.391475200653076, 'logits/rejected': -2.376940965652466, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 252.16351318359375, 'beta_dpo/beta_margin_mean': 0.25216352939605713, 'beta_dpo/beta_margin_std': 0.2593878209590912, 'beta_dpo/beta_margin_grad_mean': -0.4384312331676483, 'beta_dpo/beta_margin_grad_std': 0.06231582164764404, 'epoch': 0.38} 38%|███████████████████████████████████████████ | 257/681 [15:22<17:34, 2.49s/it] 38%|███████████████████████████████████████████▏ | 258/681 [15:25<17:06, 2.43s/it] {'loss': 16.2011, 'grad_norm': 16114.0732421875, 'learning_rate': 3.923409817553284e-07, 'beta_dpo/gap_mean': 240.86416625976562, 'beta_dpo/gap_std': 243.09378051757812, 'beta_dpo/beta_used_raw': 2.6202783584594727, 'beta_dpo/beta_used': 2.6202783584594727, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3731837272644043, 'logits/rejected': -2.371438980102539, 'beta_dpo/beta': 2.6202783584594727, 'beta_dpo/loss_margin_mean': 272.5574035644531, 'beta_dpo/beta_margin_mean': 712.9149169921875, 'beta_dpo/beta_margin_std': 668.4194946289062, 'beta_dpo/beta_margin_grad_mean': -0.12499994784593582, 'beta_dpo/beta_margin_grad_std': 0.3307187855243683, 'epoch': 0.38} 38%|███████████████████████████████████████████▏ | 258/681 [15:25<17:06, 2.43s/it] 38%|███████████████████████████████████████████▎ | 259/681 [15:27<17:08, 2.44s/it] {'loss': 1.2012, 'grad_norm': 16.28805160522461, 'learning_rate': 3.9128410360564793e-07, 'beta_dpo/gap_mean': 244.031982421875, 'beta_dpo/gap_std': 241.36285400390625, 'beta_dpo/beta_used_raw': -2.3427672386169434, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.386549949645996, 'logits/rejected': -2.3812201023101807, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 242.97259521484375, 'beta_dpo/beta_margin_mean': 0.24297261238098145, 'beta_dpo/beta_margin_std': 0.22916458547115326, 'beta_dpo/beta_margin_grad_mean': -0.4404573440551758, 'beta_dpo/beta_margin_grad_std': 0.05528492480516434, 'epoch': 0.38} 38%|███████████████████████████████████████████▎ | 259/681 [15:27<17:08, 2.44s/it] 38%|███████████████████████████████████████████▌ | 260/681 [15:30<17:18, 2.47s/it] {'loss': 1.1866, 'grad_norm': 17.50973892211914, 'learning_rate': 3.9022350248844246e-07, 'beta_dpo/gap_mean': 248.44383239746094, 'beta_dpo/gap_std': 245.54461669921875, 'beta_dpo/beta_used_raw': -1.7506465911865234, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.427947521209717, 'logits/rejected': -2.4491896629333496, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 279.84051513671875, 'beta_dpo/beta_margin_mean': 0.27984052896499634, 'beta_dpo/beta_margin_std': 0.2821098566055298, 'beta_dpo/beta_margin_grad_mean': -0.4323839843273163, 'beta_dpo/beta_margin_grad_std': 0.0644708201289177, 'epoch': 0.38} 38%|███████████████████████████████████████████▌ | 260/681 [15:30<17:18, 2.47s/it] 38%|███████████████████████████████████████████▋ | 261/681 [15:32<16:56, 2.42s/it] {'loss': 6.9612, 'grad_norm': 6361.6826171875, 'learning_rate': 3.891592063515376e-07, 'beta_dpo/gap_mean': 256.7048034667969, 'beta_dpo/gap_std': 256.45654296875, 'beta_dpo/beta_used_raw': 0.3739962875843048, 'beta_dpo/beta_used': 0.3739962875843048, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3608932495117188, 'logits/rejected': -2.3539364337921143, 'beta_dpo/beta': 0.3739962875843048, 'beta_dpo/loss_margin_mean': 285.4291076660156, 'beta_dpo/beta_margin_mean': 113.49102020263672, 'beta_dpo/beta_margin_std': 196.81541442871094, 'beta_dpo/beta_margin_grad_mean': -0.0983000099658966, 'beta_dpo/beta_margin_grad_std': 0.2856021821498871, 'epoch': 0.38} 38%|███████████████████████████████████████████▋ | 261/681 [15:32<16:56, 2.42s/it] 38%|███████████████████████████████████████████▊ | 262/681 [15:35<17:20, 2.48s/it] {'loss': 1.1904, 'grad_norm': 17.864093780517578, 'learning_rate': 3.880912432401264e-07, 'beta_dpo/gap_mean': 253.71353149414062, 'beta_dpo/gap_std': 248.6503143310547, 'beta_dpo/beta_used_raw': -2.2271695137023926, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4036097526550293, 'logits/rejected': -2.3713953495025635, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 243.00674438476562, 'beta_dpo/beta_margin_mean': 0.24300675094127655, 'beta_dpo/beta_margin_std': 0.21662083268165588, 'beta_dpo/beta_margin_grad_mean': -0.44041234254837036, 'beta_dpo/beta_margin_grad_std': 0.052026648074388504, 'epoch': 0.38} 38%|███████████████████████████████████████████▊ | 262/681 [15:35<17:20, 2.48s/it] 39%|████████████████████████████████████████████ | 263/681 [15:37<17:38, 2.53s/it] {'loss': 4.4638, 'grad_norm': 10648.0771484375, 'learning_rate': 3.870196412960302e-07, 'beta_dpo/gap_mean': 260.64508056640625, 'beta_dpo/gap_std': 252.19851684570312, 'beta_dpo/beta_used_raw': -0.1793736219406128, 'beta_dpo/beta_used': 1.3717470169067383, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.421666145324707, 'logits/rejected': -2.383852005004883, 'beta_dpo/beta': 1.3717470169067383, 'beta_dpo/loss_margin_mean': 282.16845703125, 'beta_dpo/beta_margin_mean': 446.4638366699219, 'beta_dpo/beta_margin_std': 755.0382690429688, 'beta_dpo/beta_margin_grad_mean': -0.2676565945148468, 'beta_dpo/beta_margin_grad_std': 0.27245068550109863, 'epoch': 0.39} 39%|████████████████████████████████████████████ | 263/681 [15:37<17:38, 2.53s/it] 39%|████████████████████████████████████████████▏ | 264/681 [15:40<17:39, 2.54s/it] {'loss': 3.497, 'grad_norm': 5079.34765625, 'learning_rate': 3.8594442875695665e-07, 'beta_dpo/gap_mean': 262.8730163574219, 'beta_dpo/gap_std': 257.6596374511719, 'beta_dpo/beta_used_raw': 0.22174859046936035, 'beta_dpo/beta_used': 1.3721956014633179, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4400243759155273, 'logits/rejected': -2.442418098449707, 'beta_dpo/beta': 1.3721956014633179, 'beta_dpo/loss_margin_mean': 271.05548095703125, 'beta_dpo/beta_margin_mean': 423.73870849609375, 'beta_dpo/beta_margin_std': 758.1284790039062, 'beta_dpo/beta_margin_grad_mean': -0.2683139741420746, 'beta_dpo/beta_margin_grad_std': 0.2728201150894165, 'epoch': 0.39} 39%|████████████████████████████████████████████▏ | 264/681 [15:40<17:39, 2.54s/it] 39%|████████████████████████████████████████████▎ | 265/681 [15:42<17:24, 2.51s/it] {'loss': 1.1797, 'grad_norm': 18.96255111694336, 'learning_rate': 3.848656339557562e-07, 'beta_dpo/gap_mean': 259.660888671875, 'beta_dpo/gap_std': 252.59515380859375, 'beta_dpo/beta_used_raw': -1.7446627616882324, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.427466869354248, 'logits/rejected': -2.411646842956543, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 239.40884399414062, 'beta_dpo/beta_margin_mean': 0.23940885066986084, 'beta_dpo/beta_margin_std': 0.23345738649368286, 'beta_dpo/beta_margin_grad_mean': -0.4414041340351105, 'beta_dpo/beta_margin_grad_std': 0.05608292669057846, 'epoch': 0.39} 39%|████████████████████████████████████████████▎ | 265/681 [15:42<17:24, 2.51s/it] 39%|████████████████████████████████████████████▌ | 266/681 [15:45<17:26, 2.52s/it] {'loss': 2.2698, 'grad_norm': 1790.510009765625, 'learning_rate': 3.8378328531967507e-07, 'beta_dpo/gap_mean': 247.86456298828125, 'beta_dpo/gap_std': 249.63990783691406, 'beta_dpo/beta_used_raw': -1.1203869581222534, 'beta_dpo/beta_used': 0.16673444211483002, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.421651840209961, 'logits/rejected': -2.381192207336426, 'beta_dpo/beta': 0.16673444211483002, 'beta_dpo/loss_margin_mean': 205.1346435546875, 'beta_dpo/beta_margin_mean': 39.5683479309082, 'beta_dpo/beta_margin_std': 59.80198287963867, 'beta_dpo/beta_margin_grad_mean': -0.27364593744277954, 'beta_dpo/beta_margin_grad_std': 0.27338290214538574, 'epoch': 0.39} 39%|████████████████████████████████████████████▌ | 266/681 [15:45<17:26, 2.52s/it] 39%|████████████████████████████████████████████▋ | 267/681 [15:47<17:18, 2.51s/it] {'loss': 1.2079, 'grad_norm': 17.995609283447266, 'learning_rate': 3.8269741136960646e-07, 'beta_dpo/gap_mean': 245.2734375, 'beta_dpo/gap_std': 250.494384765625, 'beta_dpo/beta_used_raw': -2.89312744140625, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4637513160705566, 'logits/rejected': -2.419002056121826, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 227.52374267578125, 'beta_dpo/beta_margin_mean': 0.22752374410629272, 'beta_dpo/beta_margin_std': 0.2612149715423584, 'beta_dpo/beta_margin_grad_mean': -0.4446525573730469, 'beta_dpo/beta_margin_grad_std': 0.06158663332462311, 'epoch': 0.39} 39%|████████████████████████████████████████████▋ | 267/681 [15:47<17:18, 2.51s/it] 39%|████████████████████████████████████████████▊ | 268/681 [15:50<17:08, 2.49s/it] {'loss': 1.1212, 'grad_norm': 23.119298934936523, 'learning_rate': 3.8160804071933894e-07, 'beta_dpo/gap_mean': 242.955078125, 'beta_dpo/gap_std': 258.65301513671875, 'beta_dpo/beta_used_raw': -0.5071589946746826, 'beta_dpo/beta_used': 0.0013819551095366478, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.447445869445801, 'logits/rejected': -2.4397740364074707, 'beta_dpo/beta': 0.0013819551095366478, 'beta_dpo/loss_margin_mean': 249.29928588867188, 'beta_dpo/beta_margin_mean': 0.35537663102149963, 'beta_dpo/beta_margin_std': 0.5258194208145142, 'beta_dpo/beta_margin_grad_mean': -0.4197249114513397, 'beta_dpo/beta_margin_grad_std': 0.10671903938055038, 'epoch': 0.39} 39%|████████████████████████████████████████████▊ | 268/681 [15:50<17:08, 2.49s/it] 40%|█████████████████████████████████████████████ | 269/681 [15:52<16:56, 2.47s/it] {'loss': 69.1583, 'grad_norm': 53991.6875, 'learning_rate': 3.8051520207480204e-07, 'beta_dpo/gap_mean': 251.21771240234375, 'beta_dpo/gap_std': 269.38458251953125, 'beta_dpo/beta_used_raw': 2.2243704795837402, 'beta_dpo/beta_used': 2.2243704795837402, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4700229167938232, 'logits/rejected': -2.456906318664551, 'beta_dpo/beta': 2.2243704795837402, 'beta_dpo/loss_margin_mean': 301.1477966308594, 'beta_dpo/beta_margin_mean': 724.3359985351562, 'beta_dpo/beta_margin_std': 1003.6710205078125, 'beta_dpo/beta_margin_grad_mean': -0.2187625616788864, 'beta_dpo/beta_margin_grad_std': 0.41339200735092163, 'epoch': 0.4} 40%|█████████████████████████████████████████████ | 269/681 [15:52<16:56, 2.47s/it] 40%|█████████████████████████████████████████████▏ | 270/681 [15:55<17:00, 2.48s/it] {'loss': 34.1063, 'grad_norm': 28465.341796875, 'learning_rate': 3.794189242333106e-07, 'beta_dpo/gap_mean': 256.38360595703125, 'beta_dpo/gap_std': 277.2386474609375, 'beta_dpo/beta_used_raw': 2.0886917114257812, 'beta_dpo/beta_used': 2.0886917114257812, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5167593955993652, 'logits/rejected': -2.494492530822754, 'beta_dpo/beta': 2.0886917114257812, 'beta_dpo/loss_margin_mean': 266.50457763671875, 'beta_dpo/beta_margin_mean': 528.6803588867188, 'beta_dpo/beta_margin_std': 832.2965087890625, 'beta_dpo/beta_margin_grad_mean': -0.10937510430812836, 'beta_dpo/beta_margin_grad_std': 0.3121090829372406, 'epoch': 0.4} 40%|█████████████████████████████████████████████▏ | 270/681 [15:55<17:00, 2.48s/it] 40%|█████████████████████████████████████████████▎ | 271/681 [15:57<16:52, 2.47s/it] {'loss': 9.2538, 'grad_norm': 8032.013671875, 'learning_rate': 3.7831923608280514e-07, 'beta_dpo/gap_mean': 260.4082336425781, 'beta_dpo/gap_std': 271.07489013671875, 'beta_dpo/beta_used_raw': 0.3260602355003357, 'beta_dpo/beta_used': 0.8449544310569763, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4501864910125732, 'logits/rejected': -2.4311776161193848, 'beta_dpo/beta': 0.8449544310569763, 'beta_dpo/loss_margin_mean': 264.7347412109375, 'beta_dpo/beta_margin_mean': 248.46165466308594, 'beta_dpo/beta_margin_std': 399.88555908203125, 'beta_dpo/beta_margin_grad_mean': -0.26794520020484924, 'beta_dpo/beta_margin_grad_std': 0.2721104919910431, 'epoch': 0.4} 40%|█████████████████████████████████████████████▎ | 271/681 [15:57<16:52, 2.47s/it] 40%|█████████████████████████████████████████████▌ | 272/681 [16:00<16:59, 2.49s/it] {'loss': 6.7279, 'grad_norm': 15859.11328125, 'learning_rate': 3.772161666010912e-07, 'beta_dpo/gap_mean': 272.1531982421875, 'beta_dpo/gap_std': 264.27728271484375, 'beta_dpo/beta_used_raw': 2.243833541870117, 'beta_dpo/beta_used': 2.243833541870117, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4539542198181152, 'logits/rejected': -2.4497289657592773, 'beta_dpo/beta': 2.243833541870117, 'beta_dpo/loss_margin_mean': 351.419677734375, 'beta_dpo/beta_margin_mean': 774.5305786132812, 'beta_dpo/beta_margin_std': 909.3794555664062, 'beta_dpo/beta_margin_grad_mean': -0.0751146674156189, 'beta_dpo/beta_margin_grad_std': 0.25838276743888855, 'epoch': 0.4} 40%|█████████████████████████████████████████████▌ | 272/681 [16:00<16:59, 2.49s/it] 40%|█████████████████████████████████████████████▋ | 273/681 [16:02<16:56, 2.49s/it] {'loss': 5.6684, 'grad_norm': 4223.08251953125, 'learning_rate': 3.761097448550755e-07, 'beta_dpo/gap_mean': 282.7765808105469, 'beta_dpo/gap_std': 264.1724853515625, 'beta_dpo/beta_used_raw': -0.6652578115463257, 'beta_dpo/beta_used': 0.32312482595443726, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.448002815246582, 'logits/rejected': -2.430415630340576, 'beta_dpo/beta': 0.32312482595443726, 'beta_dpo/loss_margin_mean': 307.410400390625, 'beta_dpo/beta_margin_mean': 110.91842651367188, 'beta_dpo/beta_margin_std': 163.00204467773438, 'beta_dpo/beta_margin_grad_mean': -0.23232722282409668, 'beta_dpo/beta_margin_grad_std': 0.2386544793844223, 'epoch': 0.4} 40%|█████████████████████████████████████████████▋ | 273/681 [16:02<16:56, 2.49s/it] 40%|█████████████████████████████████████████████▊ | 274/681 [16:05<17:25, 2.57s/it] {'loss': 1.1892, 'grad_norm': 16.958667755126953, 'learning_rate': 3.75e-07, 'beta_dpo/gap_mean': 278.31329345703125, 'beta_dpo/gap_std': 254.832763671875, 'beta_dpo/beta_used_raw': -3.682006597518921, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.454503297805786, 'logits/rejected': -2.440640926361084, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 257.7513427734375, 'beta_dpo/beta_margin_mean': 0.25775137543678284, 'beta_dpo/beta_margin_std': 0.2082599699497223, 'beta_dpo/beta_margin_grad_mean': -0.436676561832428, 'beta_dpo/beta_margin_grad_std': 0.050382133573293686, 'epoch': 0.4} 40%|█████████████████████████████████████████████▊ | 274/681 [16:05<17:25, 2.57s/it] 40%|██████████████████████████████████████████████ | 275/681 [16:07<17:26, 2.58s/it] {'loss': 1.1688, 'grad_norm': 15.986796379089355, 'learning_rate': 3.738869612786737e-07, 'beta_dpo/gap_mean': 273.5849914550781, 'beta_dpo/gap_std': 255.31951904296875, 'beta_dpo/beta_used_raw': -1.7606722116470337, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4930272102355957, 'logits/rejected': -2.4809093475341797, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 261.4027404785156, 'beta_dpo/beta_margin_mean': 0.26140275597572327, 'beta_dpo/beta_margin_std': 0.2691759765148163, 'beta_dpo/beta_margin_grad_mean': -0.4363858103752136, 'beta_dpo/beta_margin_grad_std': 0.06395233422517776, 'epoch': 0.4} 40%|██████████████████████████████████████████████ | 275/681 [16:07<17:26, 2.58s/it] 41%|██████████████████████████████████████████████▏ | 276/681 [16:10<17:02, 2.52s/it] {'loss': 1.1837, 'grad_norm': 16.828632354736328, 'learning_rate': 3.7277065802070204e-07, 'beta_dpo/gap_mean': 264.0999755859375, 'beta_dpo/gap_std': 254.43577575683594, 'beta_dpo/beta_used_raw': -2.28926682472229, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4924230575561523, 'logits/rejected': -2.454463005065918, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 194.59042358398438, 'beta_dpo/beta_margin_mean': 0.19459043443202972, 'beta_dpo/beta_margin_std': 0.2346203327178955, 'beta_dpo/beta_margin_grad_mean': -0.45231759548187256, 'beta_dpo/beta_margin_grad_std': 0.05670015886425972, 'epoch': 0.41} 41%|██████████████████████████████████████████████▏ | 276/681 [16:10<17:02, 2.52s/it] 41%|██████████████████████████████████████████████▎ | 277/681 [16:12<16:26, 2.44s/it] {'loss': 4.5947, 'grad_norm': 6979.076171875, 'learning_rate': 3.71651119641714e-07, 'beta_dpo/gap_mean': 261.0350646972656, 'beta_dpo/gap_std': 248.45208740234375, 'beta_dpo/beta_used_raw': 2.115616798400879, 'beta_dpo/beta_used': 2.115616798400879, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4732658863067627, 'logits/rejected': -2.4552745819091797, 'beta_dpo/beta': 2.115616798400879, 'beta_dpo/loss_margin_mean': 268.9210510253906, 'beta_dpo/beta_margin_mean': 563.19384765625, 'beta_dpo/beta_margin_std': 618.1759643554688, 'beta_dpo/beta_margin_grad_mean': -0.10937541723251343, 'beta_dpo/beta_margin_grad_std': 0.31210899353027344, 'epoch': 0.41} 41%|██████████████████████████████████████████████▎ | 277/681 [16:12<16:26, 2.44s/it] 41%|██████████████████████████████████████████████▌ | 278/681 [16:15<16:36, 2.47s/it] {'loss': 2.4695, 'grad_norm': 2251.078857421875, 'learning_rate': 3.705283756425872e-07, 'beta_dpo/gap_mean': 265.0778503417969, 'beta_dpo/gap_std': 248.96527099609375, 'beta_dpo/beta_used_raw': -1.3573105335235596, 'beta_dpo/beta_used': 0.25115522742271423, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.524477481842041, 'logits/rejected': -2.508835792541504, 'beta_dpo/beta': 0.25115522742271423, 'beta_dpo/loss_margin_mean': 279.1919250488281, 'beta_dpo/beta_margin_mean': 77.13081359863281, 'beta_dpo/beta_margin_std': 126.1852798461914, 'beta_dpo/beta_margin_grad_mean': -0.26586809754371643, 'beta_dpo/beta_margin_grad_std': 0.27073895931243896, 'epoch': 0.41} 41%|██████████████████████████████████████████████▌ | 278/681 [16:15<16:36, 2.47s/it] 41%|██████████████████████████████████████████████▋ | 279/681 [16:17<16:11, 2.42s/it] {'loss': 0.6394, 'grad_norm': 422.1612243652344, 'learning_rate': 3.6940245560867e-07, 'beta_dpo/gap_mean': 271.9744873046875, 'beta_dpo/gap_std': 254.4259490966797, 'beta_dpo/beta_used_raw': -1.1045668125152588, 'beta_dpo/beta_used': 0.060165222734212875, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4369864463806152, 'logits/rejected': -2.438380718231201, 'beta_dpo/beta': 0.060165222734212875, 'beta_dpo/loss_margin_mean': 303.9395751953125, 'beta_dpo/beta_margin_mean': 20.768430709838867, 'beta_dpo/beta_margin_std': 33.017086029052734, 'beta_dpo/beta_margin_grad_mean': -0.24480833113193512, 'beta_dpo/beta_margin_grad_std': 0.24604347348213196, 'epoch': 0.41} 41%|██████████████████████████████████████████████▋ | 279/681 [16:17<16:11, 2.42s/it] 41%|██████████████████████████████████████████████▊ | 280/681 [16:19<16:03, 2.40s/it] {'loss': 9.5901, 'grad_norm': 10145.9853515625, 'learning_rate': 3.6827338920900253e-07, 'beta_dpo/gap_mean': 274.9402770996094, 'beta_dpo/gap_std': 252.64535522460938, 'beta_dpo/beta_used_raw': 1.2358628511428833, 'beta_dpo/beta_used': 1.2358628511428833, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4949872493743896, 'logits/rejected': -2.48579478263855, 'beta_dpo/beta': 1.2358628511428833, 'beta_dpo/loss_margin_mean': 287.3036804199219, 'beta_dpo/beta_margin_mean': 338.0630187988281, 'beta_dpo/beta_margin_std': 364.5479431152344, 'beta_dpo/beta_margin_grad_mean': -0.12507064640522003, 'beta_dpo/beta_margin_grad_std': 0.3306926190853119, 'epoch': 0.41} 41%|██████████████████████████████████████████████▊ | 280/681 [16:19<16:03, 2.40s/it] 41%|███████████████████████████████████████████████ | 281/681 [16:22<15:51, 2.38s/it] {'loss': 1.1774, 'grad_norm': 14.78842544555664, 'learning_rate': 3.6714120619553435e-07, 'beta_dpo/gap_mean': 269.671630859375, 'beta_dpo/gap_std': 247.16676330566406, 'beta_dpo/beta_used_raw': -2.398056745529175, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5062947273254395, 'logits/rejected': -2.4647984504699707, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 236.5752410888672, 'beta_dpo/beta_margin_mean': 0.23657526075839996, 'beta_dpo/beta_margin_std': 0.21189118921756744, 'beta_dpo/beta_margin_grad_mean': -0.4418678879737854, 'beta_dpo/beta_margin_grad_std': 0.05114522576332092, 'epoch': 0.41} 41%|███████████████████████████████████████████████ | 281/681 [16:22<15:51, 2.38s/it] 41%|███████████████████████████████████████████████▏ | 282/681 [16:24<15:59, 2.41s/it] {'loss': 1.1584, 'grad_norm': 16.898693084716797, 'learning_rate': 3.660059364023408e-07, 'beta_dpo/gap_mean': 265.92706298828125, 'beta_dpo/gap_std': 249.60317993164062, 'beta_dpo/beta_used_raw': -0.9040853977203369, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.499563217163086, 'logits/rejected': -2.4865164756774902, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 258.7386474609375, 'beta_dpo/beta_margin_mean': 0.2587386667728424, 'beta_dpo/beta_margin_std': 0.26557499170303345, 'beta_dpo/beta_margin_grad_mean': -0.43719446659088135, 'beta_dpo/beta_margin_grad_std': 0.06138541176915169, 'epoch': 0.41} 41%|███████████████████████████████████████████████▏ | 282/681 [16:24<15:59, 2.41s/it] 42%|███████████████████████████████████████████████▎ | 283/681 [16:26<15:37, 2.36s/it] {'loss': 8.8542, 'grad_norm': 14138.8076171875, 'learning_rate': 3.6486760974483685e-07, 'beta_dpo/gap_mean': 271.40765380859375, 'beta_dpo/gap_std': 244.66708374023438, 'beta_dpo/beta_used_raw': 1.9231171607971191, 'beta_dpo/beta_used': 1.9231171607971191, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5169782638549805, 'logits/rejected': -2.4992263317108154, 'beta_dpo/beta': 1.9231171607971191, 'beta_dpo/loss_margin_mean': 318.6204528808594, 'beta_dpo/beta_margin_mean': 601.787841796875, 'beta_dpo/beta_margin_std': 425.41082763671875, 'beta_dpo/beta_margin_grad_mean': -0.07813180983066559, 'beta_dpo/beta_margin_grad_std': 0.2683661878108978, 'epoch': 0.42} 42%|███████████████████████████████████████████████▎ | 283/681 [16:26<15:37, 2.36s/it] 42%|███████████████████████████████████████████████▌ | 284/681 [16:29<15:45, 2.38s/it] {'loss': 7.3208, 'grad_norm': 7450.4580078125, 'learning_rate': 3.6372625621898863e-07, 'beta_dpo/gap_mean': 276.92742919921875, 'beta_dpo/gap_std': 244.3406982421875, 'beta_dpo/beta_used_raw': 0.6345901489257812, 'beta_dpo/beta_used': 0.9466410875320435, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.505162239074707, 'logits/rejected': -2.4776804447174072, 'beta_dpo/beta': 0.9466410875320435, 'beta_dpo/loss_margin_mean': 289.7724609375, 'beta_dpo/beta_margin_mean': 256.5771484375, 'beta_dpo/beta_margin_std': 401.2411804199219, 'beta_dpo/beta_margin_grad_mean': -0.25939232110977173, 'beta_dpo/beta_margin_grad_std': 0.26850318908691406, 'epoch': 0.42} 42%|███████████████████████████████████████████████▌ | 284/681 [16:29<15:45, 2.38s/it] 42%|███████████████████████████████████████████████▋ | 285/681 [16:31<15:56, 2.41s/it] {'loss': 20.075, 'grad_norm': 20105.54296875, 'learning_rate': 3.625819059005228e-07, 'beta_dpo/gap_mean': 278.3759765625, 'beta_dpo/gap_std': 243.76156616210938, 'beta_dpo/beta_used_raw': 1.4398752450942993, 'beta_dpo/beta_used': 1.4398752450942993, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5132524967193604, 'logits/rejected': -2.4971303939819336, 'beta_dpo/beta': 1.4398752450942993, 'beta_dpo/loss_margin_mean': 285.8123779296875, 'beta_dpo/beta_margin_mean': 387.22125244140625, 'beta_dpo/beta_margin_std': 445.4748229980469, 'beta_dpo/beta_margin_grad_mean': -0.078125, 'beta_dpo/beta_margin_grad_std': 0.2683681845664978, 'epoch': 0.42} 42%|███████████████████████████████████████████████▋ | 285/681 [16:31<15:56, 2.41s/it] 42%|███████████████████████████████████████████████▉ | 286/681 [16:34<16:22, 2.49s/it] {'loss': 1.207, 'grad_norm': 10238.416015625, 'learning_rate': 3.614345889441346e-07, 'beta_dpo/gap_mean': 282.3958740234375, 'beta_dpo/gap_std': 245.08740234375, 'beta_dpo/beta_used_raw': 1.556891679763794, 'beta_dpo/beta_used': 1.556891679763794, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.477703094482422, 'logits/rejected': -2.4490466117858887, 'beta_dpo/beta': 1.556891679763794, 'beta_dpo/loss_margin_mean': 289.4398193359375, 'beta_dpo/beta_margin_mean': 447.1572570800781, 'beta_dpo/beta_margin_std': 412.15057373046875, 'beta_dpo/beta_margin_grad_mean': -0.12499526143074036, 'beta_dpo/beta_margin_grad_std': 0.330706387758255, 'epoch': 0.42} 42%|███████████████████████████████████████████████▉ | 286/681 [16:34<16:22, 2.49s/it] 42%|████████████████████████████████████████████████ | 287/681 [16:36<16:30, 2.51s/it] {'loss': 1.1749, 'grad_norm': 15.727797508239746, 'learning_rate': 3.6028433558269275e-07, 'beta_dpo/gap_mean': 271.0549621582031, 'beta_dpo/gap_std': 246.55422973632812, 'beta_dpo/beta_used_raw': -2.1759114265441895, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.454252004623413, 'logits/rejected': -2.4215316772460938, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 202.36187744140625, 'beta_dpo/beta_margin_mean': 0.20236189663410187, 'beta_dpo/beta_margin_std': 0.24117599427700043, 'beta_dpo/beta_margin_grad_mean': -0.450316458940506, 'beta_dpo/beta_margin_grad_std': 0.058557696640491486, 'epoch': 0.42} 42%|████████████████████████████████████████████████ | 287/681 [16:36<16:30, 2.51s/it] 42%|████████████████████████████████████████████████▏ | 288/681 [16:39<16:36, 2.54s/it] {'loss': 0.5814, 'grad_norm': 12.860248565673828, 'learning_rate': 3.5913117612644327e-07, 'beta_dpo/gap_mean': 272.4178161621094, 'beta_dpo/gap_std': 239.0502471923828, 'beta_dpo/beta_used_raw': 0.8364652991294861, 'beta_dpo/beta_used': 1.5804258584976196, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.441218137741089, 'logits/rejected': -2.4160122871398926, 'beta_dpo/beta': 1.5804258584976196, 'beta_dpo/loss_margin_mean': 287.3144226074219, 'beta_dpo/beta_margin_mean': 554.5604858398438, 'beta_dpo/beta_margin_std': 696.531982421875, 'beta_dpo/beta_margin_grad_mean': -0.22239087522029877, 'beta_dpo/beta_margin_grad_std': 0.22534386813640594, 'epoch': 0.42} 42%|████████████████████████████████████████████████▏ | 288/681 [16:39<16:36, 2.54s/it] 42%|████████████████████████████████████████████████▍ | 289/681 [16:42<16:25, 2.51s/it] {'loss': 2.1497, 'grad_norm': 1399.761962890625, 'learning_rate': 3.5797514096221024e-07, 'beta_dpo/gap_mean': 267.7777404785156, 'beta_dpo/gap_std': 242.87863159179688, 'beta_dpo/beta_used_raw': -2.816128730773926, 'beta_dpo/beta_used': 0.12335401028394699, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.432061195373535, 'logits/rejected': -2.416738986968994, 'beta_dpo/beta': 0.12335401028394699, 'beta_dpo/loss_margin_mean': 269.4267883300781, 'beta_dpo/beta_margin_mean': 38.710533142089844, 'beta_dpo/beta_margin_std': 60.30266189575195, 'beta_dpo/beta_margin_grad_mean': -0.2808164358139038, 'beta_dpo/beta_margin_grad_std': 0.2781689763069153, 'epoch': 0.42} 42%|████████████████████████████████████████████████▍ | 289/681 [16:42<16:25, 2.51s/it] 43%|████████████████████████████████████████████████▌ | 290/681 [16:44<16:03, 2.47s/it] {'loss': 0.8021, 'grad_norm': 4860.09814453125, 'learning_rate': 3.568162605525952e-07, 'beta_dpo/gap_mean': 274.8150634765625, 'beta_dpo/gap_std': 246.7188720703125, 'beta_dpo/beta_used_raw': -1.4733829498291016, 'beta_dpo/beta_used': 0.4147535264492035, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.382627010345459, 'logits/rejected': -2.3980727195739746, 'beta_dpo/beta': 0.4147535264492035, 'beta_dpo/loss_margin_mean': 309.44354248046875, 'beta_dpo/beta_margin_mean': 118.29973602294922, 'beta_dpo/beta_margin_std': 170.95254516601562, 'beta_dpo/beta_margin_grad_mean': -0.257093608379364, 'beta_dpo/beta_margin_grad_std': 0.2680981159210205, 'epoch': 0.43} 43%|████████████████████████████████████████████████▌ | 290/681 [16:44<16:03, 2.47s/it] 43%|████████████████████████████████████████████████▋ | 291/681 [16:46<16:16, 2.50s/it] {'loss': 1.1703, 'grad_norm': 17.112838745117188, 'learning_rate': 3.5565456543517485e-07, 'beta_dpo/gap_mean': 271.6788635253906, 'beta_dpo/gap_std': 250.40158081054688, 'beta_dpo/beta_used_raw': -1.8497285842895508, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4613046646118164, 'logits/rejected': -2.4365696907043457, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 243.9271240234375, 'beta_dpo/beta_margin_mean': 0.24392713606357574, 'beta_dpo/beta_margin_std': 0.24562755227088928, 'beta_dpo/beta_margin_grad_mean': -0.44023028016090393, 'beta_dpo/beta_margin_grad_std': 0.05959730222821236, 'epoch': 0.43} 43%|████████████████████████████████████████████████▋ | 291/681 [16:46<16:16, 2.50s/it] 43%|████████████████████████████████████████████████▉ | 292/681 [16:49<15:58, 2.46s/it] {'loss': 4.748, 'grad_norm': 5888.60498046875, 'learning_rate': 3.5449008622169583e-07, 'beta_dpo/gap_mean': 274.6377868652344, 'beta_dpo/gap_std': 246.9325408935547, 'beta_dpo/beta_used_raw': 0.09813689440488815, 'beta_dpo/beta_used': 0.21685589849948883, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3982367515563965, 'logits/rejected': -2.3866944313049316, 'beta_dpo/beta': 0.21685589849948883, 'beta_dpo/loss_margin_mean': 290.8916015625, 'beta_dpo/beta_margin_mean': 62.53536605834961, 'beta_dpo/beta_margin_std': 106.66192626953125, 'beta_dpo/beta_margin_grad_mean': -0.3011167347431183, 'beta_dpo/beta_margin_grad_std': 0.28959137201309204, 'epoch': 0.43} 43%|████████████████████████████████████████████████▉ | 292/681 [16:49<15:58, 2.46s/it] 43%|█████████████████████████████████████████████████ | 293/681 [16:51<16:10, 2.50s/it] {'loss': 1.1695, 'grad_norm': 15.048643112182617, 'learning_rate': 3.5332285359726846e-07, 'beta_dpo/gap_mean': 269.470703125, 'beta_dpo/gap_std': 247.3360137939453, 'beta_dpo/beta_used_raw': -1.6080701351165771, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4533298015594482, 'logits/rejected': -2.4286036491394043, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 238.1273956298828, 'beta_dpo/beta_margin_mean': 0.23812739551067352, 'beta_dpo/beta_margin_std': 0.24970707297325134, 'beta_dpo/beta_margin_grad_mean': -0.4417594075202942, 'beta_dpo/beta_margin_grad_std': 0.06032756716012955, 'epoch': 0.43} 43%|█████████████████████████████████████████████████ | 293/681 [16:51<16:10, 2.50s/it] 43%|█████████████████████████████████████████████████▏ | 294/681 [16:54<16:03, 2.49s/it] {'loss': 1.1791, 'grad_norm': 17.06812286376953, 'learning_rate': 3.5215289831955786e-07, 'beta_dpo/gap_mean': 265.29278564453125, 'beta_dpo/gap_std': 245.94830322265625, 'beta_dpo/beta_used_raw': -2.280418872833252, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3770015239715576, 'logits/rejected': -2.384579658508301, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 241.1770477294922, 'beta_dpo/beta_margin_mean': 0.2411770522594452, 'beta_dpo/beta_margin_std': 0.22201335430145264, 'beta_dpo/beta_margin_grad_mean': -0.4407859146595001, 'beta_dpo/beta_margin_grad_std': 0.053464584052562714, 'epoch': 0.43} 43%|█████████████████████████████████████████████████▏ | 294/681 [16:54<16:03, 2.49s/it] 43%|█████████████████████████████████████████████████▍ | 295/681 [16:56<15:46, 2.45s/it] {'loss': 0.5964, 'grad_norm': 11.919480323791504, 'learning_rate': 3.509802512179737e-07, 'beta_dpo/gap_mean': 266.80670166015625, 'beta_dpo/gap_std': 250.25885009765625, 'beta_dpo/beta_used_raw': 0.6230998039245605, 'beta_dpo/beta_used': 2.3084752559661865, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.370579719543457, 'logits/rejected': -2.3648414611816406, 'beta_dpo/beta': 2.3084752559661865, 'beta_dpo/loss_margin_mean': 285.25213623046875, 'beta_dpo/beta_margin_mean': 686.6762084960938, 'beta_dpo/beta_margin_std': 1093.60888671875, 'beta_dpo/beta_margin_grad_mean': -0.2641025185585022, 'beta_dpo/beta_margin_grad_std': 0.2718868553638458, 'epoch': 0.43} 43%|█████████████████████████████████████████████████▍ | 295/681 [16:56<15:46, 2.45s/it] 43%|█████████████████████████████████████████████████▌ | 296/681 [16:59<15:35, 2.43s/it] {'loss': 1.1781, 'grad_norm': 16.63273811340332, 'learning_rate': 3.498049431928577e-07, 'beta_dpo/gap_mean': 264.58294677734375, 'beta_dpo/gap_std': 255.38644409179688, 'beta_dpo/beta_used_raw': -1.7434802055358887, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4266653060913086, 'logits/rejected': -2.3969693183898926, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 242.2938690185547, 'beta_dpo/beta_margin_mean': 0.24229387938976288, 'beta_dpo/beta_margin_std': 0.2558496296405792, 'beta_dpo/beta_margin_grad_mean': -0.44102582335472107, 'beta_dpo/beta_margin_grad_std': 0.06035232171416283, 'epoch': 0.43} 43%|█████████████████████████████████████████████████▌ | 296/681 [16:59<15:35, 2.43s/it] 44%|█████████████████████████████████████████████████▋ | 297/681 [17:01<15:29, 2.42s/it] {'loss': 1.1732, 'grad_norm': 17.059518814086914, 'learning_rate': 3.486270052146694e-07, 'beta_dpo/gap_mean': 262.3899841308594, 'beta_dpo/gap_std': 251.85415649414062, 'beta_dpo/beta_used_raw': -1.5507869720458984, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.384669303894043, 'logits/rejected': -2.378746509552002, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 266.7861022949219, 'beta_dpo/beta_margin_mean': 0.266786128282547, 'beta_dpo/beta_margin_std': 0.2364174723625183, 'beta_dpo/beta_margin_grad_mean': -0.43483033776283264, 'beta_dpo/beta_margin_grad_std': 0.05599094182252884, 'epoch': 0.44} 44%|█████████████████████████████████████████████████▋ | 297/681 [17:01<15:29, 2.42s/it] 44%|█████████████████████████████████████████████████▉ | 298/681 [17:04<15:34, 2.44s/it] {'loss': 0.571, 'grad_norm': 11.470409393310547, 'learning_rate': 3.474464683231698e-07, 'beta_dpo/gap_mean': 272.2360534667969, 'beta_dpo/gap_std': 257.9064636230469, 'beta_dpo/beta_used_raw': 2.4882137775421143, 'beta_dpo/beta_used': 2.586780071258545, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.401449680328369, 'logits/rejected': -2.4212589263916016, 'beta_dpo/beta': 2.586780071258545, 'beta_dpo/loss_margin_mean': 338.0078430175781, 'beta_dpo/beta_margin_mean': 772.3213500976562, 'beta_dpo/beta_margin_std': 1197.1170654296875, 'beta_dpo/beta_margin_grad_mean': -0.2367078959941864, 'beta_dpo/beta_margin_grad_std': 0.25049635767936707, 'epoch': 0.44} 44%|█████████████████████████████████████████████████▉ | 298/681 [17:04<15:34, 2.44s/it] 44%|██████████████████████████████████████████████████ | 299/681 [17:06<15:43, 2.47s/it] {'loss': 1.1586, 'grad_norm': 15.817339897155762, 'learning_rate': 3.462633636266041e-07, 'beta_dpo/gap_mean': 274.23779296875, 'beta_dpo/gap_std': 258.99835205078125, 'beta_dpo/beta_used_raw': -1.441830039024353, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.361654281616211, 'logits/rejected': -2.373199224472046, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 268.77032470703125, 'beta_dpo/beta_margin_mean': 0.26877033710479736, 'beta_dpo/beta_margin_std': 0.2329106479883194, 'beta_dpo/beta_margin_grad_mean': -0.4342046082019806, 'beta_dpo/beta_margin_grad_std': 0.055606916546821594, 'epoch': 0.44} 44%|██████████████████████████████████████████████████ | 299/681 [17:06<15:43, 2.47s/it] 44%|██████████████████████████████████████████████████▏ | 300/681 [17:09<16:08, 2.54s/it] {'loss': 0.5857, 'grad_norm': 14.615754127502441, 'learning_rate': 3.4507772230088147e-07, 'beta_dpo/gap_mean': 281.2528991699219, 'beta_dpo/gap_std': 265.603759765625, 'beta_dpo/beta_used_raw': -0.06062328815460205, 'beta_dpo/beta_used': 1.0433894395828247, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.371137857437134, 'logits/rejected': -2.378791570663452, 'beta_dpo/beta': 1.0433894395828247, 'beta_dpo/loss_margin_mean': 316.542236328125, 'beta_dpo/beta_margin_mean': 355.8514709472656, 'beta_dpo/beta_margin_std': 520.4441528320312, 'beta_dpo/beta_margin_grad_mean': -0.2306303083896637, 'beta_dpo/beta_margin_grad_std': 0.24043621122837067, 'epoch': 0.44} 44%|██████████████████████████████████████████████████▏ | 300/681 [17:09<16:08, 2.54s/it][INFO|trainer.py:4307] 2026-04-18 06:22:53,353 >> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-18 06:22:53,353 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-18 06:22:53,354 >> Batch size = 8 0%| | 0/73 [00:00> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-18 06:27:37,661 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-18 06:27:37,661 >> Batch size = 8 0%| | 0/73 [00:00> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-400 [INFO|configuration_utils.py:419] 2026-04-18 06:28:29,583 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-400/config.json [INFO|configuration_utils.py:911] 2026-04-18 06:28:29,675 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-400/generation_config.json [INFO|modeling_utils.py:3580] 2026-04-18 06:29:07,601 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-400/model.safetensors.index.json. [INFO|tokenization_utils_base.py:2510] 2026-04-18 06:29:07,617 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-400/tokenizer_config.json [INFO|tokenization_utils_base.py:2519] 2026-04-18 06:29:07,626 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-400/special_tokens_map.json 59%|█████████████████████████████████████████████████████████████████▉ | 401/681 [26:03<5:58:20, 76.79s/it] {'loss': 3.0841, 'grad_norm': 3323.7548828125, 'learning_rate': 2.1800473436235136e-07, 'beta_dpo/gap_mean': 361.82781982421875, 'beta_dpo/gap_std': 342.1406555175781, 'beta_dpo/beta_used_raw': -1.9135266542434692, 'beta_dpo/beta_used': 1.0822142362594604, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4136600494384766, 'logits/rejected': -2.4133119583129883, 'beta_dpo/beta': 1.0822142362594604, 'beta_dpo/loss_margin_mean': 327.20556640625, 'beta_dpo/beta_margin_mean': 469.0853576660156, 'beta_dpo/beta_margin_std': 778.7431030273438, 'beta_dpo/beta_margin_grad_mean': -0.27038997411727905, 'beta_dpo/beta_margin_grad_std': 0.27789729833602905, 'epoch': 0.59} 59%|█████████████████████████████████████████████████████████████████▉ | 401/681 [26:03<5:58:20, 76.79s/it] 59%|██████████████████████████████████████████████████████████████████ | 402/681 [26:06<4:13:10, 54.45s/it] {'loss': 1.1155, 'grad_norm': 22.399593353271484, 'learning_rate': 2.1673238449588665e-07, 'beta_dpo/gap_mean': 353.83746337890625, 'beta_dpo/gap_std': 333.810302734375, 'beta_dpo/beta_used_raw': -2.9857521057128906, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.428457736968994, 'logits/rejected': -2.423470973968506, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 353.67242431640625, 'beta_dpo/beta_margin_mean': 0.35367244482040405, 'beta_dpo/beta_margin_std': 0.2750694453716278, 'beta_dpo/beta_margin_grad_mean': -0.41412436962127686, 'beta_dpo/beta_margin_grad_std': 0.0651504173874855, 'epoch': 0.59} 59%|██████████████████████████████████████████████████████████████████ | 402/681 [26:06<4:13:10, 54.45s/it] 59%|██████████████████████████████████████████████████████████████████▎ | 403/681 [26:08<2:59:57, 38.84s/it] {'loss': 0.5649, 'grad_norm': 11.740818977355957, 'learning_rate': 2.154609112620295e-07, 'beta_dpo/gap_mean': 355.718994140625, 'beta_dpo/gap_std': 329.26959228515625, 'beta_dpo/beta_used_raw': 0.7853410243988037, 'beta_dpo/beta_used': 2.470536470413208, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.408144474029541, 'logits/rejected': -2.403205394744873, 'beta_dpo/beta': 2.470536470413208, 'beta_dpo/loss_margin_mean': 364.1114807128906, 'beta_dpo/beta_margin_mean': 895.9714965820312, 'beta_dpo/beta_margin_std': 1318.6358642578125, 'beta_dpo/beta_margin_grad_mean': -0.2379431277513504, 'beta_dpo/beta_margin_grad_std': 0.2529750466346741, 'epoch': 0.59} 59%|██████████████████████████████████████████████████████████████████▎ | 403/681 [26:08<2:59:57, 38.84s/it] 59%|██████████████████████████████████████████████████████████████████▍ | 404/681 [26:11<2:09:05, 27.96s/it] {'loss': 1.1159, 'grad_norm': 22.172229766845703, 'learning_rate': 2.1419034816528218e-07, 'beta_dpo/gap_mean': 351.60748291015625, 'beta_dpo/gap_std': 336.61431884765625, 'beta_dpo/beta_used_raw': -2.5054094791412354, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3768763542175293, 'logits/rejected': -2.3775620460510254, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 334.2151794433594, 'beta_dpo/beta_margin_mean': 0.3342151939868927, 'beta_dpo/beta_margin_std': 0.3467388153076172, 'beta_dpo/beta_margin_grad_mean': -0.4196135401725769, 'beta_dpo/beta_margin_grad_std': 0.08152054995298386, 'epoch': 0.59} 59%|██████████████████████████████████████████████████████████████████▍ | 404/681 [26:11<2:09:05, 27.96s/it] 59%|██████████████████████████████████████████████████████████████████▌ | 405/681 [26:13<1:33:18, 20.28s/it] {'loss': 1.1631, 'grad_norm': 24.03404426574707, 'learning_rate': 2.129207286861638e-07, 'beta_dpo/gap_mean': 349.62945556640625, 'beta_dpo/gap_std': 341.0721435546875, 'beta_dpo/beta_used_raw': -5.212499618530273, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.394247531890869, 'logits/rejected': -2.390904426574707, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 345.2384338378906, 'beta_dpo/beta_margin_mean': 0.34523844718933105, 'beta_dpo/beta_margin_std': 0.38265952467918396, 'beta_dpo/beta_margin_grad_mean': -0.4178047478199005, 'beta_dpo/beta_margin_grad_std': 0.08822597563266754, 'epoch': 0.59} 59%|██████████████████████████████████████████████████████████████████▌ | 405/681 [26:13<1:33:18, 20.28s/it] 60%|██████████████████████████████████████████████████████████████████▊ | 406/681 [26:15<1:08:28, 14.94s/it] {'loss': 1.0938, 'grad_norm': 22.132526397705078, 'learning_rate': 2.1165208628032861e-07, 'beta_dpo/gap_mean': 353.78961181640625, 'beta_dpo/gap_std': 335.23284912109375, 'beta_dpo/beta_used_raw': -1.0216950178146362, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3941879272460938, 'logits/rejected': -2.3966739177703857, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 381.6227722167969, 'beta_dpo/beta_margin_mean': 0.3816227912902832, 'beta_dpo/beta_margin_std': 0.29813575744628906, 'beta_dpo/beta_margin_grad_mean': -0.40800565481185913, 'beta_dpo/beta_margin_grad_std': 0.06867733597755432, 'epoch': 0.6} 60%|██████████████████████████████████████████████████████████████████▊ | 406/681 [26:15<1:08:28, 14.94s/it] 60%|████████████████████████████████████████████████████████████████████▏ | 407/681 [26:18<51:20, 11.24s/it] {'loss': 7.8766, 'grad_norm': 15591.009765625, 'learning_rate': 2.1038445437768375e-07, 'beta_dpo/gap_mean': 344.74383544921875, 'beta_dpo/gap_std': 335.9972229003906, 'beta_dpo/beta_used_raw': -1.0896592140197754, 'beta_dpo/beta_used': 1.3681471347808838, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4210031032562256, 'logits/rejected': -2.4093196392059326, 'beta_dpo/beta': 1.3681471347808838, 'beta_dpo/loss_margin_mean': 297.04425048828125, 'beta_dpo/beta_margin_mean': 529.73486328125, 'beta_dpo/beta_margin_std': 880.0147094726562, 'beta_dpo/beta_margin_grad_mean': -0.2872449457645416, 'beta_dpo/beta_margin_grad_std': 0.2897031307220459, 'epoch': 0.6} 60%|████████████████████████████████████████████████████████████████████▏ | 407/681 [26:18<51:20, 11.24s/it] 60%|████████████████████████████████████████████████████████████████████▎ | 408/681 [26:21<39:28, 8.68s/it] {'loss': 2.3999, 'grad_norm': 2112.055419921875, 'learning_rate': 2.0911786638150872e-07, 'beta_dpo/gap_mean': 342.59320068359375, 'beta_dpo/gap_std': 329.6495361328125, 'beta_dpo/beta_used_raw': -1.5166099071502686, 'beta_dpo/beta_used': 0.12347578257322311, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4404101371765137, 'logits/rejected': -2.420276641845703, 'beta_dpo/beta': 0.12347578257322311, 'beta_dpo/loss_margin_mean': 304.6890563964844, 'beta_dpo/beta_margin_mean': 42.36891174316406, 'beta_dpo/beta_margin_std': 62.56731414794922, 'beta_dpo/beta_margin_grad_mean': -0.28025034070014954, 'beta_dpo/beta_margin_grad_std': 0.2851478159427643, 'epoch': 0.6} 60%|████████████████████████████████████████████████████████████████████▎ | 408/681 [26:21<39:28, 8.68s/it] 60%|████████████████████████████████████████████████████████████████████▍ | 409/681 [26:23<31:00, 6.84s/it] {'loss': 1.1187, 'grad_norm': 20.568885803222656, 'learning_rate': 2.0785235566757517e-07, 'beta_dpo/gap_mean': 331.255126953125, 'beta_dpo/gap_std': 332.9500732421875, 'beta_dpo/beta_used_raw': -1.490858793258667, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4326343536376953, 'logits/rejected': -2.4223175048828125, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 292.28662109375, 'beta_dpo/beta_margin_mean': 0.29228663444519043, 'beta_dpo/beta_margin_std': 0.34818896651268005, 'beta_dpo/beta_margin_grad_mean': -0.4296059310436249, 'beta_dpo/beta_margin_grad_std': 0.08227775245904922, 'epoch': 0.6} 60%|████████████████████████████████████████████████████████████████████▍ | 409/681 [26:23<31:00, 6.84s/it] 60%|████████████████████████████████████████████████████████████████████▋ | 410/681 [26:26<24:47, 5.49s/it] {'loss': 1.872, 'grad_norm': 28801.537109375, 'learning_rate': 2.065879555832674e-07, 'beta_dpo/gap_mean': 334.65582275390625, 'beta_dpo/gap_std': 324.4977111816406, 'beta_dpo/beta_used_raw': 0.11705267429351807, 'beta_dpo/beta_used': 1.8076552152633667, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.426015853881836, 'logits/rejected': -2.4410088062286377, 'beta_dpo/beta': 1.8076552152633667, 'beta_dpo/loss_margin_mean': 339.3305358886719, 'beta_dpo/beta_margin_mean': 749.4814453125, 'beta_dpo/beta_margin_std': 1033.7783203125, 'beta_dpo/beta_margin_grad_mean': -0.24894118309020996, 'beta_dpo/beta_margin_grad_std': 0.2569856345653534, 'epoch': 0.6} 60%|████████████████████████████████████████████████████████████████████▋ | 410/681 [26:26<24:47, 5.49s/it] 60%|████████████████████████████████████████████████████████████████████▊ | 411/681 [26:28<20:28, 4.55s/it] {'loss': 1.1076, 'grad_norm': 19.184236526489258, 'learning_rate': 2.0532469944670343e-07, 'beta_dpo/gap_mean': 335.4295654296875, 'beta_dpo/gap_std': 315.85736083984375, 'beta_dpo/beta_used_raw': -1.1547770500183105, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.3894524574279785, 'logits/rejected': -2.401761293411255, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 353.8236083984375, 'beta_dpo/beta_margin_mean': 0.35382363200187683, 'beta_dpo/beta_margin_std': 0.27380073070526123, 'beta_dpo/beta_margin_grad_mean': -0.4142020046710968, 'beta_dpo/beta_margin_grad_std': 0.06422904133796692, 'epoch': 0.6} 60%|████████████████████████████████████████████████████████████████████▊ | 411/681 [26:28<20:28, 4.55s/it] 60%|████████████████████████████████████████████████████████████████████▉ | 412/681 [26:30<17:26, 3.89s/it] {'loss': 1.1086, 'grad_norm': 22.225645065307617, 'learning_rate': 2.0406262054585738e-07, 'beta_dpo/gap_mean': 340.3641052246094, 'beta_dpo/gap_std': 316.4858093261719, 'beta_dpo/beta_used_raw': -1.261457920074463, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.419179677963257, 'logits/rejected': -2.4454574584960938, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 394.83026123046875, 'beta_dpo/beta_margin_mean': 0.39483025670051575, 'beta_dpo/beta_margin_std': 0.3526383638381958, 'beta_dpo/beta_margin_grad_mean': -0.4059164226055145, 'beta_dpo/beta_margin_grad_std': 0.07964363694190979, 'epoch': 0.6} 60%|████████████████████████████████████████████████████████████████████▉ | 412/681 [26:30<17:26, 3.89s/it] 61%|█████████████████████████████████████████████████████████████████████▏ | 413/681 [26:33<15:22, 3.44s/it] {'loss': 7.296, 'grad_norm': 12787.8896484375, 'learning_rate': 2.0280175213768205e-07, 'beta_dpo/gap_mean': 349.16204833984375, 'beta_dpo/gap_std': 321.62481689453125, 'beta_dpo/beta_used_raw': 0.9109219908714294, 'beta_dpo/beta_used': 0.9109219908714294, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.421027660369873, 'logits/rejected': -2.4294235706329346, 'beta_dpo/beta': 0.9109219908714294, 'beta_dpo/loss_margin_mean': 370.2857666015625, 'beta_dpo/beta_margin_mean': 362.6519775390625, 'beta_dpo/beta_margin_std': 495.7064514160156, 'beta_dpo/beta_margin_grad_mean': -0.09896637499332428, 'beta_dpo/beta_margin_grad_std': 0.2925999164581299, 'epoch': 0.61} 61%|█████████████████████████████████████████████████████████████████████▏ | 413/681 [26:33<15:22, 3.44s/it] 61%|█████████████████████████████████████████████████████████████████████▎ | 414/681 [26:35<14:03, 3.16s/it] {'loss': 0.5842, 'grad_norm': 15.694453239440918, 'learning_rate': 2.0154212744723247e-07, 'beta_dpo/gap_mean': 347.5014343261719, 'beta_dpo/gap_std': 315.90374755859375, 'beta_dpo/beta_used_raw': -0.48015403747558594, 'beta_dpo/beta_used': 2.4083163738250732, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4023854732513428, 'logits/rejected': -2.420386552810669, 'beta_dpo/beta': 2.4083163738250732, 'beta_dpo/loss_margin_mean': 354.2364501953125, 'beta_dpo/beta_margin_mean': 1103.0013427734375, 'beta_dpo/beta_margin_std': 1460.6190185546875, 'beta_dpo/beta_margin_grad_mean': -0.23511956632137299, 'beta_dpo/beta_margin_grad_std': 0.24318645894527435, 'epoch': 0.61} 61%|█████████████████████████████████████████████████████████████████████▎ | 414/681 [26:35<14:03, 3.16s/it] 61%|█████████████████████████████████████████████████████████████████████▍ | 415/681 [26:38<13:15, 2.99s/it] {'loss': 1.1358, 'grad_norm': 24.613069534301758, 'learning_rate': 2.002837796667909e-07, 'beta_dpo/gap_mean': 357.978271484375, 'beta_dpo/gap_std': 318.06103515625, 'beta_dpo/beta_used_raw': -4.372532367706299, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.423779010772705, 'logits/rejected': -2.4402318000793457, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 355.1910095214844, 'beta_dpo/beta_margin_mean': 0.35519102215766907, 'beta_dpo/beta_margin_std': 0.3411670923233032, 'beta_dpo/beta_margin_grad_mean': -0.41483768820762634, 'beta_dpo/beta_margin_grad_std': 0.07904361933469772, 'epoch': 0.61} 61%|█████████████████████████████████████████████████████████████████████▍ | 415/681 [26:38<13:15, 2.99s/it] 61%|█████████████████████████████████████████████████████████████████████▋ | 416/681 [26:40<12:33, 2.84s/it] {'loss': 0.5757, 'grad_norm': 20.630220413208008, 'learning_rate': 1.990267419549914e-07, 'beta_dpo/gap_mean': 354.178955078125, 'beta_dpo/gap_std': 311.4892272949219, 'beta_dpo/beta_used_raw': -8.606910705566406e-05, 'beta_dpo/beta_used': 2.4572019577026367, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.422940969467163, 'logits/rejected': -2.435427188873291, 'beta_dpo/beta': 2.4572019577026367, 'beta_dpo/loss_margin_mean': 378.5653991699219, 'beta_dpo/beta_margin_mean': 1054.186767578125, 'beta_dpo/beta_margin_std': 1374.137451171875, 'beta_dpo/beta_margin_grad_mean': -0.22583799064159393, 'beta_dpo/beta_margin_grad_std': 0.2351226955652237, 'epoch': 0.61} 61%|█████████████████████████████████████████████████████████████████████▋ | 416/681 [26:40<12:33, 2.84s/it] 61%|█████████████████████████████████████████████████████████████████████▊ | 417/681 [26:43<12:00, 2.73s/it] {'loss': 12.2488, 'grad_norm': 27230.5078125, 'learning_rate': 1.9777104743594686e-07, 'beta_dpo/gap_mean': 356.74456787109375, 'beta_dpo/gap_std': 307.15887451171875, 'beta_dpo/beta_used_raw': -0.30419254302978516, 'beta_dpo/beta_used': 0.37648269534111023, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.422550678253174, 'logits/rejected': -2.4108152389526367, 'beta_dpo/beta': 0.37648269534111023, 'beta_dpo/loss_margin_mean': 345.98773193359375, 'beta_dpo/beta_margin_mean': 133.46795654296875, 'beta_dpo/beta_margin_std': 200.62649536132812, 'beta_dpo/beta_margin_grad_mean': -0.27004316449165344, 'beta_dpo/beta_margin_grad_std': 0.277245432138443, 'epoch': 0.61} 61%|█████████████████████████████████████████████████████████████████████▊ | 417/681 [26:43<12:00, 2.73s/it] 61%|█████████████████████████████████████████████████████████████████████▉ | 418/681 [26:45<11:44, 2.68s/it] {'loss': 0.5562, 'grad_norm': 15.336505889892578, 'learning_rate': 1.965167291983757e-07, 'beta_dpo/gap_mean': 356.8074645996094, 'beta_dpo/gap_std': 310.31988525390625, 'beta_dpo/beta_used_raw': 2.9994614124298096, 'beta_dpo/beta_used': 3.925933837890625, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4672048091888428, 'logits/rejected': -2.467080593109131, 'beta_dpo/beta': 3.925933837890625, 'beta_dpo/loss_margin_mean': 394.4806213378906, 'beta_dpo/beta_margin_mean': 1944.69580078125, 'beta_dpo/beta_margin_std': 2413.48388671875, 'beta_dpo/beta_margin_grad_mean': -0.21461881697177887, 'beta_dpo/beta_margin_grad_std': 0.22274993360042572, 'epoch': 0.61} 61%|█████████████████████████████████████████████████████████████████████▉ | 418/681 [26:45<11:44, 2.68s/it] 62%|██████████████████████████████████████████████████████████████████████▏ | 419/681 [26:48<11:28, 2.63s/it] {'loss': 0.6635, 'grad_norm': 3546.734375, 'learning_rate': 1.9526382029472988e-07, 'beta_dpo/gap_mean': 366.676513671875, 'beta_dpo/gap_std': 303.807373046875, 'beta_dpo/beta_used_raw': -0.4406244158744812, 'beta_dpo/beta_used': 0.24180491268634796, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4470913410186768, 'logits/rejected': -2.453092336654663, 'beta_dpo/beta': 0.24180491268634796, 'beta_dpo/loss_margin_mean': 380.661376953125, 'beta_dpo/beta_margin_mean': 92.98143005371094, 'beta_dpo/beta_margin_std': 130.87518310546875, 'beta_dpo/beta_margin_grad_mean': -0.24379843473434448, 'beta_dpo/beta_margin_grad_std': 0.24562664330005646, 'epoch': 0.62} 62%|██████████████████████████████████████████████████████████████████████▏ | 419/681 [26:48<11:28, 2.63s/it] 62%|██████████████████████████████████████████████████████████████████████▎ | 420/681 [26:50<11:26, 2.63s/it] {'loss': 14.9604, 'grad_norm': 19327.3125, 'learning_rate': 1.9401235374032425e-07, 'beta_dpo/gap_mean': 362.47210693359375, 'beta_dpo/gap_std': 298.56646728515625, 'beta_dpo/beta_used_raw': 1.377697229385376, 'beta_dpo/beta_used': 1.377697229385376, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.411374092102051, 'logits/rejected': -2.393552780151367, 'beta_dpo/beta': 1.377697229385376, 'beta_dpo/loss_margin_mean': 335.21160888671875, 'beta_dpo/beta_margin_mean': 463.7217102050781, 'beta_dpo/beta_margin_std': 575.2052612304688, 'beta_dpo/beta_margin_grad_mean': -0.12197641283273697, 'beta_dpo/beta_margin_grad_std': 0.32349058985710144, 'epoch': 0.62} 62%|██████████████████████████████████████████████████████████████████████▎ | 420/681 [26:50<11:26, 2.63s/it] 62%|██████████████████████████████████████████████████████████████████████▍ | 421/681 [26:53<11:09, 2.57s/it] {'loss': 1.0969, 'grad_norm': 20.577306747436523, 'learning_rate': 1.9276236251246653e-07, 'beta_dpo/gap_mean': 360.69580078125, 'beta_dpo/gap_std': 296.3153076171875, 'beta_dpo/beta_used_raw': -1.6941306591033936, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4650721549987793, 'logits/rejected': -2.475637912750244, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 365.2017517089844, 'beta_dpo/beta_margin_mean': 0.36520177125930786, 'beta_dpo/beta_margin_std': 0.29842692613601685, 'beta_dpo/beta_margin_grad_mean': -0.411777138710022, 'beta_dpo/beta_margin_grad_std': 0.07005602866411209, 'epoch': 0.62} 62%|██████████████████████████████████████████████████████████████████████▍ | 421/681 [26:53<11:09, 2.57s/it] 62%|██████████████████████████████████████████████████████████████████████▋ | 422/681 [26:55<11:01, 2.55s/it] {'loss': 1.1011, 'grad_norm': 27.27686309814453, 'learning_rate': 1.9151387954958792e-07, 'beta_dpo/gap_mean': 356.1475524902344, 'beta_dpo/gap_std': 305.0068664550781, 'beta_dpo/beta_used_raw': -1.5142788887023926, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.433502674102783, 'logits/rejected': -2.4503097534179688, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 305.07244873046875, 'beta_dpo/beta_margin_mean': 0.30507245659828186, 'beta_dpo/beta_margin_std': 0.3505830466747284, 'beta_dpo/beta_margin_grad_mean': -0.4262285530567169, 'beta_dpo/beta_margin_grad_std': 0.08390183001756668, 'epoch': 0.62} 62%|██████████████████████████████████████████████████████████████████████▋ | 422/681 [26:55<11:01, 2.55s/it] 62%|██████████████████████████████████████████████████████████████████████▊ | 423/681 [26:58<10:38, 2.48s/it] {'loss': 27.8684, 'grad_norm': 49413.26953125, 'learning_rate': 1.902669377503756e-07, 'beta_dpo/gap_mean': 355.60418701171875, 'beta_dpo/gap_std': 305.63763427734375, 'beta_dpo/beta_used_raw': 2.667612075805664, 'beta_dpo/beta_used': 2.667612075805664, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4104795455932617, 'logits/rejected': -2.43206787109375, 'beta_dpo/beta': 2.667612075805664, 'beta_dpo/loss_margin_mean': 379.52520751953125, 'beta_dpo/beta_margin_mean': 1046.2611083984375, 'beta_dpo/beta_margin_std': 1394.6136474609375, 'beta_dpo/beta_margin_grad_mean': -0.09069596976041794, 'beta_dpo/beta_margin_grad_std': 0.2812235653400421, 'epoch': 0.62} 62%|██████████████████████████████████████████████████████████████████████▊ | 423/681 [26:58<10:38, 2.48s/it] 62%|██████████████████████████████████████████████████████████████████████▉ | 424/681 [27:00<10:39, 2.49s/it] {'loss': 1.9952, 'grad_norm': 2292.713134765625, 'learning_rate': 1.890215699729057e-07, 'beta_dpo/gap_mean': 350.1261291503906, 'beta_dpo/gap_std': 303.9034729003906, 'beta_dpo/beta_used_raw': -1.0671793222427368, 'beta_dpo/beta_used': 0.14746440947055817, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.436124086380005, 'logits/rejected': -2.434342861175537, 'beta_dpo/beta': 0.14746440947055817, 'beta_dpo/loss_margin_mean': 301.35723876953125, 'beta_dpo/beta_margin_mean': 50.7834587097168, 'beta_dpo/beta_margin_std': 84.9849624633789, 'beta_dpo/beta_margin_grad_mean': -0.2809794247150421, 'beta_dpo/beta_margin_grad_std': 0.2841648757457733, 'epoch': 0.62} 62%|██████████████████████████████████████████████████████████████████████▉ | 424/681 [27:00<10:39, 2.49s/it] 62%|███████████████████████████████████████████████████████████████████████▏ | 425/681 [27:03<10:31, 2.47s/it] {'loss': 2.1748, 'grad_norm': 3245.521240234375, 'learning_rate': 1.8777780903377732e-07, 'beta_dpo/gap_mean': 347.618896484375, 'beta_dpo/gap_std': 309.3476257324219, 'beta_dpo/beta_used_raw': -0.04413789510726929, 'beta_dpo/beta_used': 0.3063303828239441, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4158806800842285, 'logits/rejected': -2.452991008758545, 'beta_dpo/beta': 0.3063303828239441, 'beta_dpo/loss_margin_mean': 364.8583068847656, 'beta_dpo/beta_margin_mean': 115.15734100341797, 'beta_dpo/beta_margin_std': 173.1321258544922, 'beta_dpo/beta_margin_grad_mean': -0.2702360153198242, 'beta_dpo/beta_margin_grad_std': 0.28220611810684204, 'epoch': 0.62} 62%|███████████████████████████████████████████████████████████████████████▏ | 425/681 [27:03<10:31, 2.47s/it] 63%|███████████████████████████████████████████████████████████████████████▎ | 426/681 [27:05<10:21, 2.44s/it] {'loss': 0.5759, 'grad_norm': 20.291976928710938, 'learning_rate': 1.8653568770724803e-07, 'beta_dpo/gap_mean': 343.1509704589844, 'beta_dpo/gap_std': 309.1755676269531, 'beta_dpo/beta_used_raw': 0.11249232292175293, 'beta_dpo/beta_used': 2.3221449851989746, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4429891109466553, 'logits/rejected': -2.435697078704834, 'beta_dpo/beta': 2.3221449851989746, 'beta_dpo/loss_margin_mean': 330.6883850097656, 'beta_dpo/beta_margin_mean': 937.5267944335938, 'beta_dpo/beta_margin_std': 1492.68994140625, 'beta_dpo/beta_margin_grad_mean': -0.23410384356975555, 'beta_dpo/beta_margin_grad_std': 0.2420140653848648, 'epoch': 0.63} 63%|███████████████████████████████████████████████████████████████████████▎ | 426/681 [27:05<10:21, 2.44s/it] 63%|███████████████████████████████████████████████████████████████████████▍ | 427/681 [27:07<10:20, 2.44s/it] {'loss': 1.797, 'grad_norm': 1669.3848876953125, 'learning_rate': 1.8529523872436977e-07, 'beta_dpo/gap_mean': 339.93310546875, 'beta_dpo/gap_std': 314.22222900390625, 'beta_dpo/beta_used_raw': -2.2542648315429688, 'beta_dpo/beta_used': 0.05136517435312271, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.484468460083008, 'logits/rejected': -2.4828639030456543, 'beta_dpo/beta': 0.05136517435312271, 'beta_dpo/loss_margin_mean': 297.6253662109375, 'beta_dpo/beta_margin_mean': 14.553664207458496, 'beta_dpo/beta_margin_std': 25.774181365966797, 'beta_dpo/beta_margin_grad_mean': -0.29277148842811584, 'beta_dpo/beta_margin_grad_std': 0.290822833776474, 'epoch': 0.63} 63%|███████████████████████████████████████████████████████████████████████▍ | 427/681 [27:07<10:20, 2.44s/it] 63%|███████████████████████████████████████████████████████████████████████▋ | 428/681 [27:10<10:23, 2.46s/it] {'loss': 1.1086, 'grad_norm': 29.064952850341797, 'learning_rate': 1.8405649477212697e-07, 'beta_dpo/gap_mean': 344.0052490234375, 'beta_dpo/gap_std': 324.0714416503906, 'beta_dpo/beta_used_raw': -1.5234259366989136, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.44685697555542, 'logits/rejected': -2.4712371826171875, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 393.49945068359375, 'beta_dpo/beta_margin_mean': 0.3934994637966156, 'beta_dpo/beta_margin_std': 0.36640259623527527, 'beta_dpo/beta_margin_grad_mean': -0.4063303768634796, 'beta_dpo/beta_margin_grad_std': 0.08325894176959991, 'epoch': 0.63} 63%|███████████████████████████████████████████████████████████████████████▋ | 428/681 [27:10<10:23, 2.46s/it] 63%|███████████████████████████████████████████████████████████████████████▊ | 429/681 [27:12<10:25, 2.48s/it] {'loss': 23.4925, 'grad_norm': 38852.13671875, 'learning_rate': 1.828194884925749e-07, 'beta_dpo/gap_mean': 350.4301452636719, 'beta_dpo/gap_std': 327.36663818359375, 'beta_dpo/beta_used_raw': 0.639708936214447, 'beta_dpo/beta_used': 1.4477723836898804, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4718470573425293, 'logits/rejected': -2.4727447032928467, 'beta_dpo/beta': 1.4477723836898804, 'beta_dpo/loss_margin_mean': 378.28228759765625, 'beta_dpo/beta_margin_mean': 609.0072631835938, 'beta_dpo/beta_margin_std': 894.19482421875, 'beta_dpo/beta_margin_grad_mean': -0.2723529636859894, 'beta_dpo/beta_margin_grad_std': 0.28279608488082886, 'epoch': 0.63} 63%|███████████████████████████████████████████████████████████████████████▊ | 429/681 [27:13<10:25, 2.48s/it] 63%|███████████████████████████████████████████████████████████████████████▉ | 430/681 [27:15<10:38, 2.54s/it] {'loss': 15.693, 'grad_norm': 50662.0078125, 'learning_rate': 1.8158425248197928e-07, 'beta_dpo/gap_mean': 358.3047180175781, 'beta_dpo/gap_std': 334.221923828125, 'beta_dpo/beta_used_raw': 0.10372543334960938, 'beta_dpo/beta_used': 1.2469240427017212, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4730615615844727, 'logits/rejected': -2.498109817504883, 'beta_dpo/beta': 1.2469240427017212, 'beta_dpo/loss_margin_mean': 370.95501708984375, 'beta_dpo/beta_margin_mean': 510.65069580078125, 'beta_dpo/beta_margin_std': 836.8815307617188, 'beta_dpo/beta_margin_grad_mean': -0.27254435420036316, 'beta_dpo/beta_margin_grad_std': 0.2825857698917389, 'epoch': 0.63} 63%|███████████████████████████████████████████████████████████████████████▉ | 430/681 [27:15<10:38, 2.54s/it] 63%|████████████████████████████████████████████████████████████████████████▏ | 431/681 [27:18<10:33, 2.54s/it] {'loss': 1.1022, 'grad_norm': 24.509140014648438, 'learning_rate': 1.8035081928995788e-07, 'beta_dpo/gap_mean': 365.2705383300781, 'beta_dpo/gap_std': 334.9329833984375, 'beta_dpo/beta_used_raw': -2.4916090965270996, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.456411361694336, 'logits/rejected': -2.4808506965637207, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 395.29296875, 'beta_dpo/beta_margin_mean': 0.3952929973602295, 'beta_dpo/beta_margin_std': 0.3199489414691925, 'beta_dpo/beta_margin_grad_mean': -0.4051775336265564, 'beta_dpo/beta_margin_grad_std': 0.07288450002670288, 'epoch': 0.63} 63%|████████████████████████████████████████████████████████████████████████▏ | 431/681 [27:18<10:33, 2.54s/it] 63%|████████████████████████████████████████████████████████████████████████▎ | 432/681 [27:20<10:35, 2.55s/it] {'loss': 1.1166, 'grad_norm': 25.281761169433594, 'learning_rate': 1.791192214186223e-07, 'beta_dpo/gap_mean': 362.98553466796875, 'beta_dpo/gap_std': 325.4151611328125, 'beta_dpo/beta_used_raw': -3.3621997833251953, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.482973098754883, 'logits/rejected': -2.493764877319336, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 367.0432434082031, 'beta_dpo/beta_margin_mean': 0.36704325675964355, 'beta_dpo/beta_margin_std': 0.28722265362739563, 'beta_dpo/beta_margin_grad_mean': -0.41120636463165283, 'beta_dpo/beta_margin_grad_std': 0.066596120595932, 'epoch': 0.63} 63%|████████████████████████████████████████████████████████████████████████▎ | 432/681 [27:20<10:35, 2.55s/it] 64%|████████████████████████████████████████████████████████████████████████▍ | 433/681 [27:23<10:21, 2.50s/it] {'loss': 13.9108, 'grad_norm': 59117.21484375, 'learning_rate': 1.7788949132172193e-07, 'beta_dpo/gap_mean': 363.06561279296875, 'beta_dpo/gap_std': 322.05609130859375, 'beta_dpo/beta_used_raw': 0.5382475852966309, 'beta_dpo/beta_used': 2.1224658489227295, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4168553352355957, 'logits/rejected': -2.4499008655548096, 'beta_dpo/beta': 2.1224658489227295, 'beta_dpo/loss_margin_mean': 364.42138671875, 'beta_dpo/beta_margin_mean': 841.04052734375, 'beta_dpo/beta_margin_std': 1226.0413818359375, 'beta_dpo/beta_margin_grad_mean': -0.2876777946949005, 'beta_dpo/beta_margin_grad_std': 0.292548805475235, 'epoch': 0.64} 64%|████████████████████████████████████████████████████████████████████████▍ | 433/681 [27:23<10:21, 2.50s/it] 64%|████████████████████████████████████████████████████████████████████████▋ | 434/681 [27:25<10:12, 2.48s/it] {'loss': 1.1136, 'grad_norm': 21.91067123413086, 'learning_rate': 1.7666166140378853e-07, 'beta_dpo/gap_mean': 360.7991943359375, 'beta_dpo/gap_std': 328.626220703125, 'beta_dpo/beta_used_raw': -3.1827993392944336, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5135700702667236, 'logits/rejected': -2.504258155822754, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 317.5693664550781, 'beta_dpo/beta_margin_mean': 0.317569375038147, 'beta_dpo/beta_margin_std': 0.3578694462776184, 'beta_dpo/beta_margin_grad_mean': -0.4250311851501465, 'beta_dpo/beta_margin_grad_std': 0.07213795185089111, 'epoch': 0.64} 64%|████████████████████████████████████████████████████████████████████████▋ | 434/681 [27:25<10:12, 2.48s/it] 64%|████████████████████████████████████████████████████████████████████████▊ | 435/681 [27:27<09:52, 2.41s/it] {'loss': 14.9256, 'grad_norm': 10641.4619140625, 'learning_rate': 1.7543576401928218e-07, 'beta_dpo/gap_mean': 360.8138427734375, 'beta_dpo/gap_std': 327.732177734375, 'beta_dpo/beta_used_raw': 0.6958755850791931, 'beta_dpo/beta_used': 0.6958755850791931, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.479780673980713, 'logits/rejected': -2.4990386962890625, 'beta_dpo/beta': 0.6958755850791931, 'beta_dpo/loss_margin_mean': 387.7349548339844, 'beta_dpo/beta_margin_mean': 274.05462646484375, 'beta_dpo/beta_margin_std': 276.3533935546875, 'beta_dpo/beta_margin_grad_mean': -0.046905096620321274, 'beta_dpo/beta_margin_grad_std': 0.2113645374774933, 'epoch': 0.64} 64%|████████████████████████████████████████████████████████████████████████▊ | 435/681 [27:27<09:52, 2.41s/it] 64%|████████████████████████████████████████████████████████████████████████▉ | 436/681 [27:30<10:02, 2.46s/it] {'loss': 0.5629, 'grad_norm': 35.73384094238281, 'learning_rate': 1.742118314717391e-07, 'beta_dpo/gap_mean': 359.64361572265625, 'beta_dpo/gap_std': 311.7923583984375, 'beta_dpo/beta_used_raw': -0.7592837810516357, 'beta_dpo/beta_used': 1.1166325807571411, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4742934703826904, 'logits/rejected': -2.4709324836730957, 'beta_dpo/beta': 1.1166325807571411, 'beta_dpo/loss_margin_mean': 337.6617736816406, 'beta_dpo/beta_margin_mean': 423.3056335449219, 'beta_dpo/beta_margin_std': 537.5963134765625, 'beta_dpo/beta_margin_grad_mean': -0.22967371344566345, 'beta_dpo/beta_margin_grad_std': 0.2383747398853302, 'epoch': 0.64} 64%|████████████████████████████████████████████████████████████████████████▉ | 436/681 [27:30<10:02, 2.46s/it] 64%|█████████████████████████████████████████████████████████████████████████▏ | 437/681 [27:32<09:58, 2.45s/it] {'loss': 1.8349, 'grad_norm': 7131.47998046875, 'learning_rate': 1.7298989601292036e-07, 'beta_dpo/gap_mean': 351.33404541015625, 'beta_dpo/gap_std': 304.4229431152344, 'beta_dpo/beta_used_raw': 0.32361477613449097, 'beta_dpo/beta_used': 0.42722299695014954, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4637017250061035, 'logits/rejected': -2.454047203063965, 'beta_dpo/beta': 0.42722299695014954, 'beta_dpo/loss_margin_mean': 308.41162109375, 'beta_dpo/beta_margin_mean': 150.46022033691406, 'beta_dpo/beta_margin_std': 217.8881378173828, 'beta_dpo/beta_margin_grad_mean': -0.26437872648239136, 'beta_dpo/beta_margin_grad_std': 0.2714844048023224, 'epoch': 0.64} 64%|█████████████████████████████████████████████████████████████████████████▏ | 437/681 [27:32<09:58, 2.45s/it] 64%|█████████████████████████████████████████████████████████████████████████▎ | 438/681 [27:35<09:45, 2.41s/it] {'loss': 1.0941, 'grad_norm': 25.952686309814453, 'learning_rate': 1.7176998984196144e-07, 'beta_dpo/gap_mean': 347.9464111328125, 'beta_dpo/gap_std': 297.93682861328125, 'beta_dpo/beta_used_raw': -0.8020297884941101, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4292826652526855, 'logits/rejected': -2.4409079551696777, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 358.6143798828125, 'beta_dpo/beta_margin_mean': 0.35861438512802124, 'beta_dpo/beta_margin_std': 0.26432162523269653, 'beta_dpo/beta_margin_grad_mean': -0.4128943979740143, 'beta_dpo/beta_margin_grad_std': 0.06244545429944992, 'epoch': 0.64} 64%|█████████████████████████████████████████████████████████████████████████▎ | 438/681 [27:35<09:45, 2.41s/it] 64%|█████████████████████████████████████████████████████████████████████████▍ | 439/681 [27:37<09:48, 2.43s/it] {'loss': 1.1119, 'grad_norm': 27.892019271850586, 'learning_rate': 1.7055214510452458e-07, 'beta_dpo/gap_mean': 343.51715087890625, 'beta_dpo/gap_std': 292.8160400390625, 'beta_dpo/beta_used_raw': -2.115419864654541, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.435819149017334, 'logits/rejected': -2.4549179077148438, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 298.7552490234375, 'beta_dpo/beta_margin_mean': 0.2987552881240845, 'beta_dpo/beta_margin_std': 0.26535582542419434, 'beta_dpo/beta_margin_grad_mean': -0.42735329270362854, 'beta_dpo/beta_margin_grad_std': 0.0616798959672451, 'epoch': 0.64} 64%|█████████████████████████████████████████████████████████████████████████▍ | 439/681 [27:37<09:48, 2.43s/it] 65%|█████████████████████████████████████████████████████████████████████████▋ | 440/681 [27:40<10:06, 2.52s/it] {'loss': 1.12, 'grad_norm': 34.85447692871094, 'learning_rate': 1.6933639389195134e-07, 'beta_dpo/gap_mean': 340.54168701171875, 'beta_dpo/gap_std': 291.77471923828125, 'beta_dpo/beta_used_raw': -1.8327579498291016, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4840898513793945, 'logits/rejected': -2.5059878826141357, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 345.3592834472656, 'beta_dpo/beta_margin_mean': 0.34535932540893555, 'beta_dpo/beta_margin_std': 0.2985744774341583, 'beta_dpo/beta_margin_grad_mean': -0.4165194034576416, 'beta_dpo/beta_margin_grad_std': 0.07028567790985107, 'epoch': 0.65} 65%|█████████████████████████████████████████████████████████████████████████▋ | 440/681 [27:40<10:06, 2.52s/it] 65%|█████████████████████████████████████████████████████████████████████████▊ | 441/681 [27:42<10:10, 2.54s/it] {'loss': 1.0976, 'grad_norm': 23.49580192565918, 'learning_rate': 1.681227682404166e-07, 'beta_dpo/gap_mean': 340.91888427734375, 'beta_dpo/gap_std': 290.773681640625, 'beta_dpo/beta_used_raw': -0.8756400346755981, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4471378326416016, 'logits/rejected': -2.469273805618286, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 350.50396728515625, 'beta_dpo/beta_margin_mean': 0.3505040109157562, 'beta_dpo/beta_margin_std': 0.2713123559951782, 'beta_dpo/beta_margin_grad_mean': -0.4149302840232849, 'beta_dpo/beta_margin_grad_std': 0.06381641328334808, 'epoch': 0.65} 65%|█████████████████████████████████████████████████████████████████████████▊ | 441/681 [27:43<10:10, 2.54s/it] 65%|█████████████████████████████████████████████████████████████████████████▉ | 442/681 [27:45<10:11, 2.56s/it] {'loss': 6.0554, 'grad_norm': 25934.462890625, 'learning_rate': 1.669113001300851e-07, 'beta_dpo/gap_mean': 348.65679931640625, 'beta_dpo/gap_std': 282.76776123046875, 'beta_dpo/beta_used_raw': 2.011472702026367, 'beta_dpo/beta_used': 2.011472702026367, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.450514316558838, 'logits/rejected': -2.4609298706054688, 'beta_dpo/beta': 2.011472702026367, 'beta_dpo/loss_margin_mean': 388.67510986328125, 'beta_dpo/beta_margin_mean': 782.205322265625, 'beta_dpo/beta_margin_std': 524.3056030273438, 'beta_dpo/beta_margin_grad_mean': -0.06538188457489014, 'beta_dpo/beta_margin_grad_std': 0.24239790439605713, 'epoch': 0.65} 65%|█████████████████████████████████████████████████████████████████████████▉ | 442/681 [27:45<10:11, 2.56s/it] 65%|██████████████████████████████████████████████████████████████████████████▏ | 443/681 [27:47<09:58, 2.51s/it] {'loss': 1.1169, 'grad_norm': 22.906946182250977, 'learning_rate': 1.6570202148426815e-07, 'beta_dpo/gap_mean': 344.43426513671875, 'beta_dpo/gap_std': 289.60614013671875, 'beta_dpo/beta_used_raw': -2.1781232357025146, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.47257661819458, 'logits/rejected': -2.4808216094970703, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 293.86553955078125, 'beta_dpo/beta_margin_mean': 0.2938655614852905, 'beta_dpo/beta_margin_std': 0.33218199014663696, 'beta_dpo/beta_margin_grad_mean': -0.42931288480758667, 'beta_dpo/beta_margin_grad_std': 0.07746709883213043, 'epoch': 0.65} 65%|██████████████████████████████████████████████████████████████████████████▏ | 443/681 [27:48<09:58, 2.51s/it] 65%|██████████████████████████████████████████████████████████████████████████▎ | 444/681 [27:50<09:53, 2.50s/it] {'loss': 0.5403, 'grad_norm': 21.445575714111328, 'learning_rate': 1.6449496416858282e-07, 'beta_dpo/gap_mean': 353.92706298828125, 'beta_dpo/gap_std': 291.21728515625, 'beta_dpo/beta_used_raw': 0.622127115726471, 'beta_dpo/beta_used': 0.8307179808616638, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4195876121520996, 'logits/rejected': -2.456974983215332, 'beta_dpo/beta': 0.8307179808616638, 'beta_dpo/loss_margin_mean': 429.93499755859375, 'beta_dpo/beta_margin_mean': 372.78521728515625, 'beta_dpo/beta_margin_std': 491.99072265625, 'beta_dpo/beta_margin_grad_mean': -0.20021703839302063, 'beta_dpo/beta_margin_grad_std': 0.20530231297016144, 'epoch': 0.65} 65%|██████████████████████████████████████████████████████████████████████████▎ | 444/681 [27:50<09:53, 2.50s/it] 65%|██████████████████████████████████████████████████████████████████████████▍ | 445/681 [27:52<09:51, 2.51s/it] {'loss': 23.2322, 'grad_norm': 12001.302734375, 'learning_rate': 1.6329015999011182e-07, 'beta_dpo/gap_mean': 353.89892578125, 'beta_dpo/gap_std': 299.44140625, 'beta_dpo/beta_used_raw': -0.10653191804885864, 'beta_dpo/beta_used': 0.6511656641960144, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.465177059173584, 'logits/rejected': -2.4750633239746094, 'beta_dpo/beta': 0.6511656641960144, 'beta_dpo/loss_margin_mean': 332.807861328125, 'beta_dpo/beta_margin_mean': 210.04498291015625, 'beta_dpo/beta_margin_std': 451.1952819824219, 'beta_dpo/beta_margin_grad_mean': -0.292864054441452, 'beta_dpo/beta_margin_grad_std': 0.29051047563552856, 'epoch': 0.65} 65%|██████████████████████████████████████████████████████████████████████████▍ | 445/681 [27:53<09:51, 2.51s/it] 65%|██████████████████████████████████████████████████████████████████████████▋ | 446/681 [27:55<09:49, 2.51s/it] {'loss': 0.5524, 'grad_norm': 36.90497970581055, 'learning_rate': 1.6208764069656578e-07, 'beta_dpo/gap_mean': 359.41986083984375, 'beta_dpo/gap_std': 302.03582763671875, 'beta_dpo/beta_used_raw': -0.5909568667411804, 'beta_dpo/beta_used': 0.5344843864440918, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.422713041305542, 'logits/rejected': -2.4601097106933594, 'beta_dpo/beta': 0.5344843864440918, 'beta_dpo/loss_margin_mean': 429.4493713378906, 'beta_dpo/beta_margin_mean': 277.230224609375, 'beta_dpo/beta_margin_std': 368.5066223144531, 'beta_dpo/beta_margin_grad_mean': -0.2088708132505417, 'beta_dpo/beta_margin_grad_std': 0.21212056279182434, 'epoch': 0.65} 65%|██████████████████████████████████████████████████████████████████████████▋ | 446/681 [27:55<09:49, 2.51s/it] 66%|██████████████████████████████████████████████████████████████████████████▊ | 447/681 [27:57<09:37, 2.47s/it] {'loss': 1.1173, 'grad_norm': 23.881223678588867, 'learning_rate': 1.608874379754465e-07, 'beta_dpo/gap_mean': 369.88690185546875, 'beta_dpo/gap_std': 312.835205078125, 'beta_dpo/beta_used_raw': -3.839432716369629, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.469653606414795, 'logits/rejected': -2.506166458129883, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 371.16912841796875, 'beta_dpo/beta_margin_mean': 0.3711691200733185, 'beta_dpo/beta_margin_std': 0.34903499484062195, 'beta_dpo/beta_margin_grad_mean': -0.4114223122596741, 'beta_dpo/beta_margin_grad_std': 0.07890864461660385, 'epoch': 0.66} 66%|██████████████████████████████████████████████████████████████████████████▊ | 447/681 [27:57<09:37, 2.47s/it] 66%|██████████████████████████████████████████████████████████████████████████▉ | 448/681 [28:00<09:43, 2.50s/it] {'loss': 0.5812, 'grad_norm': 19.88318634033203, 'learning_rate': 1.5968958345321177e-07, 'beta_dpo/gap_mean': 369.296142578125, 'beta_dpo/gap_std': 308.22808837890625, 'beta_dpo/beta_used_raw': -2.4666709899902344, 'beta_dpo/beta_used': 0.9949462413787842, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.43017578125, 'logits/rejected': -2.461536407470703, 'beta_dpo/beta': 0.9949462413787842, 'beta_dpo/loss_margin_mean': 389.3961181640625, 'beta_dpo/beta_margin_mean': 429.1389465332031, 'beta_dpo/beta_margin_std': 562.9327392578125, 'beta_dpo/beta_margin_grad_mean': -0.22382524609565735, 'beta_dpo/beta_margin_grad_std': 0.23410984873771667, 'epoch': 0.66} 66%|██████████████████████████████████████████████████████████████████████████▉ | 448/681 [28:00<09:43, 2.50s/it] 66%|███████████████████████████████████████████████████████████████████████████▏ | 449/681 [28:02<09:26, 2.44s/it] {'loss': 54.4296, 'grad_norm': 50823.05078125, 'learning_rate': 1.584941086944423e-07, 'beta_dpo/gap_mean': 373.68212890625, 'beta_dpo/gap_std': 307.01202392578125, 'beta_dpo/beta_used_raw': 1.4625353813171387, 'beta_dpo/beta_used': 2.169326066970825, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4476749897003174, 'logits/rejected': -2.4613916873931885, 'beta_dpo/beta': 2.169326066970825, 'beta_dpo/loss_margin_mean': 371.7033996582031, 'beta_dpo/beta_margin_mean': 866.29150390625, 'beta_dpo/beta_margin_std': 1363.672119140625, 'beta_dpo/beta_margin_grad_mean': -0.2861442565917969, 'beta_dpo/beta_margin_grad_std': 0.2906011939048767, 'epoch': 0.66} 66%|███████████████████████████████████████████████████████████████████████████▏ | 449/681 [28:02<09:26, 2.44s/it] 66%|███████████████████████████████████████████████████████████████████████████▎ | 450/681 [28:05<09:22, 2.44s/it] {'loss': 0.5291, 'grad_norm': 20.199665069580078, 'learning_rate': 1.573010452010098e-07, 'beta_dpo/gap_mean': 380.8287353515625, 'beta_dpo/gap_std': 297.178955078125, 'beta_dpo/beta_used_raw': 1.1894080638885498, 'beta_dpo/beta_used': 1.47364342212677, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.45393705368042, 'logits/rejected': -2.5022172927856445, 'beta_dpo/beta': 1.47364342212677, 'beta_dpo/loss_margin_mean': 431.9281311035156, 'beta_dpo/beta_margin_mean': 637.6218872070312, 'beta_dpo/beta_margin_std': 821.07470703125, 'beta_dpo/beta_margin_grad_mean': -0.21337755024433136, 'beta_dpo/beta_margin_grad_std': 0.2242012321949005, 'epoch': 0.66} 66%|███████████████████████████████████████████████████████████████████████████▎ | 450/681 [28:05<09:22, 2.44s/it] 66%|███████████████████████████████████████████████████████████████████████████▍ | 451/681 [28:07<09:12, 2.40s/it] {'loss': 14.8356, 'grad_norm': 25548.22265625, 'learning_rate': 1.5611042441124687e-07, 'beta_dpo/gap_mean': 371.70465087890625, 'beta_dpo/gap_std': 297.33319091796875, 'beta_dpo/beta_used_raw': -0.5515909194946289, 'beta_dpo/beta_used': 1.6201918125152588, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4564037322998047, 'logits/rejected': -2.468679428100586, 'beta_dpo/beta': 1.6201918125152588, 'beta_dpo/loss_margin_mean': 312.59564208984375, 'beta_dpo/beta_margin_mean': 560.2830810546875, 'beta_dpo/beta_margin_std': 958.1199340820312, 'beta_dpo/beta_margin_grad_mean': -0.2785087823867798, 'beta_dpo/beta_margin_grad_std': 0.283831387758255, 'epoch': 0.66} 66%|███████████████████████████████████████████████████████████████████████████▍ | 451/681 [28:07<09:12, 2.40s/it] 66%|███████████████████████████████████████████████████████████████████████████▋ | 452/681 [28:10<09:25, 2.47s/it] {'loss': 1.0722, 'grad_norm': 38.57242202758789, 'learning_rate': 1.549222776991186e-07, 'beta_dpo/gap_mean': 369.5523376464844, 'beta_dpo/gap_std': 295.28765869140625, 'beta_dpo/beta_used_raw': -0.28033387660980225, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.464397668838501, 'logits/rejected': -2.5154190063476562, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 368.3257141113281, 'beta_dpo/beta_margin_mean': 0.36832571029663086, 'beta_dpo/beta_margin_std': 0.27488240599632263, 'beta_dpo/beta_margin_grad_mean': -0.4107057452201843, 'beta_dpo/beta_margin_grad_std': 0.06496448814868927, 'epoch': 0.66} 66%|███████████████████████████████████████████████████████████████████████████▋ | 452/681 [28:10<09:25, 2.47s/it] 67%|███████████████████████████████████████████████████████████████████████████▊ | 453/681 [28:12<09:08, 2.41s/it] {'loss': 9.4541, 'grad_norm': 7813.66796875, 'learning_rate': 1.5373663637339584e-07, 'beta_dpo/gap_mean': 369.88800048828125, 'beta_dpo/gap_std': 293.82562255859375, 'beta_dpo/beta_used_raw': -0.7867467999458313, 'beta_dpo/beta_used': 0.47413191199302673, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4826607704162598, 'logits/rejected': -2.501310348510742, 'beta_dpo/beta': 0.47413191199302673, 'beta_dpo/loss_margin_mean': 364.253173828125, 'beta_dpo/beta_margin_mean': 179.6550750732422, 'beta_dpo/beta_margin_std': 257.9681396484375, 'beta_dpo/beta_margin_grad_mean': -0.23885342478752136, 'beta_dpo/beta_margin_grad_std': 0.25014886260032654, 'epoch': 0.67} 67%|███████████████████████████████████████████████████████████████████████████▊ | 453/681 [28:12<09:08, 2.41s/it] 67%|████████████████████████████████████████████████████████████████████████████ | 454/681 [28:14<09:10, 2.42s/it] {'loss': 12.3928, 'grad_norm': 7821.49853515625, 'learning_rate': 1.5255353167683017e-07, 'beta_dpo/gap_mean': 371.50396728515625, 'beta_dpo/gap_std': 297.9644775390625, 'beta_dpo/beta_used_raw': -0.8156985640525818, 'beta_dpo/beta_used': 0.6042494773864746, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.459460735321045, 'logits/rejected': -2.4877805709838867, 'beta_dpo/beta': 0.6042494773864746, 'beta_dpo/loss_margin_mean': 380.0973815917969, 'beta_dpo/beta_margin_mean': 243.75340270996094, 'beta_dpo/beta_margin_std': 361.9959716796875, 'beta_dpo/beta_margin_grad_mean': -0.2383243590593338, 'beta_dpo/beta_margin_grad_std': 0.25166648626327515, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████ | 454/681 [28:14<09:10, 2.42s/it] 67%|████████████████████████████████████████████████████████████████████████████▏ | 455/681 [28:17<09:20, 2.48s/it] {'loss': 4.0629, 'grad_norm': 5878.1142578125, 'learning_rate': 1.5137299478533064e-07, 'beta_dpo/gap_mean': 381.37921142578125, 'beta_dpo/gap_std': 305.9591064453125, 'beta_dpo/beta_used_raw': 0.07860961556434631, 'beta_dpo/beta_used': 0.558521568775177, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.476715087890625, 'logits/rejected': -2.544955253601074, 'beta_dpo/beta': 0.558521568775177, 'beta_dpo/loss_margin_mean': 450.9393615722656, 'beta_dpo/beta_margin_mean': 263.99224853515625, 'beta_dpo/beta_margin_std': 370.77044677734375, 'beta_dpo/beta_margin_grad_mean': -0.229967400431633, 'beta_dpo/beta_margin_grad_std': 0.24533946812152863, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████▏ | 455/681 [28:17<09:20, 2.48s/it] 67%|████████████████████████████████████████████████████████████████████████████▎ | 456/681 [28:19<09:08, 2.44s/it] {'loss': 1.0786, 'grad_norm': 28.53789520263672, 'learning_rate': 1.5019505680714232e-07, 'beta_dpo/gap_mean': 387.3846435546875, 'beta_dpo/gap_std': 308.45947265625, 'beta_dpo/beta_used_raw': -1.8649553060531616, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4815030097961426, 'logits/rejected': -2.5309150218963623, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 407.9440002441406, 'beta_dpo/beta_margin_mean': 0.4079440236091614, 'beta_dpo/beta_margin_std': 0.31001952290534973, 'beta_dpo/beta_margin_grad_mean': -0.401821494102478, 'beta_dpo/beta_margin_grad_std': 0.07234375923871994, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████▎ | 456/681 [28:19<09:08, 2.44s/it] 67%|████████████████████████████████████████████████████████████████████████████▌ | 457/681 [28:22<09:13, 2.47s/it] {'loss': 0.5419, 'grad_norm': 23.370983123779297, 'learning_rate': 1.4901974878202627e-07, 'beta_dpo/gap_mean': 384.96356201171875, 'beta_dpo/gap_std': 305.0810546875, 'beta_dpo/beta_used_raw': -0.9987051486968994, 'beta_dpo/beta_used': 0.10005475580692291, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.480140209197998, 'logits/rejected': -2.486316680908203, 'beta_dpo/beta': 0.10005475580692291, 'beta_dpo/loss_margin_mean': 348.1621398925781, 'beta_dpo/beta_margin_mean': 35.68285369873047, 'beta_dpo/beta_margin_std': 50.96905517578125, 'beta_dpo/beta_margin_grad_mean': -0.25547903776168823, 'beta_dpo/beta_margin_grad_std': 0.26753029227256775, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████▌ | 457/681 [28:22<09:13, 2.47s/it] 67%|████████████████████████████████████████████████████████████████████████████▋ | 458/681 [28:24<09:06, 2.45s/it] {'loss': 1.0673, 'grad_norm': 28.026363372802734, 'learning_rate': 1.4784710168044212e-07, 'beta_dpo/gap_mean': 384.5351257324219, 'beta_dpo/gap_std': 302.91986083984375, 'beta_dpo/beta_used_raw': -1.0926374197006226, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.47013783454895, 'logits/rejected': -2.502309799194336, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 397.30108642578125, 'beta_dpo/beta_margin_mean': 0.3973011076450348, 'beta_dpo/beta_margin_std': 0.2737996578216553, 'beta_dpo/beta_margin_grad_mean': -0.4038095474243164, 'beta_dpo/beta_margin_grad_std': 0.06412005424499512, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████▋ | 458/681 [28:24<09:06, 2.45s/it] 67%|████████████████████████████████████████████████████████████████████████████▊ | 459/681 [28:27<09:03, 2.45s/it] {'loss': 1.0655, 'grad_norm': 31.750755310058594, 'learning_rate': 1.466771464027316e-07, 'beta_dpo/gap_mean': 380.58148193359375, 'beta_dpo/gap_std': 296.5938720703125, 'beta_dpo/beta_used_raw': -0.917838454246521, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.46304988861084, 'logits/rejected': -2.501253128051758, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 341.9566955566406, 'beta_dpo/beta_margin_mean': 0.3419567346572876, 'beta_dpo/beta_margin_std': 0.26270684599876404, 'beta_dpo/beta_margin_grad_mean': -0.4167326092720032, 'beta_dpo/beta_margin_grad_std': 0.06269286572933197, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████▊ | 459/681 [28:27<09:03, 2.45s/it] 68%|█████████████████████████████████████████████████████████████████████████████ | 460/681 [28:29<09:01, 2.45s/it] {'loss': 4.6404, 'grad_norm': 17868.126953125, 'learning_rate': 1.4550991377830423e-07, 'beta_dpo/gap_mean': 378.25775146484375, 'beta_dpo/gap_std': 291.2427978515625, 'beta_dpo/beta_used_raw': -0.6699074506759644, 'beta_dpo/beta_used': 1.6334787607192993, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5045523643493652, 'logits/rejected': -2.5729987621307373, 'beta_dpo/beta': 1.6334787607192993, 'beta_dpo/loss_margin_mean': 398.70556640625, 'beta_dpo/beta_margin_mean': 714.5479736328125, 'beta_dpo/beta_margin_std': 986.8130493164062, 'beta_dpo/beta_margin_grad_mean': -0.22203302383422852, 'beta_dpo/beta_margin_grad_std': 0.23113414645195007, 'epoch': 0.68} 68%|█████████████████████████████████████████████████████████████████████████████ | 460/681 [28:29<09:01, 2.45s/it] 68%|█████████████████████████████████████████████████████████████████████████████▏ | 461/681 [28:32<08:55, 2.43s/it] {'loss': 0.7427, 'grad_norm': 32094.228515625, 'learning_rate': 1.4434543456482518e-07, 'beta_dpo/gap_mean': 376.22406005859375, 'beta_dpo/gap_std': 286.36328125, 'beta_dpo/beta_used_raw': 0.08712393045425415, 'beta_dpo/beta_used': 0.8932273983955383, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.499390125274658, 'logits/rejected': -2.5347375869750977, 'beta_dpo/beta': 0.8932273983955383, 'beta_dpo/loss_margin_mean': 346.59515380859375, 'beta_dpo/beta_margin_mean': 307.47015380859375, 'beta_dpo/beta_margin_std': 430.9241027832031, 'beta_dpo/beta_margin_grad_mean': -0.2543882429599762, 'beta_dpo/beta_margin_grad_std': 0.2651003301143646, 'epoch': 0.68} 68%|█████████████████████████████████████████████████████████████████████████████▏ | 461/681 [28:32<08:55, 2.43s/it] 68%|█████████████████████████████████████████████████████████████████████████████▎ | 462/681 [28:34<08:47, 2.41s/it] {'loss': 1.1155, 'grad_norm': 23.766319274902344, 'learning_rate': 1.4318373944740484e-07, 'beta_dpo/gap_mean': 369.9292907714844, 'beta_dpo/gap_std': 287.8791809082031, 'beta_dpo/beta_used_raw': -3.4746923446655273, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5215415954589844, 'logits/rejected': -2.5495944023132324, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 338.7749328613281, 'beta_dpo/beta_margin_mean': 0.3387749493122101, 'beta_dpo/beta_margin_std': 0.30487060546875, 'beta_dpo/beta_margin_grad_mean': -0.418192595243454, 'beta_dpo/beta_margin_grad_std': 0.07179278135299683, 'epoch': 0.68} 68%|█████████████████████████████████████████████████████████████████████████████▎ | 462/681 [28:34<08:47, 2.41s/it] 68%|█████████████████████████████████████████████████████████████████████████████▌ | 463/681 [28:36<08:45, 2.41s/it] {'loss': 0.5632, 'grad_norm': 18.568052291870117, 'learning_rate': 1.4202485903778976e-07, 'beta_dpo/gap_mean': 376.6002197265625, 'beta_dpo/gap_std': 303.69659423828125, 'beta_dpo/beta_used_raw': -1.7789533138275146, 'beta_dpo/beta_used': 0.6219136714935303, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4930672645568848, 'logits/rejected': -2.5247983932495117, 'beta_dpo/beta': 0.6219136714935303, 'beta_dpo/loss_margin_mean': 434.07806396484375, 'beta_dpo/beta_margin_mean': 281.9193420410156, 'beta_dpo/beta_margin_std': 356.6446228027344, 'beta_dpo/beta_margin_grad_mean': -0.20181849598884583, 'beta_dpo/beta_margin_grad_std': 0.2130599319934845, 'epoch': 0.68} 68%|█████████████████████████████████████████████████████████████████████████████▌ | 463/681 [28:36<08:45, 2.41s/it] 68%|█████████████████████████████████████████████████████████████████████████████▋ | 464/681 [28:39<08:47, 2.43s/it] {'loss': 9.9301, 'grad_norm': 58260.62890625, 'learning_rate': 1.4086882387355658e-07, 'beta_dpo/gap_mean': 396.98193359375, 'beta_dpo/gap_std': 305.0847473144531, 'beta_dpo/beta_used_raw': 5.593118667602539, 'beta_dpo/beta_used': 5.593118667602539, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4916696548461914, 'logits/rejected': -2.550224781036377, 'beta_dpo/beta': 5.593118667602539, 'beta_dpo/loss_margin_mean': 491.942138671875, 'beta_dpo/beta_margin_mean': 2755.906005859375, 'beta_dpo/beta_margin_std': 1905.5625, 'beta_dpo/beta_margin_grad_mean': -0.078125, 'beta_dpo/beta_margin_grad_std': 0.2683681845664978, 'epoch': 0.68} 68%|█████████████████████████████████████████████████████████████████████████████▋ | 464/681 [28:39<08:47, 2.43s/it] 68%|█████████████████████████████████████████████████████████████████████████████▊ | 465/681 [28:41<08:50, 2.45s/it] {'loss': 0.7493, 'grad_norm': 30087.87109375, 'learning_rate': 1.3971566441730714e-07, 'beta_dpo/gap_mean': 404.0155029296875, 'beta_dpo/gap_std': 305.983154296875, 'beta_dpo/beta_used_raw': 1.2743040323257446, 'beta_dpo/beta_used': 1.9029580354690552, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.516110897064209, 'logits/rejected': -2.569148540496826, 'beta_dpo/beta': 1.9029580354690552, 'beta_dpo/loss_margin_mean': 430.5644226074219, 'beta_dpo/beta_margin_mean': 899.8712768554688, 'beta_dpo/beta_margin_std': 1295.013916015625, 'beta_dpo/beta_margin_grad_mean': -0.24977104365825653, 'beta_dpo/beta_margin_grad_std': 0.2622261047363281, 'epoch': 0.68} 68%|█████████████████████████████████████████████████████████████████████████████▊ | 465/681 [28:41<08:50, 2.45s/it] 68%|██████████████████████████████████████████████████████████████████████████████ | 466/681 [28:44<08:53, 2.48s/it] {'loss': 1.0607, 'grad_norm': 22.92670249938965, 'learning_rate': 1.3856541105586545e-07, 'beta_dpo/gap_mean': 405.3373107910156, 'beta_dpo/gap_std': 308.2467041015625, 'beta_dpo/beta_used_raw': -2.1695146560668945, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4996213912963867, 'logits/rejected': -2.5383553504943848, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 403.6110534667969, 'beta_dpo/beta_margin_mean': 0.40361106395721436, 'beta_dpo/beta_margin_std': 0.3109658658504486, 'beta_dpo/beta_margin_grad_mean': -0.402956485748291, 'beta_dpo/beta_margin_grad_std': 0.07183395326137543, 'epoch': 0.68} 68%|██████████████████████████████████████████████████████████████████████████████ | 466/681 [28:44<08:53, 2.48s/it] 69%|██████████████████████████████████████████████████████████████████████████████▏ | 467/681 [28:46<08:52, 2.49s/it] {'loss': 2.1242, 'grad_norm': 106529.4140625, 'learning_rate': 1.3741809409947729e-07, 'beta_dpo/gap_mean': 413.9611511230469, 'beta_dpo/gap_std': 339.21044921875, 'beta_dpo/beta_used_raw': 2.634734630584717, 'beta_dpo/beta_used': 4.274341583251953, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5394535064697266, 'logits/rejected': -2.5817573070526123, 'beta_dpo/beta': 4.274341583251953, 'beta_dpo/loss_margin_mean': 418.0201110839844, 'beta_dpo/beta_margin_mean': 2275.166259765625, 'beta_dpo/beta_margin_std': 4076.872802734375, 'beta_dpo/beta_margin_grad_mean': -0.27562493085861206, 'beta_dpo/beta_margin_grad_std': 0.2861670255661011, 'epoch': 0.69} 69%|██████████████████████████████████████████████████████████████████████████████▏ | 467/681 [28:46<08:52, 2.49s/it] 69%|██████████████████████████████████████████████████████████████████████████████▎ | 468/681 [28:49<09:03, 2.55s/it] {'loss': 27.315, 'grad_norm': 32999.328125, 'learning_rate': 1.362737437810114e-07, 'beta_dpo/gap_mean': 410.94439697265625, 'beta_dpo/gap_std': 351.870361328125, 'beta_dpo/beta_used_raw': 0.6839801669120789, 'beta_dpo/beta_used': 1.4308552742004395, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5492682456970215, 'logits/rejected': -2.587491750717163, 'beta_dpo/beta': 1.4308552742004395, 'beta_dpo/loss_margin_mean': 434.7200012207031, 'beta_dpo/beta_margin_mean': 655.9033203125, 'beta_dpo/beta_margin_std': 1054.0318603515625, 'beta_dpo/beta_margin_grad_mean': -0.2482784539461136, 'beta_dpo/beta_margin_grad_std': 0.2650541663169861, 'epoch': 0.69} 69%|██████████████████████████████████████████████████████████████████████████████▎ | 468/681 [28:49<09:03, 2.55s/it] 69%|██████████████████████████████████████████████████████████████████████████████▌ | 469/681 [28:51<08:40, 2.45s/it] {'loss': 0.8058, 'grad_norm': 8297.3203125, 'learning_rate': 1.351323902551631e-07, 'beta_dpo/gap_mean': 419.2552490234375, 'beta_dpo/gap_std': 346.93157958984375, 'beta_dpo/beta_used_raw': 1.8693115711212158, 'beta_dpo/beta_used': 1.8693115711212158, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5490849018096924, 'logits/rejected': -2.5901732444763184, 'beta_dpo/beta': 1.8693115711212158, 'beta_dpo/loss_margin_mean': 452.9244384765625, 'beta_dpo/beta_margin_mean': 848.8661499023438, 'beta_dpo/beta_margin_std': 818.3424072265625, 'beta_dpo/beta_margin_grad_mean': -0.046875, 'beta_dpo/beta_margin_grad_std': 0.21137107908725739, 'epoch': 0.69} 69%|██████████████████████████████████████████████████████████████████████████████▌ | 469/681 [28:51<08:40, 2.45s/it] 69%|██████████████████████████████████████████████████████████████████████████████▋ | 470/681 [28:53<08:22, 2.38s/it] {'loss': 1.0437, 'grad_norm': 20.7974853515625, 'learning_rate': 1.339940635976592e-07, 'beta_dpo/gap_mean': 421.21563720703125, 'beta_dpo/gap_std': 342.18878173828125, 'beta_dpo/beta_used_raw': -1.152496337890625, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.4830265045166016, 'logits/rejected': -2.5244758129119873, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 415.5758361816406, 'beta_dpo/beta_margin_mean': 0.4155758321285248, 'beta_dpo/beta_margin_std': 0.30809733271598816, 'beta_dpo/beta_margin_grad_mean': -0.3999681770801544, 'beta_dpo/beta_margin_grad_std': 0.07137025147676468, 'epoch': 0.69} 69%|██████████████████████████████████████████████████████████████████████████████▋ | 470/681 [28:54<08:22, 2.38s/it] 69%|██████████████████████████████████████████████████████████████████████████████▊ | 471/681 [28:56<08:09, 2.33s/it] {'loss': 0.5604, 'grad_norm': 19.789304733276367, 'learning_rate': 1.3285879380446563e-07, 'beta_dpo/gap_mean': 421.38037109375, 'beta_dpo/gap_std': 329.10821533203125, 'beta_dpo/beta_used_raw': -1.9127386808395386, 'beta_dpo/beta_used': 1.478458046913147, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.537778377532959, 'logits/rejected': -2.556882858276367, 'beta_dpo/beta': 1.478458046913147, 'beta_dpo/loss_margin_mean': 398.04986572265625, 'beta_dpo/beta_margin_mean': 747.5370483398438, 'beta_dpo/beta_margin_std': 983.1398315429688, 'beta_dpo/beta_margin_grad_mean': -0.23011885583400726, 'beta_dpo/beta_margin_grad_std': 0.23751112818717957, 'epoch': 0.69} 69%|██████████████████████████████████████████████████████████████████████████████▊ | 471/681 [28:56<08:09, 2.33s/it] 69%|███████████████████████████████████████████████████████████████████████████████ | 472/681 [28:58<08:22, 2.40s/it] {'loss': 14.0955, 'grad_norm': 11883.9248046875, 'learning_rate': 1.317266107909975e-07, 'beta_dpo/gap_mean': 418.555908203125, 'beta_dpo/gap_std': 343.5157165527344, 'beta_dpo/beta_used_raw': -2.741248846054077, 'beta_dpo/beta_used': 0.560537576675415, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5896711349487305, 'logits/rejected': -2.6116137504577637, 'beta_dpo/beta': 0.560537576675415, 'beta_dpo/loss_margin_mean': 437.1629943847656, 'beta_dpo/beta_margin_mean': 254.7558135986328, 'beta_dpo/beta_margin_std': 468.81280517578125, 'beta_dpo/beta_margin_grad_mean': -0.2782280147075653, 'beta_dpo/beta_margin_grad_std': 0.28962796926498413, 'epoch': 0.69} 69%|███████████████████████████████████████████████████████████████████████████████ | 472/681 [28:58<08:22, 2.40s/it] 69%|███████████████████████████████████████████████████████████████████████████████▏ | 473/681 [29:01<08:33, 2.47s/it] {'loss': 1.1064, 'grad_norm': 28.633747100830078, 'learning_rate': 1.3059754439133002e-07, 'beta_dpo/gap_mean': 403.55072021484375, 'beta_dpo/gap_std': 345.77349853515625, 'beta_dpo/beta_used_raw': -4.782205581665039, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.514747381210327, 'logits/rejected': -2.5092692375183105, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 311.9952087402344, 'beta_dpo/beta_margin_mean': 0.3119952082633972, 'beta_dpo/beta_margin_std': 0.3434739410877228, 'beta_dpo/beta_margin_grad_mean': -0.42513933777809143, 'beta_dpo/beta_margin_grad_std': 0.07835263758897781, 'epoch': 0.69} 69%|███████████████████████████████████████████████████████████████████████████████▏ | 473/681 [29:01<08:33, 2.47s/it] 70%|███████████████████████████████████████████████████████████████████████████████▎ | 474/681 [29:03<08:37, 2.50s/it] {'loss': 0.13, 'grad_norm': 188.52386474609375, 'learning_rate': 1.2947162435741277e-07, 'beta_dpo/gap_mean': 397.82635498046875, 'beta_dpo/gap_std': 337.72735595703125, 'beta_dpo/beta_used_raw': 0.020935971289873123, 'beta_dpo/beta_used': 0.020935971289873123, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.512279987335205, 'logits/rejected': -2.5492238998413086, 'beta_dpo/beta': 0.020935971289873123, 'beta_dpo/loss_margin_mean': 396.6646728515625, 'beta_dpo/beta_margin_mean': 8.29855728149414, 'beta_dpo/beta_margin_std': 6.226876258850098, 'beta_dpo/beta_margin_grad_mean': -0.08262869715690613, 'beta_dpo/beta_margin_grad_std': 0.23250208795070648, 'epoch': 0.7} 70%|███████████████████████████████████████████████████████████████████████████████▎ | 474/681 [29:03<08:37, 2.50s/it] 70%|███████████████████████████████████████████████████████████████████████████████▌ | 475/681 [29:06<08:30, 2.48s/it] {'loss': 1.0798, 'grad_norm': 24.54264259338379, 'learning_rate': 1.2834888035828596e-07, 'beta_dpo/gap_mean': 390.2703857421875, 'beta_dpo/gap_std': 338.8818359375, 'beta_dpo/beta_used_raw': -2.2628698348999023, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.537545680999756, 'logits/rejected': -2.5808987617492676, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 354.69390869140625, 'beta_dpo/beta_margin_mean': 0.3546939194202423, 'beta_dpo/beta_margin_std': 0.35067981481552124, 'beta_dpo/beta_margin_grad_mean': -0.4154300093650818, 'beta_dpo/beta_margin_grad_std': 0.0788368210196495, 'epoch': 0.7} 70%|███████████████████████████████████████████████████████████████████████████████▌ | 475/681 [29:06<08:30, 2.48s/it] 70%|███████████████████████████████████████████████████████████████████████████████▋ | 476/681 [29:08<08:06, 2.38s/it] {'loss': 1.0909, 'grad_norm': 33.014305114746094, 'learning_rate': 1.2722934197929802e-07, 'beta_dpo/gap_mean': 388.89324951171875, 'beta_dpo/gap_std': 336.2122497558594, 'beta_dpo/beta_used_raw': -2.833922863006592, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5620553493499756, 'logits/rejected': -2.5980238914489746, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 372.3511657714844, 'beta_dpo/beta_margin_mean': 0.37235116958618164, 'beta_dpo/beta_margin_std': 0.3026776611804962, 'beta_dpo/beta_margin_grad_mean': -0.41025692224502563, 'beta_dpo/beta_margin_grad_std': 0.0702584832906723, 'epoch': 0.7} 70%|███████████████████████████████████████████████████████████████████████████████▋ | 476/681 [29:08<08:06, 2.38s/it] 70%|███████████████████████████████████████████████████████████████████████████████▊ | 477/681 [29:11<08:13, 2.42s/it] {'loss': 4.2004, 'grad_norm': 9603.7666015625, 'learning_rate': 1.2611303872132631e-07, 'beta_dpo/gap_mean': 384.2132568359375, 'beta_dpo/gap_std': 325.43865966796875, 'beta_dpo/beta_used_raw': 0.43174052238464355, 'beta_dpo/beta_used': 1.2425551414489746, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.513644218444824, 'logits/rejected': -2.5187504291534424, 'beta_dpo/beta': 1.2425551414489746, 'beta_dpo/loss_margin_mean': 377.49932861328125, 'beta_dpo/beta_margin_mean': 494.6365661621094, 'beta_dpo/beta_margin_std': 732.710693359375, 'beta_dpo/beta_margin_grad_mean': -0.28471827507019043, 'beta_dpo/beta_margin_grad_std': 0.29025498032569885, 'epoch': 0.7} 70%|███████████████████████████████████████████████████████████████████████████████▊ | 477/681 [29:11<08:13, 2.42s/it] 70%|████████████████████████████████████████████████████████████████████████████████ | 478/681 [29:13<07:58, 2.35s/it] {'loss': 1.094, 'grad_norm': 30.411699295043945, 'learning_rate': 1.2500000000000005e-07, 'beta_dpo/gap_mean': 381.9994812011719, 'beta_dpo/gap_std': 319.3729248046875, 'beta_dpo/beta_used_raw': -2.8485658168792725, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.530264139175415, 'logits/rejected': -2.573782205581665, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 373.3612060546875, 'beta_dpo/beta_margin_mean': 0.3733612298965454, 'beta_dpo/beta_margin_std': 0.28482842445373535, 'beta_dpo/beta_margin_grad_mean': -0.4097580313682556, 'beta_dpo/beta_margin_grad_std': 0.06587263941764832, 'epoch': 0.7} 70%|████████████████████████████████████████████████████████████████████████████████ | 478/681 [29:13<07:58, 2.35s/it] 70%|████████████████████████████████████████████████████████████████████████████████▏ | 479/681 [29:15<08:02, 2.39s/it] {'loss': 0.5685, 'grad_norm': 22.1717472076416, 'learning_rate': 1.2389025514492456e-07, 'beta_dpo/gap_mean': 387.78704833984375, 'beta_dpo/gap_std': 326.0636291503906, 'beta_dpo/beta_used_raw': -1.9218789339065552, 'beta_dpo/beta_used': 0.9422978758811951, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5045852661132812, 'logits/rejected': -2.568833112716675, 'beta_dpo/beta': 0.9422978758811951, 'beta_dpo/loss_margin_mean': 436.54107666015625, 'beta_dpo/beta_margin_mean': 474.04681396484375, 'beta_dpo/beta_margin_std': 649.1632080078125, 'beta_dpo/beta_margin_grad_mean': -0.2220228761434555, 'beta_dpo/beta_margin_grad_std': 0.23495404422283173, 'epoch': 0.7} 70%|████████████████████████████████████████████████████████████████████████████████▏ | 479/681 [29:15<08:02, 2.39s/it] 70%|████████████████████████████████████████████████████████████████████████████████▎ | 480/681 [29:18<08:04, 2.41s/it] {'loss': 41.8083, 'grad_norm': 34886.80859375, 'learning_rate': 1.227838333989088e-07, 'beta_dpo/gap_mean': 385.14337158203125, 'beta_dpo/gap_std': 321.2519836425781, 'beta_dpo/beta_used_raw': -0.5218298435211182, 'beta_dpo/beta_used': 1.2717182636260986, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5319626331329346, 'logits/rejected': -2.5537118911743164, 'beta_dpo/beta': 1.2717182636260986, 'beta_dpo/loss_margin_mean': 358.7318420410156, 'beta_dpo/beta_margin_mean': 558.4786376953125, 'beta_dpo/beta_margin_std': 861.1541748046875, 'beta_dpo/beta_margin_grad_mean': -0.2628205120563507, 'beta_dpo/beta_margin_grad_std': 0.26975834369659424, 'epoch': 0.7} 70%|████████████████████████████████████████████████████████████████████████████████▎ | 480/681 [29:18<08:04, 2.41s/it] 71%|████████████████████████████████████████████████████████████████████████████████▌ | 481/681 [29:20<08:09, 2.45s/it] {'loss': 1.0755, 'grad_norm': 25.161544799804688, 'learning_rate': 1.2168076391719489e-07, 'beta_dpo/gap_mean': 391.42706298828125, 'beta_dpo/gap_std': 332.341552734375, 'beta_dpo/beta_used_raw': -2.2213141918182373, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5190436840057373, 'logits/rejected': -2.566678285598755, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 408.7076416015625, 'beta_dpo/beta_margin_mean': 0.4087076485157013, 'beta_dpo/beta_margin_std': 0.3610389828681946, 'beta_dpo/beta_margin_grad_mean': -0.40268126130104065, 'beta_dpo/beta_margin_grad_std': 0.08109249919652939, 'epoch': 0.71} 71%|████████████████████████████████████████████████████████████████████████████████▌ | 481/681 [29:20<08:09, 2.45s/it] 71%|████████████████████████████████████████████████████████████████████████████████▋ | 482/681 [29:23<08:14, 2.48s/it] {'loss': 1.0925, 'grad_norm': 26.447629928588867, 'learning_rate': 1.2058107576668938e-07, 'beta_dpo/gap_mean': 385.44921875, 'beta_dpo/gap_std': 331.2301025390625, 'beta_dpo/beta_used_raw': -2.8063464164733887, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5346310138702393, 'logits/rejected': -2.5641980171203613, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 343.68328857421875, 'beta_dpo/beta_margin_mean': 0.34368330240249634, 'beta_dpo/beta_margin_std': 0.32845625281333923, 'beta_dpo/beta_margin_grad_mean': -0.4173520803451538, 'beta_dpo/beta_margin_grad_std': 0.07615692913532257, 'epoch': 0.71} 71%|████████████████████████████████████████████████████████████████████████████████▋ | 482/681 [29:23<08:14, 2.48s/it] 71%|████████████████████████████████████████████████████████████████████████████████▊ | 483/681 [29:25<08:12, 2.49s/it] {'loss': 1.0621, 'grad_norm': 27.4080810546875, 'learning_rate': 1.194847979251979e-07, 'beta_dpo/gap_mean': 391.0637512207031, 'beta_dpo/gap_std': 335.705322265625, 'beta_dpo/beta_used_raw': -0.8292474746704102, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.523871898651123, 'logits/rejected': -2.5619630813598633, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 426.5040283203125, 'beta_dpo/beta_margin_mean': 0.4265040457248688, 'beta_dpo/beta_margin_std': 0.35432857275009155, 'beta_dpo/beta_margin_grad_mean': -0.39801958203315735, 'beta_dpo/beta_margin_grad_std': 0.08198197931051254, 'epoch': 0.71} 71%|████████████████████████████████████████████████████████████████████████████████▊ | 483/681 [29:25<08:12, 2.49s/it] 71%|█████████████████████████████████████████████████████████████████████████████████ | 484/681 [29:28<08:08, 2.48s/it] {'loss': 1.1056, 'grad_norm': 27.6585636138916, 'learning_rate': 1.1839195928066101e-07, 'beta_dpo/gap_mean': 378.6564636230469, 'beta_dpo/gap_std': 334.283935546875, 'beta_dpo/beta_used_raw': -3.1099014282226562, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5312819480895996, 'logits/rejected': -2.561755657196045, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 336.04290771484375, 'beta_dpo/beta_margin_mean': 0.33604294061660767, 'beta_dpo/beta_margin_std': 0.3569084405899048, 'beta_dpo/beta_margin_grad_mean': -0.4196456968784332, 'beta_dpo/beta_margin_grad_std': 0.08170211315155029, 'epoch': 0.71} 71%|█████████████████████████████████████████████████████████████████████████████████ | 484/681 [29:28<08:08, 2.48s/it] 71%|█████████████████████████████████████████████████████████████████████████████████▏ | 485/681 [29:30<07:43, 2.36s/it] {'loss': 48.0713, 'grad_norm': 43631.0625, 'learning_rate': 1.1730258863039347e-07, 'beta_dpo/gap_mean': 391.543212890625, 'beta_dpo/gap_std': 351.833740234375, 'beta_dpo/beta_used_raw': 1.6319665908813477, 'beta_dpo/beta_used': 1.6319665908813477, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.533259153366089, 'logits/rejected': -2.598179340362549, 'beta_dpo/beta': 1.6319665908813477, 'beta_dpo/loss_margin_mean': 453.990478515625, 'beta_dpo/beta_margin_mean': 740.8789672851562, 'beta_dpo/beta_margin_std': 888.0823364257812, 'beta_dpo/beta_margin_grad_mean': -0.12443296611309052, 'beta_dpo/beta_margin_grad_std': 0.3292010724544525, 'epoch': 0.71} 71%|█████████████████████████████████████████████████████████████████████████████████▏ | 485/681 [29:30<07:43, 2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████▎ | 486/681 [29:32<07:29, 2.31s/it] {'loss': 1.0617, 'grad_norm': 32.61040115356445, 'learning_rate': 1.1621671468032493e-07, 'beta_dpo/gap_mean': 397.93218994140625, 'beta_dpo/gap_std': 359.19091796875, 'beta_dpo/beta_used_raw': -0.8486566543579102, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5248947143554688, 'logits/rejected': -2.5619006156921387, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 416.0491027832031, 'beta_dpo/beta_margin_mean': 0.41604912281036377, 'beta_dpo/beta_margin_std': 0.3828808665275574, 'beta_dpo/beta_margin_grad_mean': -0.40132319927215576, 'beta_dpo/beta_margin_grad_std': 0.08668551594018936, 'epoch': 0.71} 71%|█████████████████████████████████████████████████████████████████████████████████▎ | 486/681 [29:32<07:29, 2.31s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▌ | 487/681 [29:34<07:37, 2.36s/it] {'loss': 0.0, 'grad_norm': 0.0, 'learning_rate': 1.1513436604424378e-07, 'beta_dpo/gap_mean': 402.7051696777344, 'beta_dpo/gap_std': 350.80084228515625, 'beta_dpo/beta_used_raw': 3.366377353668213, 'beta_dpo/beta_used': 3.366377353668213, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5087289810180664, 'logits/rejected': -2.566622257232666, 'beta_dpo/beta': 3.366377353668213, 'beta_dpo/loss_margin_mean': 424.222900390625, 'beta_dpo/beta_margin_mean': 1427.7965087890625, 'beta_dpo/beta_margin_std': 970.3147583007812, 'beta_dpo/beta_margin_grad_mean': -0.078125, 'beta_dpo/beta_margin_grad_std': 0.2683681845664978, 'epoch': 0.72} 72%|█████████████████████████████████████████████████████████████████████████████████▌ | 487/681 [29:34<07:37, 2.36s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▋ | 488/681 [29:37<07:49, 2.43s/it] {'loss': 1.1019, 'grad_norm': 28.298213958740234, 'learning_rate': 1.1405557124304335e-07, 'beta_dpo/gap_mean': 395.1749267578125, 'beta_dpo/gap_std': 344.27288818359375, 'beta_dpo/beta_used_raw': -3.6400840282440186, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5287461280822754, 'logits/rejected': -2.5617752075195312, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 359.2289123535156, 'beta_dpo/beta_margin_mean': 0.3592289388179779, 'beta_dpo/beta_margin_std': 0.314900279045105, 'beta_dpo/beta_margin_grad_mean': -0.41341128945350647, 'beta_dpo/beta_margin_grad_std': 0.07426728308200836, 'epoch': 0.72} 72%|█████████████████████████████████████████████████████████████████████████████████▋ | 488/681 [29:37<07:49, 2.43s/it] 72%|█████████████████████████████████████████████████████████████████████████████████▊ | 489/681 [29:40<08:00, 2.50s/it] {'loss': 1.1112, 'grad_norm': 24.00615692138672, 'learning_rate': 1.1298035870396985e-07, 'beta_dpo/gap_mean': 391.515625, 'beta_dpo/gap_std': 335.818359375, 'beta_dpo/beta_used_raw': -4.769493579864502, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5616259574890137, 'logits/rejected': -2.594806432723999, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 365.6145935058594, 'beta_dpo/beta_margin_mean': 0.3656145930290222, 'beta_dpo/beta_margin_std': 0.2879979908466339, 'beta_dpo/beta_margin_grad_mean': -0.41154804825782776, 'beta_dpo/beta_margin_grad_std': 0.06765101850032806, 'epoch': 0.72} 72%|█████████████████████████████████████████████████████████████████████████████████▊ | 489/681 [29:40<08:00, 2.50s/it] 72%|██████████████████████████████████████████████████████████████████████████████████ | 490/681 [29:42<08:05, 2.54s/it] {'loss': 1.1313, 'grad_norm': 26.91084098815918, 'learning_rate': 1.1190875675987355e-07, 'beta_dpo/gap_mean': 392.92205810546875, 'beta_dpo/gap_std': 358.7939453125, 'beta_dpo/beta_used_raw': -5.209046363830566, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6055257320404053, 'logits/rejected': -2.6725831031799316, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 408.6416015625, 'beta_dpo/beta_margin_mean': 0.40864163637161255, 'beta_dpo/beta_margin_std': 0.48387810587882996, 'beta_dpo/beta_margin_grad_mean': -0.4056692123413086, 'beta_dpo/beta_margin_grad_std': 0.10516832768917084, 'epoch': 0.72} 72%|██████████████████████████████████████████████████████████████████████████████████ | 490/681 [29:42<08:05, 2.54s/it] 72%|██████████████████████████████████████████████████████████████████████████████████▏ | 491/681 [29:45<07:58, 2.52s/it] {'loss': 1.0702, 'grad_norm': 27.26293182373047, 'learning_rate': 1.1084079364846241e-07, 'beta_dpo/gap_mean': 385.5333251953125, 'beta_dpo/gap_std': 351.7672119140625, 'beta_dpo/beta_used_raw': -1.0293617248535156, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5373287200927734, 'logits/rejected': -2.5686709880828857, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 338.41400146484375, 'beta_dpo/beta_margin_mean': 0.3384140133857727, 'beta_dpo/beta_margin_std': 0.2998770475387573, 'beta_dpo/beta_margin_grad_mean': -0.41814425587654114, 'beta_dpo/beta_margin_grad_std': 0.07073578983545303, 'epoch': 0.72} 72%|██████████████████████████████████████████████████████████████████████████████████▏ | 491/681 [29:45<07:58, 2.52s/it] 72%|██████████████████████████████████████████████████████████████████████████████████▎ | 492/681 [29:47<07:43, 2.45s/it] {'loss': 1.1255, 'grad_norm': 26.98293685913086, 'learning_rate': 1.097764975115576e-07, 'beta_dpo/gap_mean': 376.2781677246094, 'beta_dpo/gap_std': 346.640380859375, 'beta_dpo/beta_used_raw': -4.52386474609375, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5452327728271484, 'logits/rejected': -2.5773203372955322, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 329.93182373046875, 'beta_dpo/beta_margin_mean': 0.3299318253993988, 'beta_dpo/beta_margin_std': 0.31079521775245667, 'beta_dpo/beta_margin_grad_mean': -0.420479416847229, 'beta_dpo/beta_margin_grad_std': 0.072646863758564, 'epoch': 0.72} 72%|██████████████████████████████████████████████████████████████████████████████████▎ | 492/681 [29:47<07:43, 2.45s/it] 72%|██████████████████████████████████████████████████████████████████████████████████▌ | 493/681 [29:50<07:54, 2.52s/it] {'loss': 3.1786, 'grad_norm': 4613.84375, 'learning_rate': 1.0871589639435203e-07, 'beta_dpo/gap_mean': 366.77899169921875, 'beta_dpo/gap_std': 340.6854553222656, 'beta_dpo/beta_used_raw': -0.4551483392715454, 'beta_dpo/beta_used': 0.19389446079730988, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5896708965301514, 'logits/rejected': -2.6086065769195557, 'beta_dpo/beta': 0.19389446079730988, 'beta_dpo/loss_margin_mean': 331.5319519042969, 'beta_dpo/beta_margin_mean': 63.774085998535156, 'beta_dpo/beta_margin_std': 104.5694351196289, 'beta_dpo/beta_margin_grad_mean': -0.30418387055397034, 'beta_dpo/beta_margin_grad_std': 0.3022761046886444, 'epoch': 0.72} 72%|██████████████████████████████████████████████████████████████████████████████████▌ | 493/681 [29:50<07:54, 2.52s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▋ | 494/681 [29:52<07:41, 2.47s/it] {'loss': 0.9905, 'grad_norm': 1680.6007080078125, 'learning_rate': 1.0765901824467166e-07, 'beta_dpo/gap_mean': 373.76806640625, 'beta_dpo/gap_std': 341.1934814453125, 'beta_dpo/beta_used_raw': 3.5493483543395996, 'beta_dpo/beta_used': 3.5493483543395996, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5582916736602783, 'logits/rejected': -2.609689474105835, 'beta_dpo/beta': 3.5493483543395996, 'beta_dpo/loss_margin_mean': 413.81048583984375, 'beta_dpo/beta_margin_mean': 1450.2022705078125, 'beta_dpo/beta_margin_std': 1306.51318359375, 'beta_dpo/beta_margin_grad_mean': -0.09375, 'beta_dpo/beta_margin_grad_std': 0.2914806008338928, 'epoch': 0.73} 73%|██████████████████████████████████████████████████████████████████████████████████▋ | 494/681 [29:52<07:41, 2.47s/it] 73%|██████████████████████████████████████████████████████████████████████████████████▊ | 495/681 [29:55<07:40, 2.48s/it] {'loss': 0.5429, 'grad_norm': 22.30237579345703, 'learning_rate': 1.0660589091223854e-07, 'beta_dpo/gap_mean': 380.26708984375, 'beta_dpo/gap_std': 335.47235107421875, 'beta_dpo/beta_used_raw': 3.1382861137390137, 'beta_dpo/beta_used': 4.066619873046875, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5691702365875244, 'logits/rejected': -2.6163458824157715, 'beta_dpo/beta': 4.066619873046875, 'beta_dpo/loss_margin_mean': 433.75335693359375, 'beta_dpo/beta_margin_mean': 1956.0379638671875, 'beta_dpo/beta_margin_std': 2361.65234375, 'beta_dpo/beta_margin_grad_mean': -0.21904002130031586, 'beta_dpo/beta_margin_grad_std': 0.23028062283992767, 'epoch': 0.73} 73%|██████████████████████████████████████████████████████████████████████████████████▊ | 495/681 [29:55<07:40, 2.48s/it] 73%|███████████████████████████████████████████████████████████████████████████████████ | 496/681 [29:57<07:41, 2.50s/it] {'loss': 1.0738, 'grad_norm': 27.432092666625977, 'learning_rate': 1.0555654214793722e-07, 'beta_dpo/gap_mean': 383.7269287109375, 'beta_dpo/gap_std': 323.4496765136719, 'beta_dpo/beta_used_raw': -1.4662165641784668, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5857880115509033, 'logits/rejected': -2.6112606525421143, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 374.26885986328125, 'beta_dpo/beta_margin_mean': 0.37426888942718506, 'beta_dpo/beta_margin_std': 0.27219101786613464, 'beta_dpo/beta_margin_grad_mean': -0.409112811088562, 'beta_dpo/beta_margin_grad_std': 0.06478798389434814, 'epoch': 0.73} 73%|███████████████████████████████████████████████████████████████████████████████████ | 496/681 [29:57<07:41, 2.50s/it] 73%|███████████████████████████████████████████████████████████████████████████████████▏ | 497/681 [30:00<07:32, 2.46s/it] {'loss': 3.4472, 'grad_norm': 12841.9072265625, 'learning_rate': 1.0451099960308374e-07, 'beta_dpo/gap_mean': 384.20770263671875, 'beta_dpo/gap_std': 314.7350158691406, 'beta_dpo/beta_used_raw': -1.5341229438781738, 'beta_dpo/beta_used': 0.4332939088344574, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5560591220855713, 'logits/rejected': -2.60593318939209, 'beta_dpo/beta': 0.4332939088344574, 'beta_dpo/loss_margin_mean': 381.3740234375, 'beta_dpo/beta_margin_mean': 175.2734375, 'beta_dpo/beta_margin_std': 240.9627685546875, 'beta_dpo/beta_margin_grad_mean': -0.2696186900138855, 'beta_dpo/beta_margin_grad_std': 0.27868661284446716, 'epoch': 0.73} 73%|███████████████████████████████████████████████████████████████████████████████████▏ | 497/681 [30:00<07:32, 2.46s/it] 73%|███████████████████████████████████████████████████████████████████████████████████▎ | 498/681 [30:02<07:36, 2.49s/it] {'loss': 1.0755, 'grad_norm': 28.40172004699707, 'learning_rate': 1.0346929082869641e-07, 'beta_dpo/gap_mean': 380.50390625, 'beta_dpo/gap_std': 325.7791442871094, 'beta_dpo/beta_used_raw': -1.132285237312317, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5905566215515137, 'logits/rejected': -2.6150288581848145, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 370.2770690917969, 'beta_dpo/beta_margin_mean': 0.37027707695961, 'beta_dpo/beta_margin_std': 0.39214304089546204, 'beta_dpo/beta_margin_grad_mean': -0.41190412640571594, 'beta_dpo/beta_margin_grad_std': 0.08984668552875519, 'epoch': 0.73} 73%|███████████████████████████████████████████████████████████████████████████████████▎ | 498/681 [30:02<07:36, 2.49s/it] 73%|███████████████████████████████████████████████████████████████████████████████████▌ | 499/681 [30:05<07:37, 2.51s/it] {'loss': 25.3095, 'grad_norm': 27508.541015625, 'learning_rate': 1.0243144327477013e-07, 'beta_dpo/gap_mean': 386.89794921875, 'beta_dpo/gap_std': 335.3507080078125, 'beta_dpo/beta_used_raw': -0.2245168685913086, 'beta_dpo/beta_used': 2.1377925872802734, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5723462104797363, 'logits/rejected': -2.636953830718994, 'beta_dpo/beta': 2.1377925872802734, 'beta_dpo/loss_margin_mean': 415.10186767578125, 'beta_dpo/beta_margin_mean': 950.3165283203125, 'beta_dpo/beta_margin_std': 1399.9261474609375, 'beta_dpo/beta_margin_grad_mean': -0.25142624974250793, 'beta_dpo/beta_margin_grad_std': 0.2667090594768524, 'epoch': 0.73} 73%|███████████████████████████████████████████████████████████████████████████████████▌ | 499/681 [30:05<07:37, 2.51s/it] 73%|███████████████████████████████████████████████████████████████████████████████████▋ | 500/681 [30:07<07:23, 2.45s/it] {'loss': 6.7444, 'grad_norm': 12742.4658203125, 'learning_rate': 1.0139748428955333e-07, 'beta_dpo/gap_mean': 390.808837890625, 'beta_dpo/gap_std': 344.6997375488281, 'beta_dpo/beta_used_raw': 0.8406103849411011, 'beta_dpo/beta_used': 0.8406103849411011, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.5479164123535156, 'logits/rejected': -2.6190683841705322, 'beta_dpo/beta': 0.8406103849411011, 'beta_dpo/loss_margin_mean': 407.3626403808594, 'beta_dpo/beta_margin_mean': 361.0441589355469, 'beta_dpo/beta_margin_std': 578.6198120117188, 'beta_dpo/beta_margin_grad_mean': -0.21563133597373962, 'beta_dpo/beta_margin_grad_std': 0.27382031083106995, 'epoch': 0.73} 73%|███████████████████████████████████████████████████████████████████████████████████▋ | 500/681 [30:07<07:23, 2.45s/it][INFO|trainer.py:4307] 2026-04-18 06:35:51,595 >> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-18 06:35:51,595 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-18 06:35:51,595 >> Batch size = 8 0%| | 0/73 [00:00> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-18 06:40:35,050 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-18 06:40:35,050 >> Batch size = 8 0%| | 0/73 [00:00> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-600 [INFO|configuration_utils.py:419] 2026-04-18 06:41:27,139 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-600/config.json [INFO|configuration_utils.py:911] 2026-04-18 06:41:27,147 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-600/generation_config.json [INFO|modeling_utils.py:3580] 2026-04-18 06:42:06,682 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-600/model.safetensors.index.json. [INFO|tokenization_utils_base.py:2510] 2026-04-18 06:42:06,695 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-600/tokenizer_config.json [INFO|tokenization_utils_base.py:2519] 2026-04-18 06:42:06,700 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-600/special_tokens_map.json [INFO|trainer.py:4083] 2026-04-18 06:44:44,805 >> Deleting older checkpoint [/scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-200] due to args.save_total_limit 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▊ | 601/681 [39:04<1:43:44, 77.80s/it] {'loss': 73.7058, 'grad_norm': 115072.109375, 'learning_rate': 2.1301532877994742e-08, 'beta_dpo/gap_mean': 407.78009033203125, 'beta_dpo/gap_std': 361.7393798828125, 'beta_dpo/beta_used_raw': 3.2707443237304688, 'beta_dpo/beta_used': 3.2707443237304688, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.629629611968994, 'logits/rejected': -2.7460412979125977, 'beta_dpo/beta': 3.2707443237304688, 'beta_dpo/loss_margin_mean': 442.43011474609375, 'beta_dpo/beta_margin_mean': 1377.1533203125, 'beta_dpo/beta_margin_std': 1483.408203125, 'beta_dpo/beta_margin_grad_mean': -0.1272067278623581, 'beta_dpo/beta_margin_grad_std': 0.3303484618663788, 'epoch': 0.88} 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▊ | 601/681 [39:04<1:43:44, 77.80s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████ | 602/681 [39:07<1:12:42, 55.22s/it] {'loss': 0.5206, 'grad_norm': 17.351716995239258, 'learning_rate': 2.0786184285784298e-08, 'beta_dpo/gap_mean': 418.2040100097656, 'beta_dpo/gap_std': 355.448486328125, 'beta_dpo/beta_used_raw': 0.1565786600112915, 'beta_dpo/beta_used': 0.6206492781639099, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7129225730895996, 'logits/rejected': -2.8077144622802734, 'beta_dpo/beta': 0.6206492781639099, 'beta_dpo/loss_margin_mean': 467.5210876464844, 'beta_dpo/beta_margin_mean': 263.51983642578125, 'beta_dpo/beta_margin_std': 366.13446044921875, 'beta_dpo/beta_margin_grad_mean': -0.23634099960327148, 'beta_dpo/beta_margin_grad_std': 0.25701799988746643, 'epoch': 0.88} 88%|███████████████████████████████████████████████████████████████████████████████████████████████████ | 602/681 [39:07<1:12:42, 55.22s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 603/681 [39:09<51:14, 39.42s/it] {'loss': 1.0665, 'grad_norm': 28.13165283203125, 'learning_rate': 2.0276875690788204e-08, 'beta_dpo/gap_mean': 419.609375, 'beta_dpo/gap_std': 357.5216064453125, 'beta_dpo/beta_used_raw': -2.66328501701355, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.724299430847168, 'logits/rejected': -2.7903506755828857, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 395.21722412109375, 'beta_dpo/beta_margin_mean': 0.39521723985671997, 'beta_dpo/beta_margin_std': 0.362171471118927, 'beta_dpo/beta_margin_grad_mean': -0.40567564964294434, 'beta_dpo/beta_margin_grad_std': 0.08365360647439957, 'epoch': 0.89} 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 603/681 [39:09<51:14, 39.42s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████ | 604/681 [39:12<36:23, 28.36s/it] {'loss': 1.0659, 'grad_norm': 29.62197494506836, 'learning_rate': 1.977362051376158e-08, 'beta_dpo/gap_mean': 422.8662109375, 'beta_dpo/gap_std': 361.38897705078125, 'beta_dpo/beta_used_raw': -3.187976598739624, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.675366163253784, 'logits/rejected': -2.7828691005706787, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 455.00048828125, 'beta_dpo/beta_margin_mean': 0.45500051975250244, 'beta_dpo/beta_margin_std': 0.4009777903556824, 'beta_dpo/beta_margin_grad_mean': -0.39339369535446167, 'beta_dpo/beta_margin_grad_std': 0.08459168672561646, 'epoch': 0.89} 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████ | 604/681 [39:12<36:23, 28.36s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 605/681 [39:14<26:06, 20.61s/it] {'loss': 1.061, 'grad_norm': 26.918848037719727, 'learning_rate': 1.9276432015946446e-08, 'beta_dpo/gap_mean': 425.74029541015625, 'beta_dpo/gap_std': 377.2355651855469, 'beta_dpo/beta_used_raw': -2.5361804962158203, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.671755790710449, 'logits/rejected': -2.7664794921875, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 429.46240234375, 'beta_dpo/beta_margin_mean': 0.4294624328613281, 'beta_dpo/beta_margin_std': 0.4166560769081116, 'beta_dpo/beta_margin_grad_mean': -0.3992781937122345, 'beta_dpo/beta_margin_grad_std': 0.09205874055624008, 'epoch': 0.89} 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 605/681 [39:14<26:06, 20.61s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 606/681 [39:17<18:56, 15.16s/it] {'loss': 2.9883, 'grad_norm': 2858.609375, 'learning_rate': 1.8785323298722093e-08, 'beta_dpo/gap_mean': 419.8639221191406, 'beta_dpo/gap_std': 381.78704833984375, 'beta_dpo/beta_used_raw': -0.09920136630535126, 'beta_dpo/beta_used': 0.22745679318904877, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6562769412994385, 'logits/rejected': -2.7424442768096924, 'beta_dpo/beta': 0.22745679318904877, 'beta_dpo/loss_margin_mean': 393.2106018066406, 'beta_dpo/beta_margin_mean': 94.71522521972656, 'beta_dpo/beta_margin_std': 168.86326599121094, 'beta_dpo/beta_margin_grad_mean': -0.2854154407978058, 'beta_dpo/beta_margin_grad_std': 0.29264795780181885, 'epoch': 0.89} 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 606/681 [39:17<18:56, 15.16s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 607/681 [39:19<13:58, 11.32s/it] {'loss': 13.9436, 'grad_norm': 22962.126953125, 'learning_rate': 1.8300307303259904e-08, 'beta_dpo/gap_mean': 408.81640625, 'beta_dpo/gap_std': 380.6749572753906, 'beta_dpo/beta_used_raw': -0.1976158618927002, 'beta_dpo/beta_used': 1.7348406314849854, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.70379900932312, 'logits/rejected': -2.7581634521484375, 'beta_dpo/beta': 1.7348406314849854, 'beta_dpo/loss_margin_mean': 353.4035949707031, 'beta_dpo/beta_margin_mean': 661.6439819335938, 'beta_dpo/beta_margin_std': 1191.2918701171875, 'beta_dpo/beta_margin_grad_mean': -0.27311357855796814, 'beta_dpo/beta_margin_grad_std': 0.28208261728286743, 'epoch': 0.89} 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 607/681 [39:19<13:58, 11.32s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 608/681 [39:22<10:32, 8.66s/it] {'loss': 1.0452, 'grad_norm': 33.10684585571289, 'learning_rate': 1.7821396810182437e-08, 'beta_dpo/gap_mean': 413.77947998046875, 'beta_dpo/gap_std': 373.3118896484375, 'beta_dpo/beta_used_raw': -1.0561343431472778, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6324472427368164, 'logits/rejected': -2.7429165840148926, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 456.9474182128906, 'beta_dpo/beta_margin_mean': 0.4569474458694458, 'beta_dpo/beta_margin_std': 0.328748881816864, 'beta_dpo/beta_margin_grad_mean': -0.39080411195755005, 'beta_dpo/beta_margin_grad_std': 0.07455727458000183, 'epoch': 0.89} 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 608/681 [39:22<10:32, 8.66s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 609/681 [39:24<08:10, 6.81s/it] {'loss': 1.0498, 'grad_norm': 32.35358810424805, 'learning_rate': 1.7348604439226617e-08, 'beta_dpo/gap_mean': 418.79693603515625, 'beta_dpo/gap_std': 365.2125244140625, 'beta_dpo/beta_used_raw': -1.2443511486053467, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6647348403930664, 'logits/rejected': -2.755319595336914, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 432.449951171875, 'beta_dpo/beta_margin_mean': 0.43244999647140503, 'beta_dpo/beta_margin_std': 0.3281441330909729, 'beta_dpo/beta_margin_grad_mean': -0.39637741446495056, 'beta_dpo/beta_margin_grad_std': 0.07506369054317474, 'epoch': 0.89} 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 609/681 [39:24<08:10, 6.81s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 610/681 [39:27<06:30, 5.51s/it] {'loss': 2.1845, 'grad_norm': 11989.935546875, 'learning_rate': 1.6881942648911074e-08, 'beta_dpo/gap_mean': 417.583740234375, 'beta_dpo/gap_std': 368.72650146484375, 'beta_dpo/beta_used_raw': 0.5392435193061829, 'beta_dpo/beta_used': 0.5392435193061829, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.679978370666504, 'logits/rejected': -2.7630457878112793, 'beta_dpo/beta': 0.5392435193061829, 'beta_dpo/loss_margin_mean': 401.9151916503906, 'beta_dpo/beta_margin_mean': 214.91415405273438, 'beta_dpo/beta_margin_std': 323.2533874511719, 'beta_dpo/beta_margin_grad_mean': -0.13582731783390045, 'beta_dpo/beta_margin_grad_std': 0.33346015214920044, 'epoch': 0.9} 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 610/681 [39:27<06:30, 5.51s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 611/681 [39:29<05:27, 4.67s/it] {'loss': 16.8196, 'grad_norm': 32357.361328125, 'learning_rate': 1.6421423736208e-08, 'beta_dpo/gap_mean': 409.5821838378906, 'beta_dpo/gap_std': 377.1724853515625, 'beta_dpo/beta_used_raw': -1.0866873264312744, 'beta_dpo/beta_used': 0.9980809688568115, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6723227500915527, 'logits/rejected': -2.769993305206299, 'beta_dpo/beta': 0.9980809688568115, 'beta_dpo/loss_margin_mean': 410.0389709472656, 'beta_dpo/beta_margin_mean': 542.123046875, 'beta_dpo/beta_margin_std': 784.00927734375, 'beta_dpo/beta_margin_grad_mean': -0.24803996086120605, 'beta_dpo/beta_margin_grad_std': 0.261429101228714, 'epoch': 0.9} 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 611/681 [39:29<05:27, 4.67s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 612/681 [39:32<04:36, 4.01s/it] {'loss': 96.682, 'grad_norm': 61496.91796875, 'learning_rate': 1.5967059836219042e-08, 'beta_dpo/gap_mean': 418.91546630859375, 'beta_dpo/gap_std': 378.8981628417969, 'beta_dpo/beta_used_raw': -0.5901319980621338, 'beta_dpo/beta_used': 2.3185596466064453, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6705970764160156, 'logits/rejected': -2.763137102127075, 'beta_dpo/beta': 2.3185596466064453, 'beta_dpo/loss_margin_mean': 448.5855407714844, 'beta_dpo/beta_margin_mean': 1160.555908203125, 'beta_dpo/beta_margin_std': 1747.4896240234375, 'beta_dpo/beta_margin_grad_mean': -0.23413825035095215, 'beta_dpo/beta_margin_grad_std': 0.24901816248893738, 'epoch': 0.9} 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 612/681 [39:32<04:36, 4.01s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 613/681 [39:34<04:02, 3.56s/it] {'loss': 0.5219, 'grad_norm': 18.278871536254883, 'learning_rate': 1.551886292185553e-08, 'beta_dpo/gap_mean': 433.0877685546875, 'beta_dpo/gap_std': 376.868408203125, 'beta_dpo/beta_used_raw': 1.5588773488998413, 'beta_dpo/beta_used': 2.020970344543457, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6771979331970215, 'logits/rejected': -2.7864818572998047, 'beta_dpo/beta': 2.020970344543457, 'beta_dpo/loss_margin_mean': 500.5608825683594, 'beta_dpo/beta_margin_mean': 1071.8077392578125, 'beta_dpo/beta_margin_std': 1328.2359619140625, 'beta_dpo/beta_margin_grad_mean': -0.19436858594417572, 'beta_dpo/beta_margin_grad_std': 0.20417682826519012, 'epoch': 0.9} 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 613/681 [39:34<04:02, 3.56s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 614/681 [39:37<03:37, 3.25s/it] {'loss': 4.2601, 'grad_norm': 4608.9931640625, 'learning_rate': 1.507684480352292e-08, 'beta_dpo/gap_mean': 440.6515197753906, 'beta_dpo/gap_std': 371.03680419921875, 'beta_dpo/beta_used_raw': -0.8744754195213318, 'beta_dpo/beta_used': 0.24590833485126495, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6669607162475586, 'logits/rejected': -2.793607234954834, 'beta_dpo/beta': 0.24590833485126495, 'beta_dpo/loss_margin_mean': 458.093017578125, 'beta_dpo/beta_margin_mean': 115.03885650634766, 'beta_dpo/beta_margin_std': 184.78355407714844, 'beta_dpo/beta_margin_grad_mean': -0.2588002383708954, 'beta_dpo/beta_margin_grad_std': 0.2748665511608124, 'epoch': 0.9} 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 614/681 [39:37<03:37, 3.25s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 615/681 [39:39<03:22, 3.07s/it] {'loss': 1.0597, 'grad_norm': 32.88970184326172, 'learning_rate': 1.4641017128809801e-08, 'beta_dpo/gap_mean': 434.8990173339844, 'beta_dpo/gap_std': 375.1392822265625, 'beta_dpo/beta_used_raw': -2.9845547676086426, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6823935508728027, 'logits/rejected': -2.760178327560425, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 405.1518859863281, 'beta_dpo/beta_margin_mean': 0.405151903629303, 'beta_dpo/beta_margin_std': 0.404344379901886, 'beta_dpo/beta_margin_grad_mean': -0.40423691272735596, 'beta_dpo/beta_margin_grad_std': 0.09169073402881622, 'epoch': 0.9} 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 615/681 [39:39<03:22, 3.07s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 616/681 [39:42<03:06, 2.87s/it] {'loss': 1.125, 'grad_norm': 30.849700927734375, 'learning_rate': 1.4211391382180637e-08, 'beta_dpo/gap_mean': 418.6253662109375, 'beta_dpo/gap_std': 380.8779296875, 'beta_dpo/beta_used_raw': -6.70911169052124, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.723806381225586, 'logits/rejected': -2.776388168334961, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 324.9549255371094, 'beta_dpo/beta_margin_mean': 0.32495495676994324, 'beta_dpo/beta_margin_std': 0.4116884171962738, 'beta_dpo/beta_margin_grad_mean': -0.4224950969219208, 'beta_dpo/beta_margin_grad_std': 0.09631507843732834, 'epoch': 0.9} 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 616/681 [39:42<03:06, 2.87s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 617/681 [39:44<02:59, 2.80s/it] {'loss': 1.1238, 'grad_norm': 39.271549224853516, 'learning_rate': 1.378797888467345e-08, 'beta_dpo/gap_mean': 394.8181457519531, 'beta_dpo/gap_std': 384.7374267578125, 'beta_dpo/beta_used_raw': -5.807326793670654, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.678978443145752, 'logits/rejected': -2.696861982345581, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 281.0326232910156, 'beta_dpo/beta_margin_mean': 0.28103265166282654, 'beta_dpo/beta_margin_std': 0.3670780658721924, 'beta_dpo/beta_margin_grad_mean': -0.43244972825050354, 'beta_dpo/beta_margin_grad_std': 0.0854559987783432, 'epoch': 0.91} 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 617/681 [39:45<02:59, 2.80s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 618/681 [39:47<02:50, 2.71s/it] {'loss': 29.3627, 'grad_norm': 48797.57421875, 'learning_rate': 1.3370790793601371e-08, 'beta_dpo/gap_mean': 389.8605041503906, 'beta_dpo/gap_std': 387.74383544921875, 'beta_dpo/beta_used_raw': 2.9987692832946777, 'beta_dpo/beta_used': 3.199589967727661, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6983931064605713, 'logits/rejected': -2.777221918106079, 'beta_dpo/beta': 3.199589967727661, 'beta_dpo/loss_margin_mean': 414.118408203125, 'beta_dpo/beta_margin_mean': 1545.2900390625, 'beta_dpo/beta_margin_std': 2523.5302734375, 'beta_dpo/beta_margin_grad_mean': -0.255416601896286, 'beta_dpo/beta_margin_grad_std': 0.2696244418621063, 'epoch': 0.91} 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 618/681 [39:47<02:50, 2.71s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 619/681 [39:50<02:45, 2.67s/it] {'loss': 0.5328, 'grad_norm': 21.482271194458008, 'learning_rate': 1.2959838102258535e-08, 'beta_dpo/gap_mean': 402.82708740234375, 'beta_dpo/gap_std': 391.6029052734375, 'beta_dpo/beta_used_raw': 1.383022665977478, 'beta_dpo/beta_used': 1.616031527519226, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6790366172790527, 'logits/rejected': -2.7796411514282227, 'beta_dpo/beta': 1.616031527519226, 'beta_dpo/loss_margin_mean': 444.0133972167969, 'beta_dpo/beta_margin_mean': 684.386962890625, 'beta_dpo/beta_margin_std': 936.7298583984375, 'beta_dpo/beta_margin_grad_mean': -0.21139781177043915, 'beta_dpo/beta_margin_grad_std': 0.22920767962932587, 'epoch': 0.91} 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 619/681 [39:50<02:45, 2.67s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 620/681 [39:52<02:37, 2.58s/it] {'loss': 1.5936, 'grad_norm': 11751.0576171875, 'learning_rate': 1.2555131639630567e-08, 'beta_dpo/gap_mean': 396.19281005859375, 'beta_dpo/gap_std': 392.14300537109375, 'beta_dpo/beta_used_raw': -1.1368510723114014, 'beta_dpo/beta_used': 0.5794578790664673, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7585866451263428, 'logits/rejected': -2.8155956268310547, 'beta_dpo/beta': 0.5794578790664673, 'beta_dpo/loss_margin_mean': 336.462646484375, 'beta_dpo/beta_margin_mean': 221.4326934814453, 'beta_dpo/beta_margin_std': 396.32781982421875, 'beta_dpo/beta_margin_grad_mean': -0.27765581011772156, 'beta_dpo/beta_margin_grad_std': 0.2895503342151642, 'epoch': 0.91} 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 620/681 [39:52<02:37, 2.58s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 621/681 [39:54<02:32, 2.53s/it] {'loss': 14.073, 'grad_norm': 31736.255859375, 'learning_rate': 1.2156682070109086e-08, 'beta_dpo/gap_mean': 396.5146789550781, 'beta_dpo/gap_std': 397.0887451171875, 'beta_dpo/beta_used_raw': 1.6563297510147095, 'beta_dpo/beta_used': 1.6563297510147095, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6869962215423584, 'logits/rejected': -2.7847015857696533, 'beta_dpo/beta': 1.6563297510147095, 'beta_dpo/loss_margin_mean': 447.8368225097656, 'beta_dpo/beta_margin_mean': 764.5799560546875, 'beta_dpo/beta_margin_std': 776.7243041992188, 'beta_dpo/beta_margin_grad_mean': -0.12106994539499283, 'beta_dpo/beta_margin_grad_std': 0.32161012291908264, 'epoch': 0.91} 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 621/681 [39:54<02:32, 2.53s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████ | 622/681 [39:57<02:29, 2.54s/it] {'loss': 1.1033, 'grad_norm': 31.479806900024414, 'learning_rate': 1.1764499893210878e-08, 'beta_dpo/gap_mean': 397.34625244140625, 'beta_dpo/gap_std': 393.946533203125, 'beta_dpo/beta_used_raw': -4.0101447105407715, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.645836353302002, 'logits/rejected': -2.7034900188446045, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 355.5622863769531, 'beta_dpo/beta_margin_mean': 0.355562299489975, 'beta_dpo/beta_margin_std': 0.34979644417762756, 'beta_dpo/beta_margin_grad_mean': -0.41488850116729736, 'beta_dpo/beta_margin_grad_std': 0.07999890297651291, 'epoch': 0.91} 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████ | 622/681 [39:57<02:29, 2.54s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 623/681 [39:59<02:25, 2.51s/it] {'loss': 1.0963, 'grad_norm': 28.536666870117188, 'learning_rate': 1.1378595443300998e-08, 'beta_dpo/gap_mean': 391.07568359375, 'beta_dpo/gap_std': 391.4143981933594, 'beta_dpo/beta_used_raw': -3.0260062217712402, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.684234619140625, 'logits/rejected': -2.754396677017212, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 360.9658203125, 'beta_dpo/beta_margin_mean': 0.3609658181667328, 'beta_dpo/beta_margin_std': 0.39438700675964355, 'beta_dpo/beta_margin_grad_mean': -0.4140608608722687, 'beta_dpo/beta_margin_grad_std': 0.09136771410703659, 'epoch': 0.91} 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 623/681 [39:59<02:25, 2.51s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 624/681 [40:02<02:24, 2.54s/it] {'loss': 3.3046, 'grad_norm': 90469.3125, 'learning_rate': 1.0998978889320582e-08, 'beta_dpo/gap_mean': 396.8379821777344, 'beta_dpo/gap_std': 400.57037353515625, 'beta_dpo/beta_used_raw': 0.8192785978317261, 'beta_dpo/beta_used': 2.6343820095062256, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.734670400619507, 'logits/rejected': -2.8197638988494873, 'beta_dpo/beta': 2.6343820095062256, 'beta_dpo/loss_margin_mean': 465.2864990234375, 'beta_dpo/beta_margin_mean': 1267.75537109375, 'beta_dpo/beta_margin_std': 1948.750732421875, 'beta_dpo/beta_margin_grad_mean': -0.24445195496082306, 'beta_dpo/beta_margin_grad_std': 0.26650404930114746, 'epoch': 0.92} 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 624/681 [40:02<02:24, 2.54s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 625/681 [40:04<02:22, 2.54s/it] {'loss': 17.1082, 'grad_norm': 26121.599609375, 'learning_rate': 1.0625660234518913e-08, 'beta_dpo/gap_mean': 401.3667297363281, 'beta_dpo/gap_std': 384.7314453125, 'beta_dpo/beta_used_raw': -0.7660439014434814, 'beta_dpo/beta_used': 1.0586000680923462, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6922459602355957, 'logits/rejected': -2.767746925354004, 'beta_dpo/beta': 1.0586000680923462, 'beta_dpo/loss_margin_mean': 412.4743957519531, 'beta_dpo/beta_margin_mean': 472.75970458984375, 'beta_dpo/beta_margin_std': 665.16015625, 'beta_dpo/beta_margin_grad_mean': -0.23547331988811493, 'beta_dpo/beta_margin_grad_std': 0.24736563861370087, 'epoch': 0.92} 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 625/681 [40:05<02:22, 2.54s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 626/681 [40:07<02:20, 2.56s/it] {'loss': 1.0654, 'grad_norm': 34.07730484008789, 'learning_rate': 1.0258649316189721e-08, 'beta_dpo/gap_mean': 402.25384521484375, 'beta_dpo/gap_std': 386.7181091308594, 'beta_dpo/beta_used_raw': -1.5139915943145752, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.66159725189209, 'logits/rejected': -2.7381627559661865, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 394.98089599609375, 'beta_dpo/beta_margin_mean': 0.39498090744018555, 'beta_dpo/beta_margin_std': 0.4217798709869385, 'beta_dpo/beta_margin_grad_mean': -0.40667426586151123, 'beta_dpo/beta_margin_grad_std': 0.09596937894821167, 'epoch': 0.92} 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 626/681 [40:07<02:20, 2.56s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 627/681 [40:10<02:16, 2.52s/it] {'loss': 0.0004, 'grad_norm': 38.47300720214844, 'learning_rate': 9.897955805412e-09, 'beta_dpo/gap_mean': 412.205810546875, 'beta_dpo/gap_std': 392.6907958984375, 'beta_dpo/beta_used_raw': 3.29160737991333, 'beta_dpo/beta_used': 3.29160737991333, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.662278413772583, 'logits/rejected': -2.77905011177063, 'beta_dpo/beta': 3.29160737991333, 'beta_dpo/loss_margin_mean': 481.80487060546875, 'beta_dpo/beta_margin_mean': 1679.4234619140625, 'beta_dpo/beta_margin_std': 2345.806884765625, 'beta_dpo/beta_margin_grad_mean': -0.07827726006507874, 'beta_dpo/beta_margin_grad_std': 0.26832348108291626, 'epoch': 0.92} 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 627/681 [40:10<02:16, 2.52s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 628/681 [40:12<02:13, 2.52s/it] {'loss': 6.3099, 'grad_norm': 5785.26611328125, 'learning_rate': 9.543589206795238e-09, 'beta_dpo/gap_mean': 422.8117370605469, 'beta_dpo/gap_std': 404.112548828125, 'beta_dpo/beta_used_raw': -0.19239750504493713, 'beta_dpo/beta_used': 0.16923931241035461, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7000410556793213, 'logits/rejected': -2.7991576194763184, 'beta_dpo/beta': 0.16923931241035461, 'beta_dpo/loss_margin_mean': 459.7860107421875, 'beta_dpo/beta_margin_mean': 74.43370819091797, 'beta_dpo/beta_margin_std': 140.65432739257812, 'beta_dpo/beta_margin_grad_mean': -0.25576457381248474, 'beta_dpo/beta_margin_grad_std': 0.2738649845123291, 'epoch': 0.92} 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 628/681 [40:12<02:13, 2.52s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 629/681 [40:15<02:11, 2.53s/it] {'loss': 1.5217, 'grad_norm': 3084.765380859375, 'learning_rate': 9.19555885822887e-09, 'beta_dpo/gap_mean': 422.31903076171875, 'beta_dpo/gap_std': 400.2264404296875, 'beta_dpo/beta_used_raw': -1.8342968225479126, 'beta_dpo/beta_used': 0.24494610726833344, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.698057174682617, 'logits/rejected': -2.772855281829834, 'beta_dpo/beta': 0.24494610726833344, 'beta_dpo/loss_margin_mean': 406.9854736328125, 'beta_dpo/beta_margin_mean': 103.84109497070312, 'beta_dpo/beta_margin_std': 145.34765625, 'beta_dpo/beta_margin_grad_mean': -0.25123071670532227, 'beta_dpo/beta_margin_grad_std': 0.26800966262817383, 'epoch': 0.92} 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 629/681 [40:15<02:11, 2.53s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 630/681 [40:17<02:07, 2.50s/it] {'loss': 0.6538, 'grad_norm': 128.09698486328125, 'learning_rate': 8.85387393063622e-09, 'beta_dpo/gap_mean': 418.43365478515625, 'beta_dpo/gap_std': 380.6859436035156, 'beta_dpo/beta_used_raw': -1.358794927597046, 'beta_dpo/beta_used': 0.010254332795739174, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.66994571685791, 'logits/rejected': -2.7564034461975098, 'beta_dpo/beta': 0.010254332795739174, 'beta_dpo/loss_margin_mean': 416.1902160644531, 'beta_dpo/beta_margin_mean': 4.899608135223389, 'beta_dpo/beta_margin_std': 7.351168155670166, 'beta_dpo/beta_margin_grad_mean': -0.2662602663040161, 'beta_dpo/beta_margin_grad_std': 0.2255883365869522, 'epoch': 0.93} 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 630/681 [40:17<02:07, 2.50s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 631/681 [40:20<02:05, 2.50s/it] {'loss': 0.5817, 'grad_norm': 6237.07177734375, 'learning_rate': 8.518543427732949e-09, 'beta_dpo/gap_mean': 411.2584228515625, 'beta_dpo/gap_std': 380.47344970703125, 'beta_dpo/beta_used_raw': -2.5124354362487793, 'beta_dpo/beta_used': 0.572502613067627, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7391209602355957, 'logits/rejected': -2.8207530975341797, 'beta_dpo/beta': 0.572502613067627, 'beta_dpo/loss_margin_mean': 375.1467590332031, 'beta_dpo/beta_margin_mean': 263.9234619140625, 'beta_dpo/beta_margin_std': 379.5833435058594, 'beta_dpo/beta_margin_grad_mean': -0.25285497307777405, 'beta_dpo/beta_margin_grad_std': 0.25762128829956055, 'epoch': 0.93} 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 631/681 [40:20<02:05, 2.50s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 632/681 [40:22<01:58, 2.42s/it] {'loss': 20.7515, 'grad_norm': 13932.6142578125, 'learning_rate': 8.189576185789637e-09, 'beta_dpo/gap_mean': 409.9851989746094, 'beta_dpo/gap_std': 375.94549560546875, 'beta_dpo/beta_used_raw': -3.893587350845337, 'beta_dpo/beta_used': 0.6863118410110474, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.712128162384033, 'logits/rejected': -2.77974009513855, 'beta_dpo/beta': 0.6863118410110474, 'beta_dpo/loss_margin_mean': 378.54730224609375, 'beta_dpo/beta_margin_mean': 278.4541931152344, 'beta_dpo/beta_margin_std': 425.826416015625, 'beta_dpo/beta_margin_grad_mean': -0.2555917203426361, 'beta_dpo/beta_margin_grad_std': 0.2693924009799957, 'epoch': 0.93} 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 632/681 [40:22<01:58, 2.42s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 633/681 [40:24<01:55, 2.40s/it] {'loss': 33.6173, 'grad_norm': 38270.734375, 'learning_rate': 7.866980873399015e-09, 'beta_dpo/gap_mean': 402.13140869140625, 'beta_dpo/gap_std': 372.6382141113281, 'beta_dpo/beta_used_raw': -0.9592093229293823, 'beta_dpo/beta_used': 0.8220680356025696, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7510485649108887, 'logits/rejected': -2.832095146179199, 'beta_dpo/beta': 0.8220680356025696, 'beta_dpo/loss_margin_mean': 393.3555908203125, 'beta_dpo/beta_margin_mean': 374.5078125, 'beta_dpo/beta_margin_std': 545.6969604492188, 'beta_dpo/beta_margin_grad_mean': -0.2414667308330536, 'beta_dpo/beta_margin_grad_std': 0.25375181436538696, 'epoch': 0.93} 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 633/681 [40:24<01:55, 2.40s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 634/681 [40:27<01:53, 2.42s/it] {'loss': 3.3576, 'grad_norm': 23538.87109375, 'learning_rate': 7.550765991247654e-09, 'beta_dpo/gap_mean': 416.826171875, 'beta_dpo/gap_std': 384.57305908203125, 'beta_dpo/beta_used_raw': -1.2706066370010376, 'beta_dpo/beta_used': 1.9843794107437134, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7076034545898438, 'logits/rejected': -2.8257126808166504, 'beta_dpo/beta': 1.9843794107437134, 'beta_dpo/loss_margin_mean': 465.8406982421875, 'beta_dpo/beta_margin_mean': 1058.7847900390625, 'beta_dpo/beta_margin_std': 1698.30029296875, 'beta_dpo/beta_margin_grad_mean': -0.23467524349689484, 'beta_dpo/beta_margin_grad_std': 0.25170350074768066, 'epoch': 0.93} 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 634/681 [40:27<01:53, 2.42s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 635/681 [40:29<01:50, 2.40s/it] {'loss': 1.1092, 'grad_norm': 27.796987533569336, 'learning_rate': 7.240939871891699e-09, 'beta_dpo/gap_mean': 407.5589904785156, 'beta_dpo/gap_std': 385.02099609375, 'beta_dpo/beta_used_raw': -5.190537452697754, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.733865261077881, 'logits/rejected': -2.7787771224975586, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 356.0367431640625, 'beta_dpo/beta_margin_mean': 0.3560367524623871, 'beta_dpo/beta_margin_std': 0.37797629833221436, 'beta_dpo/beta_margin_grad_mean': -0.4157167077064514, 'beta_dpo/beta_margin_grad_std': 0.08389006555080414, 'epoch': 0.93} 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 635/681 [40:29<01:50, 2.40s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 636/681 [40:32<01:53, 2.52s/it] {'loss': 1.1087, 'grad_norm': 32.076175689697266, 'learning_rate': 6.937510679537628e-09, 'beta_dpo/gap_mean': 395.2179870605469, 'beta_dpo/gap_std': 383.86175537109375, 'beta_dpo/beta_used_raw': -4.042080402374268, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7010793685913086, 'logits/rejected': -2.7489147186279297, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 352.67730712890625, 'beta_dpo/beta_margin_mean': 0.3526773154735565, 'beta_dpo/beta_margin_std': 0.35728541016578674, 'beta_dpo/beta_margin_grad_mean': -0.4153151214122772, 'beta_dpo/beta_margin_grad_std': 0.08367358148097992, 'epoch': 0.93} 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 636/681 [40:32<01:53, 2.52s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 637/681 [40:34<01:52, 2.56s/it] {'loss': 1.098, 'grad_norm': 30.193471908569336, 'learning_rate': 6.640486409826785e-09, 'beta_dpo/gap_mean': 400.29400634765625, 'beta_dpo/gap_std': 386.3330993652344, 'beta_dpo/beta_used_raw': -3.6715822219848633, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.697937250137329, 'logits/rejected': -2.79691219329834, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 431.2987060546875, 'beta_dpo/beta_margin_mean': 0.43129873275756836, 'beta_dpo/beta_margin_std': 0.4063197672367096, 'beta_dpo/beta_margin_grad_mean': -0.39836955070495605, 'beta_dpo/beta_margin_grad_std': 0.09108960628509521, 'epoch': 0.94} 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 637/681 [40:34<01:52, 2.56s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 638/681 [40:37<01:48, 2.52s/it] {'loss': 2.9598, 'grad_norm': 4143.97802734375, 'learning_rate': 6.349874889624962e-09, 'beta_dpo/gap_mean': 401.11383056640625, 'beta_dpo/gap_std': 381.48553466796875, 'beta_dpo/beta_used_raw': -1.928234577178955, 'beta_dpo/beta_used': 1.0422019958496094, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.663649320602417, 'logits/rejected': -2.739919662475586, 'beta_dpo/beta': 1.0422019958496094, 'beta_dpo/loss_margin_mean': 406.8208923339844, 'beta_dpo/beta_margin_mean': 457.24200439453125, 'beta_dpo/beta_margin_std': 703.8070678710938, 'beta_dpo/beta_margin_grad_mean': -0.2520017921924591, 'beta_dpo/beta_margin_grad_std': 0.26553109288215637, 'epoch': 0.94} 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 638/681 [40:37<01:48, 2.52s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 639/681 [40:39<01:45, 2.50s/it] {'loss': 5.479, 'grad_norm': 12486.169921875, 'learning_rate': 6.065683776815933e-09, 'beta_dpo/gap_mean': 384.8955078125, 'beta_dpo/gap_std': 367.0290832519531, 'beta_dpo/beta_used_raw': -3.1657114028930664, 'beta_dpo/beta_used': 0.8174912929534912, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.637770652770996, 'logits/rejected': -2.6620218753814697, 'beta_dpo/beta': 0.8174912929534912, 'beta_dpo/loss_margin_mean': 319.404052734375, 'beta_dpo/beta_margin_mean': 371.14276123046875, 'beta_dpo/beta_margin_std': 529.0587768554688, 'beta_dpo/beta_margin_grad_mean': -0.27413713932037354, 'beta_dpo/beta_margin_grad_std': 0.2775159478187561, 'epoch': 0.94} 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 639/681 [40:39<01:45, 2.50s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 640/681 [40:42<01:40, 2.45s/it] {'loss': 0.5343, 'grad_norm': 27.00104522705078, 'learning_rate': 5.7879205600998296e-09, 'beta_dpo/gap_mean': 402.61187744140625, 'beta_dpo/gap_std': 376.2877197265625, 'beta_dpo/beta_used_raw': 0.036036670207977295, 'beta_dpo/beta_used': 0.4668891727924347, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6643662452697754, 'logits/rejected': -2.7640390396118164, 'beta_dpo/beta': 0.4668891727924347, 'beta_dpo/loss_margin_mean': 500.78619384765625, 'beta_dpo/beta_margin_mean': 256.6402893066406, 'beta_dpo/beta_margin_std': 346.9462890625, 'beta_dpo/beta_margin_grad_mean': -0.19809961318969727, 'beta_dpo/beta_margin_grad_std': 0.21003539860248566, 'epoch': 0.94} 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 640/681 [40:42<01:40, 2.45s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 641/681 [40:44<01:39, 2.49s/it] {'loss': 33.9035, 'grad_norm': 37319.4296875, 'learning_rate': 5.516592558795746e-09, 'beta_dpo/gap_mean': 413.01031494140625, 'beta_dpo/gap_std': 378.18206787109375, 'beta_dpo/beta_used_raw': -0.05958735942840576, 'beta_dpo/beta_used': 1.7024071216583252, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7087669372558594, 'logits/rejected': -2.7869772911071777, 'beta_dpo/beta': 1.7024071216583252, 'beta_dpo/loss_margin_mean': 426.4712829589844, 'beta_dpo/beta_margin_mean': 737.9752197265625, 'beta_dpo/beta_margin_std': 1113.3966064453125, 'beta_dpo/beta_margin_grad_mean': -0.2545595169067383, 'beta_dpo/beta_margin_grad_std': 0.2657167315483093, 'epoch': 0.94} 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 641/681 [40:44<01:39, 2.49s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 642/681 [40:47<01:36, 2.48s/it] {'loss': 0.554, 'grad_norm': 23.94333839416504, 'learning_rate': 5.251706922648868e-09, 'beta_dpo/gap_mean': 417.9560852050781, 'beta_dpo/gap_std': 394.83203125, 'beta_dpo/beta_used_raw': 0.7488954067230225, 'beta_dpo/beta_used': 2.8232624530792236, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6790223121643066, 'logits/rejected': -2.778899908065796, 'beta_dpo/beta': 2.8232624530792236, 'beta_dpo/loss_margin_mean': 470.5616455078125, 'beta_dpo/beta_margin_mean': 1559.873291015625, 'beta_dpo/beta_margin_std': 2155.26123046875, 'beta_dpo/beta_margin_grad_mean': -0.20511434972286224, 'beta_dpo/beta_margin_grad_std': 0.21880197525024414, 'epoch': 0.94} 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 642/681 [40:47<01:36, 2.48s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 643/681 [40:49<01:33, 2.47s/it] {'loss': 1.0385, 'grad_norm': 28.286523818969727, 'learning_rate': 4.993270631642038e-09, 'beta_dpo/gap_mean': 421.8905944824219, 'beta_dpo/gap_std': 384.7071228027344, 'beta_dpo/beta_used_raw': -1.0951257944107056, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6818013191223145, 'logits/rejected': -2.7871358394622803, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 404.2005310058594, 'beta_dpo/beta_margin_mean': 0.40420055389404297, 'beta_dpo/beta_margin_std': 0.3269351124763489, 'beta_dpo/beta_margin_grad_mean': -0.40317976474761963, 'beta_dpo/beta_margin_grad_std': 0.07390031218528748, 'epoch': 0.94} 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 643/681 [40:49<01:33, 2.47s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 644/681 [40:52<01:33, 2.53s/it] {'loss': 1.0446, 'grad_norm': 33.19130325317383, 'learning_rate': 4.741290495811873e-09, 'beta_dpo/gap_mean': 418.0806884765625, 'beta_dpo/gap_std': 381.2316589355469, 'beta_dpo/beta_used_raw': -1.0808398723602295, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.66062068939209, 'logits/rejected': -2.7422003746032715, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 385.7050476074219, 'beta_dpo/beta_margin_mean': 0.38570505380630493, 'beta_dpo/beta_margin_std': 0.35576584935188293, 'beta_dpo/beta_margin_grad_mean': -0.4079779386520386, 'beta_dpo/beta_margin_grad_std': 0.08079829812049866, 'epoch': 0.95} 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 644/681 [40:52<01:33, 2.53s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 645/681 [40:54<01:32, 2.57s/it] {'loss': 1.1056, 'grad_norm': 28.928796768188477, 'learning_rate': 4.495773155069299e-09, 'beta_dpo/gap_mean': 409.40924072265625, 'beta_dpo/gap_std': 381.2076416015625, 'beta_dpo/beta_used_raw': -4.672241687774658, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.667562484741211, 'logits/rejected': -2.756563663482666, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 371.1376953125, 'beta_dpo/beta_margin_mean': 0.37113770842552185, 'beta_dpo/beta_margin_std': 0.40058884024620056, 'beta_dpo/beta_margin_grad_mean': -0.4123542308807373, 'beta_dpo/beta_margin_grad_std': 0.09075028449296951, 'epoch': 0.95} 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 645/681 [40:54<01:32, 2.57s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 646/681 [40:57<01:29, 2.55s/it] {'loss': 6.6603, 'grad_norm': 9614.8828125, 'learning_rate': 4.256725079024553e-09, 'beta_dpo/gap_mean': 402.3372802734375, 'beta_dpo/gap_std': 367.37091064453125, 'beta_dpo/beta_used_raw': -0.878277599811554, 'beta_dpo/beta_used': 0.956828236579895, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.677600383758545, 'logits/rejected': -2.7275893688201904, 'beta_dpo/beta': 0.956828236579895, 'beta_dpo/loss_margin_mean': 363.10498046875, 'beta_dpo/beta_margin_mean': 412.48236083984375, 'beta_dpo/beta_margin_std': 568.2828979492188, 'beta_dpo/beta_margin_grad_mean': -0.24536260962486267, 'beta_dpo/beta_margin_grad_std': 0.25645798444747925, 'epoch': 0.95} 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 646/681 [40:57<01:29, 2.55s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 647/681 [41:00<01:27, 2.56s/it] {'loss': 1.1028, 'grad_norm': 31.953645706176758, 'learning_rate': 4.024152566816791e-09, 'beta_dpo/gap_mean': 389.188232421875, 'beta_dpo/gap_std': 354.70404052734375, 'beta_dpo/beta_used_raw': -3.700502395629883, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6596388816833496, 'logits/rejected': -2.7517409324645996, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 363.99639892578125, 'beta_dpo/beta_margin_mean': 0.3639964163303375, 'beta_dpo/beta_margin_std': 0.28941068053245544, 'beta_dpo/beta_margin_grad_mean': -0.4117124080657959, 'beta_dpo/beta_margin_grad_std': 0.06875015795230865, 'epoch': 0.95} 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 647/681 [41:00<01:27, 2.56s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 648/681 [41:02<01:23, 2.54s/it] {'loss': 31.5114, 'grad_norm': 27103.84375, 'learning_rate': 3.798061746947995e-09, 'beta_dpo/gap_mean': 395.81396484375, 'beta_dpo/gap_std': 356.5727233886719, 'beta_dpo/beta_used_raw': -1.4812275171279907, 'beta_dpo/beta_used': 0.5703181624412537, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6732091903686523, 'logits/rejected': -2.8048720359802246, 'beta_dpo/beta': 0.5703181624412537, 'beta_dpo/loss_margin_mean': 429.5019836425781, 'beta_dpo/beta_margin_mean': 255.6763916015625, 'beta_dpo/beta_margin_std': 416.8722229003906, 'beta_dpo/beta_margin_grad_mean': -0.24799123406410217, 'beta_dpo/beta_margin_grad_std': 0.264789342880249, 'epoch': 0.95} 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 648/681 [41:02<01:23, 2.54s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 649/681 [41:05<01:25, 2.66s/it] {'loss': 1.1226, 'grad_norm': 31.426589965820312, 'learning_rate': 3.5784585771215235e-09, 'beta_dpo/gap_mean': 385.2996826171875, 'beta_dpo/gap_std': 365.2505798339844, 'beta_dpo/beta_used_raw': -4.014761924743652, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.712721347808838, 'logits/rejected': -2.750772476196289, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 301.92132568359375, 'beta_dpo/beta_margin_mean': 0.3019213378429413, 'beta_dpo/beta_margin_std': 0.4140036404132843, 'beta_dpo/beta_margin_grad_mean': -0.4284921884536743, 'beta_dpo/beta_margin_grad_std': 0.09621818363666534, 'epoch': 0.95} 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 649/681 [41:05<01:25, 2.66s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 650/681 [41:07<01:21, 2.62s/it] {'loss': 46.2267, 'grad_norm': 76912.0078125, 'learning_rate': 3.3653488440851253e-09, 'beta_dpo/gap_mean': 391.6793212890625, 'beta_dpo/gap_std': 385.2804870605469, 'beta_dpo/beta_used_raw': 2.429518222808838, 'beta_dpo/beta_used': 2.429518222808838, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6398544311523438, 'logits/rejected': -2.746957540512085, 'beta_dpo/beta': 2.429518222808838, 'beta_dpo/loss_margin_mean': 466.9042663574219, 'beta_dpo/beta_margin_mean': 1180.8328857421875, 'beta_dpo/beta_margin_std': 1849.820556640625, 'beta_dpo/beta_margin_grad_mean': -0.15641333162784576, 'beta_dpo/beta_margin_grad_std': 0.3630194067955017, 'epoch': 0.95} 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 650/681 [41:08<01:21, 2.62s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 651/681 [41:10<01:16, 2.56s/it] {'loss': 14.6975, 'grad_norm': 72114.8203125, 'learning_rate': 3.158738163478475e-09, 'beta_dpo/gap_mean': 405.810546875, 'beta_dpo/gap_std': 392.9246826171875, 'beta_dpo/beta_used_raw': 2.192887306213379, 'beta_dpo/beta_used': 2.192887306213379, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.726027011871338, 'logits/rejected': -2.8322134017944336, 'beta_dpo/beta': 2.192887306213379, 'beta_dpo/loss_margin_mean': 439.4105529785156, 'beta_dpo/beta_margin_mean': 1079.196533203125, 'beta_dpo/beta_margin_std': 1474.2933349609375, 'beta_dpo/beta_margin_grad_mean': -0.14100220799446106, 'beta_dpo/beta_margin_grad_std': 0.33823278546333313, 'epoch': 0.96} 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 651/681 [41:10<01:16, 2.56s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 652/681 [41:12<01:14, 2.56s/it] {'loss': 64.9825, 'grad_norm': 58857.55859375, 'learning_rate': 2.9586319796851555e-09, 'beta_dpo/gap_mean': 408.07373046875, 'beta_dpo/gap_std': 401.121337890625, 'beta_dpo/beta_used_raw': 3.001312732696533, 'beta_dpo/beta_used': 3.001312732696533, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7092862129211426, 'logits/rejected': -2.830409049987793, 'beta_dpo/beta': 3.001312732696533, 'beta_dpo/loss_margin_mean': 430.41156005859375, 'beta_dpo/beta_margin_mean': 1289.045654296875, 'beta_dpo/beta_margin_std': 2198.432861328125, 'beta_dpo/beta_margin_grad_mean': -0.15693050622940063, 'beta_dpo/beta_margin_grad_std': 0.3628394305706024, 'epoch': 0.96} 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 652/681 [41:12<01:14, 2.56s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 653/681 [41:15<01:11, 2.54s/it] {'loss': 23.9097, 'grad_norm': 35622.0390625, 'learning_rate': 2.7650355656892166e-09, 'beta_dpo/gap_mean': 420.1622314453125, 'beta_dpo/gap_std': 404.7218933105469, 'beta_dpo/beta_used_raw': 0.3514312505722046, 'beta_dpo/beta_used': 1.4299049377441406, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.677021026611328, 'logits/rejected': -2.806358814239502, 'beta_dpo/beta': 1.4299049377441406, 'beta_dpo/loss_margin_mean': 500.4862365722656, 'beta_dpo/beta_margin_mean': 643.51318359375, 'beta_dpo/beta_margin_std': 985.338623046875, 'beta_dpo/beta_margin_grad_mean': -0.23352642357349396, 'beta_dpo/beta_margin_grad_std': 0.25692373514175415, 'epoch': 0.96} 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 653/681 [41:15<01:11, 2.54s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 654/681 [41:18<01:08, 2.55s/it] {'loss': 4.9214, 'grad_norm': 18767.052734375, 'learning_rate': 2.577954022936174e-09, 'beta_dpo/gap_mean': 423.97796630859375, 'beta_dpo/gap_std': 405.8636474609375, 'beta_dpo/beta_used_raw': -0.04932612180709839, 'beta_dpo/beta_used': 0.9755141735076904, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.706268787384033, 'logits/rejected': -2.816140651702881, 'beta_dpo/beta': 0.9755141735076904, 'beta_dpo/loss_margin_mean': 406.8052062988281, 'beta_dpo/beta_margin_mean': 399.7411804199219, 'beta_dpo/beta_margin_std': 707.6503295898438, 'beta_dpo/beta_margin_grad_mean': -0.2645564079284668, 'beta_dpo/beta_margin_grad_std': 0.2780976891517639, 'epoch': 0.96} 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 654/681 [41:18<01:08, 2.55s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 655/681 [41:20<01:05, 2.50s/it] {'loss': 3.7187, 'grad_norm': 18119.2421875, 'learning_rate': 2.397392281198729e-09, 'beta_dpo/gap_mean': 427.8386535644531, 'beta_dpo/gap_std': 412.89520263671875, 'beta_dpo/beta_used_raw': 0.2029227614402771, 'beta_dpo/beta_used': 1.0244628190994263, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.680917263031006, 'logits/rejected': -2.7932283878326416, 'beta_dpo/beta': 1.0244628190994263, 'beta_dpo/loss_margin_mean': 435.32635498046875, 'beta_dpo/beta_margin_mean': 510.8900451660156, 'beta_dpo/beta_margin_std': 796.9216918945312, 'beta_dpo/beta_margin_grad_mean': -0.25356224179267883, 'beta_dpo/beta_margin_grad_std': 0.2714630663394928, 'epoch': 0.96} 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 655/681 [41:20<01:05, 2.50s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 656/681 [41:22<01:02, 2.52s/it] {'loss': 3.1373, 'grad_norm': 6175.9521484375, 'learning_rate': 2.223355098446622e-09, 'beta_dpo/gap_mean': 440.5277404785156, 'beta_dpo/gap_std': 414.5347900390625, 'beta_dpo/beta_used_raw': 2.7679896354675293, 'beta_dpo/beta_used': 2.7679896354675293, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.654201030731201, 'logits/rejected': -2.7860169410705566, 'beta_dpo/beta': 2.7679896354675293, 'beta_dpo/loss_margin_mean': 540.3606567382812, 'beta_dpo/beta_margin_mean': 1555.604248046875, 'beta_dpo/beta_margin_std': 1787.474853515625, 'beta_dpo/beta_margin_grad_mean': -0.08084268122911453, 'beta_dpo/beta_margin_grad_std': 0.26834091544151306, 'epoch': 0.96} 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 656/681 [41:23<01:02, 2.52s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 657/681 [41:25<00:59, 2.47s/it] {'loss': 1.0684, 'grad_norm': 29.89715003967285, 'learning_rate': 2.055847060721566e-09, 'beta_dpo/gap_mean': 452.3384094238281, 'beta_dpo/gap_std': 401.4930725097656, 'beta_dpo/beta_used_raw': -4.769383430480957, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7141106128692627, 'logits/rejected': -2.818988084793091, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 470.60772705078125, 'beta_dpo/beta_margin_mean': 0.4706077575683594, 'beta_dpo/beta_margin_std': 0.3598029613494873, 'beta_dpo/beta_margin_grad_mean': -0.38836878538131714, 'beta_dpo/beta_margin_grad_std': 0.08058323711156845, 'epoch': 0.96} 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 657/681 [41:25<00:59, 2.47s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 658/681 [41:27<00:55, 2.43s/it] {'loss': 8.8263, 'grad_norm': 15924.490234375, 'learning_rate': 1.8948725820160662e-09, 'beta_dpo/gap_mean': 444.14215087890625, 'beta_dpo/gap_std': 383.74365234375, 'beta_dpo/beta_used_raw': -3.3986754417419434, 'beta_dpo/beta_used': 0.3125349283218384, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6853952407836914, 'logits/rejected': -2.801093578338623, 'beta_dpo/beta': 0.3125349283218384, 'beta_dpo/loss_margin_mean': 420.6098937988281, 'beta_dpo/beta_margin_mean': 149.250732421875, 'beta_dpo/beta_margin_std': 212.36988830566406, 'beta_dpo/beta_margin_grad_mean': -0.2526739537715912, 'beta_dpo/beta_margin_grad_std': 0.2634952664375305, 'epoch': 0.97} 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 658/681 [41:27<00:55, 2.43s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 659/681 [41:30<00:55, 2.52s/it] {'loss': 1.0658, 'grad_norm': 33.702049255371094, 'learning_rate': 1.7404359041573723e-09, 'beta_dpo/gap_mean': 439.3583679199219, 'beta_dpo/gap_std': 378.472412109375, 'beta_dpo/beta_used_raw': -3.6913902759552, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.692453145980835, 'logits/rejected': -2.7410359382629395, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 396.1846923828125, 'beta_dpo/beta_margin_mean': 0.3961847126483917, 'beta_dpo/beta_margin_std': 0.37236061692237854, 'beta_dpo/beta_margin_grad_mean': -0.4057837426662445, 'beta_dpo/beta_margin_grad_std': 0.08504177629947662, 'epoch': 0.97} 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 659/681 [41:30<00:55, 2.52s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 660/681 [41:32<00:52, 2.52s/it] {'loss': 1.0505, 'grad_norm': 25.069368362426758, 'learning_rate': 1.592541096695571e-09, 'beta_dpo/gap_mean': 438.81976318359375, 'beta_dpo/gap_std': 376.5857849121094, 'beta_dpo/beta_used_raw': -2.6651883125305176, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6554760932922363, 'logits/rejected': -2.734593391418457, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 446.9809875488281, 'beta_dpo/beta_margin_mean': 0.4469809830188751, 'beta_dpo/beta_margin_std': 0.3453811705112457, 'beta_dpo/beta_margin_grad_mean': -0.3935113251209259, 'beta_dpo/beta_margin_grad_std': 0.07827742397785187, 'epoch': 0.97} 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 660/681 [41:32<00:52, 2.52s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 661/681 [41:35<00:50, 2.52s/it] {'loss': 1.0573, 'grad_norm': 28.522525787353516, 'learning_rate': 1.4511920567963908e-09, 'beta_dpo/gap_mean': 431.3531494140625, 'beta_dpo/gap_std': 369.5039367675781, 'beta_dpo/beta_used_raw': -2.9038610458374023, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6922972202301025, 'logits/rejected': -2.764153242111206, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 412.9953918457031, 'beta_dpo/beta_margin_mean': 0.4129953980445862, 'beta_dpo/beta_margin_std': 0.3699604570865631, 'beta_dpo/beta_margin_grad_mean': -0.40231382846832275, 'beta_dpo/beta_margin_grad_std': 0.0794859230518341, 'epoch': 0.97} 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 661/681 [41:35<00:50, 2.52s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 662/681 [41:37<00:47, 2.49s/it] {'loss': 4.327, 'grad_norm': 10333.798828125, 'learning_rate': 1.3163925091384532e-09, 'beta_dpo/gap_mean': 432.52001953125, 'beta_dpo/gap_std': 375.65093994140625, 'beta_dpo/beta_used_raw': 1.1851645708084106, 'beta_dpo/beta_used': 1.1851645708084106, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6792619228363037, 'logits/rejected': -2.7577905654907227, 'beta_dpo/beta': 1.1851645708084106, 'beta_dpo/loss_margin_mean': 417.3674011230469, 'beta_dpo/beta_margin_mean': 517.0401000976562, 'beta_dpo/beta_margin_std': 781.3206787109375, 'beta_dpo/beta_margin_grad_mean': -0.10670406371355057, 'beta_dpo/beta_margin_grad_std': 0.29752376675605774, 'epoch': 0.97} 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 662/681 [41:37<00:47, 2.49s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 663/681 [41:40<00:45, 2.52s/it] {'loss': 1.0669, 'grad_norm': 36.53968811035156, 'learning_rate': 1.1881460058152382e-09, 'beta_dpo/gap_mean': 433.63494873046875, 'beta_dpo/gap_std': 389.35064697265625, 'beta_dpo/beta_used_raw': -3.2035021781921387, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7297868728637695, 'logits/rejected': -2.8309314250946045, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 461.0018005371094, 'beta_dpo/beta_margin_mean': 0.46100181341171265, 'beta_dpo/beta_margin_std': 0.46238890290260315, 'beta_dpo/beta_margin_grad_mean': -0.39322903752326965, 'beta_dpo/beta_margin_grad_std': 0.10028216242790222, 'epoch': 0.97} 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 663/681 [41:40<00:45, 2.52s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 664/681 [41:42<00:43, 2.53s/it] {'loss': 5.8712, 'grad_norm': 37235.65625, 'learning_rate': 1.066455926241383e-09, 'beta_dpo/gap_mean': 449.9844970703125, 'beta_dpo/gap_std': 394.67535400390625, 'beta_dpo/beta_used_raw': -0.03142118453979492, 'beta_dpo/beta_used': 0.8343223929405212, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.619297504425049, 'logits/rejected': -2.753797769546509, 'beta_dpo/beta': 0.8343223929405212, 'beta_dpo/loss_margin_mean': 532.53369140625, 'beta_dpo/beta_margin_mean': 431.966064453125, 'beta_dpo/beta_margin_std': 605.8634643554688, 'beta_dpo/beta_margin_grad_mean': -0.20197950303554535, 'beta_dpo/beta_margin_grad_std': 0.22016191482543945, 'epoch': 0.98} 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 664/681 [41:43<00:43, 2.53s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 665/681 [41:45<00:39, 2.49s/it] {'loss': 0.5228, 'grad_norm': 31.23434829711914, 'learning_rate': 9.513254770636137e-10, 'beta_dpo/gap_mean': 450.2773742675781, 'beta_dpo/gap_std': 383.91949462890625, 'beta_dpo/beta_used_raw': -1.14801025390625, 'beta_dpo/beta_used': 0.3265571594238281, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6968719959259033, 'logits/rejected': -2.7933096885681152, 'beta_dpo/beta': 0.3265571594238281, 'beta_dpo/loss_margin_mean': 422.32843017578125, 'beta_dpo/beta_margin_mean': 137.3500518798828, 'beta_dpo/beta_margin_std': 180.5250701904297, 'beta_dpo/beta_margin_grad_mean': -0.2155420482158661, 'beta_dpo/beta_margin_grad_std': 0.23008538782596588, 'epoch': 0.98} 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 665/681 [41:45<00:39, 2.49s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 666/681 [41:48<00:37, 2.53s/it] {'loss': 1.0748, 'grad_norm': 33.36760330200195, 'learning_rate': 8.427576920763956e-10, 'beta_dpo/gap_mean': 441.28741455078125, 'beta_dpo/gap_std': 383.9112548828125, 'beta_dpo/beta_used_raw': -4.0323309898376465, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.680263042449951, 'logits/rejected': -2.7376909255981445, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 381.2684326171875, 'beta_dpo/beta_margin_mean': 0.3812684416770935, 'beta_dpo/beta_margin_std': 0.38156983256340027, 'beta_dpo/beta_margin_grad_mean': -0.40940189361572266, 'beta_dpo/beta_margin_grad_std': 0.08813069015741348, 'epoch': 0.98} 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 666/681 [41:48<00:37, 2.53s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 667/681 [41:50<00:35, 2.51s/it] {'loss': 0.5765, 'grad_norm': 1199.2330322265625, 'learning_rate': 7.407554321417764e-10, 'beta_dpo/gap_mean': 433.1988525390625, 'beta_dpo/gap_std': 388.9822998046875, 'beta_dpo/beta_used_raw': -0.0253823921084404, 'beta_dpo/beta_used': 0.045063599944114685, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7143611907958984, 'logits/rejected': -2.784897804260254, 'beta_dpo/beta': 0.045063599944114685, 'beta_dpo/loss_margin_mean': 400.0951843261719, 'beta_dpo/beta_margin_mean': 20.753093719482422, 'beta_dpo/beta_margin_std': 34.60969543457031, 'beta_dpo/beta_margin_grad_mean': -0.26865431666374207, 'beta_dpo/beta_margin_grad_std': 0.2749733626842499, 'epoch': 0.98} 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 667/681 [41:50<00:35, 2.51s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 668/681 [41:53<00:32, 2.54s/it] {'loss': 1.07, 'grad_norm': 25.63221549987793, 'learning_rate': 6.453213851142225e-10, 'beta_dpo/gap_mean': 420.1002197265625, 'beta_dpo/gap_std': 376.9314880371094, 'beta_dpo/beta_used_raw': -3.1987266540527344, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7238945960998535, 'logits/rejected': -2.78692889213562, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 389.53912353515625, 'beta_dpo/beta_margin_mean': 0.3895391523838043, 'beta_dpo/beta_margin_std': 0.3211991488933563, 'beta_dpo/beta_margin_grad_mean': -0.4063694179058075, 'beta_dpo/beta_margin_grad_std': 0.0748078003525734, 'epoch': 0.98} 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 668/681 [41:53<00:32, 2.54s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 669/681 [41:55<00:30, 2.54s/it] {'loss': 1.0688, 'grad_norm': 26.949857711791992, 'learning_rate': 5.564580657695939e-10, 'beta_dpo/gap_mean': 417.46697998046875, 'beta_dpo/gap_std': 373.0389404296875, 'beta_dpo/beta_used_raw': -2.542426109313965, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7172703742980957, 'logits/rejected': -2.7912344932556152, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 396.3833923339844, 'beta_dpo/beta_margin_mean': 0.3963834047317505, 'beta_dpo/beta_margin_std': 0.35128095746040344, 'beta_dpo/beta_margin_grad_mean': -0.40521949529647827, 'beta_dpo/beta_margin_grad_std': 0.08128622174263, 'epoch': 0.98} 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 669/681 [41:55<00:30, 2.54s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 670/681 [41:58<00:28, 2.60s/it] {'loss': 3.7298, 'grad_norm': 3242.469482421875, 'learning_rate': 4.741678157389739e-10, 'beta_dpo/gap_mean': 417.28021240234375, 'beta_dpo/gap_std': 383.91400146484375, 'beta_dpo/beta_used_raw': -2.199822187423706, 'beta_dpo/beta_used': 0.05918378010392189, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.631437063217163, 'logits/rejected': -2.709677219390869, 'beta_dpo/beta': 0.05918378010392189, 'beta_dpo/loss_margin_mean': 422.6147155761719, 'beta_dpo/beta_margin_mean': 25.40052604675293, 'beta_dpo/beta_margin_std': 43.54753112792969, 'beta_dpo/beta_margin_grad_mean': -0.2792292535305023, 'beta_dpo/beta_margin_grad_std': 0.29437491297721863, 'epoch': 0.98} 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 670/681 [41:58<00:28, 2.60s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 671/681 [42:00<00:25, 2.52s/it] {'loss': 6.7776, 'grad_norm': 9340.4814453125, 'learning_rate': 3.9845280344705245e-10, 'beta_dpo/gap_mean': 414.47650146484375, 'beta_dpo/gap_std': 394.97772216796875, 'beta_dpo/beta_used_raw': -1.3270782232284546, 'beta_dpo/beta_used': 0.2660801410675049, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6861400604248047, 'logits/rejected': -2.7837982177734375, 'beta_dpo/beta': 0.2660801410675049, 'beta_dpo/loss_margin_mean': 404.5050964355469, 'beta_dpo/beta_margin_mean': 98.8425064086914, 'beta_dpo/beta_margin_std': 195.78741455078125, 'beta_dpo/beta_margin_grad_mean': -0.2764192223548889, 'beta_dpo/beta_margin_grad_std': 0.29103344678878784, 'epoch': 0.99} 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 671/681 [42:00<00:25, 2.52s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 672/681 [42:03<00:23, 2.60s/it] {'loss': 1.077, 'grad_norm': 35.250362396240234, 'learning_rate': 3.293150240547549e-10, 'beta_dpo/gap_mean': 413.4635009765625, 'beta_dpo/gap_std': 395.70111083984375, 'beta_dpo/beta_used_raw': -2.5519256591796875, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.658691167831421, 'logits/rejected': -2.7492518424987793, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 406.3974304199219, 'beta_dpo/beta_margin_mean': 0.40639743208885193, 'beta_dpo/beta_margin_std': 0.4057061970233917, 'beta_dpo/beta_margin_grad_mean': -0.4036671817302704, 'beta_dpo/beta_margin_grad_std': 0.09355795383453369, 'epoch': 0.99} 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 672/681 [42:03<00:23, 2.60s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 673/681 [42:05<00:20, 2.54s/it] {'loss': 3.2363, 'grad_norm': 38753.8828125, 'learning_rate': 2.6675629940689504e-10, 'beta_dpo/gap_mean': 421.73614501953125, 'beta_dpo/gap_std': 390.53887939453125, 'beta_dpo/beta_used_raw': -1.017942190170288, 'beta_dpo/beta_used': 0.9086623191833496, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6246771812438965, 'logits/rejected': -2.71297287940979, 'beta_dpo/beta': 0.9086623191833496, 'beta_dpo/loss_margin_mean': 465.11651611328125, 'beta_dpo/beta_margin_mean': 426.99517822265625, 'beta_dpo/beta_margin_std': 589.7709350585938, 'beta_dpo/beta_margin_grad_mean': -0.2269849181175232, 'beta_dpo/beta_margin_grad_std': 0.24361680448055267, 'epoch': 0.99} 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 673/681 [42:05<00:20, 2.54s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 674/681 [42:08<00:17, 2.54s/it] {'loss': 1.0447, 'grad_norm': 26.38853645324707, 'learning_rate': 2.1077827798404725e-10, 'beta_dpo/gap_mean': 413.60247802734375, 'beta_dpo/gap_std': 390.3453674316406, 'beta_dpo/beta_used_raw': -0.3440747559070587, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6841392517089844, 'logits/rejected': -2.7508318424224854, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 371.81182861328125, 'beta_dpo/beta_margin_mean': 0.3718118667602539, 'beta_dpo/beta_margin_std': 0.39119818806648254, 'beta_dpo/beta_margin_grad_mean': -0.4113142192363739, 'beta_dpo/beta_margin_grad_std': 0.0917758122086525, 'epoch': 0.99} 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 674/681 [42:08<00:17, 2.54s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 675/681 [42:10<00:14, 2.47s/it] {'loss': 1.0741, 'grad_norm': 22.43824005126953, 'learning_rate': 1.6138243485910863e-10, 'beta_dpo/gap_mean': 418.37017822265625, 'beta_dpo/gap_std': 389.00335693359375, 'beta_dpo/beta_used_raw': -3.083004951477051, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.626479148864746, 'logits/rejected': -2.709594249725342, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 425.3335266113281, 'beta_dpo/beta_margin_mean': 0.42533355951309204, 'beta_dpo/beta_margin_std': 0.3670670986175537, 'beta_dpo/beta_margin_grad_mean': -0.39887651801109314, 'beta_dpo/beta_margin_grad_std': 0.08341260254383087, 'epoch': 0.99} 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 675/681 [42:10<00:14, 2.47s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 676/681 [42:13<00:12, 2.46s/it] {'loss': 3.2861, 'grad_norm': 25749.53515625, 'learning_rate': 1.1857007165852472e-10, 'beta_dpo/gap_mean': 408.2674255371094, 'beta_dpo/gap_std': 382.36383056640625, 'beta_dpo/beta_used_raw': 0.7559030055999756, 'beta_dpo/beta_used': 1.3021284341812134, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6717138290405273, 'logits/rejected': -2.7089462280273438, 'beta_dpo/beta': 1.3021284341812134, 'beta_dpo/loss_margin_mean': 371.8644714355469, 'beta_dpo/beta_margin_mean': 523.4214477539062, 'beta_dpo/beta_margin_std': 893.8363647460938, 'beta_dpo/beta_margin_grad_mean': -0.27147722244262695, 'beta_dpo/beta_margin_grad_std': 0.28175440430641174, 'epoch': 0.99} 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 676/681 [42:13<00:12, 2.46s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 677/681 [42:15<00:09, 2.46s/it] {'loss': 5.7215, 'grad_norm': 50163.39453125, 'learning_rate': 8.23423165278725e-11, 'beta_dpo/gap_mean': 415.4775695800781, 'beta_dpo/gap_std': 378.42694091796875, 'beta_dpo/beta_used_raw': 2.582223653793335, 'beta_dpo/beta_used': 2.582223653793335, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6218011379241943, 'logits/rejected': -2.706326961517334, 'beta_dpo/beta': 2.582223653793335, 'beta_dpo/loss_margin_mean': 460.754150390625, 'beta_dpo/beta_margin_mean': 1187.6051025390625, 'beta_dpo/beta_margin_std': 1076.4876708984375, 'beta_dpo/beta_margin_grad_mean': -0.047779832035303116, 'beta_dpo/beta_margin_grad_std': 0.21129241585731506, 'epoch': 0.99} 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 677/681 [42:15<00:09, 2.46s/it] 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 678/681 [42:18<00:07, 2.47s/it] {'loss': 4.2516, 'grad_norm': 6914.888671875, 'learning_rate': 5.270012410216185e-11, 'beta_dpo/gap_mean': 415.98052978515625, 'beta_dpo/gap_std': 376.99005126953125, 'beta_dpo/beta_used_raw': -0.259298712015152, 'beta_dpo/beta_used': 0.4946085810661316, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.6387507915496826, 'logits/rejected': -2.7189407348632812, 'beta_dpo/beta': 0.4946085810661316, 'beta_dpo/loss_margin_mean': 404.6373291015625, 'beta_dpo/beta_margin_mean': 201.0238800048828, 'beta_dpo/beta_margin_std': 325.8772277832031, 'beta_dpo/beta_margin_grad_mean': -0.264606773853302, 'beta_dpo/beta_margin_grad_std': 0.2809548079967499, 'epoch': 1.0} 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 678/681 [42:18<00:07, 2.47s/it] 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 679/681 [42:20<00:04, 2.42s/it] {'loss': 1.0921, 'grad_norm': 32.21836471557617, 'learning_rate': 2.9644275480772416e-11, 'beta_dpo/gap_mean': 405.5008850097656, 'beta_dpo/gap_std': 373.1779479980469, 'beta_dpo/beta_used_raw': -4.045163631439209, 'beta_dpo/beta_used': 0.0010000000474974513, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7105813026428223, 'logits/rejected': -2.7737274169921875, 'beta_dpo/beta': 0.0010000000474974513, 'beta_dpo/loss_margin_mean': 345.5482482910156, 'beta_dpo/beta_margin_mean': 0.34554827213287354, 'beta_dpo/beta_margin_std': 0.3380792737007141, 'beta_dpo/beta_margin_grad_mean': -0.4169081151485443, 'beta_dpo/beta_margin_grad_std': 0.07902750372886658, 'epoch': 1.0} 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 679/681 [42:20<00:04, 2.42s/it] 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 680/681 [42:22<00:02, 2.46s/it] {'loss': 49.8028, 'grad_norm': 100621.9609375, 'learning_rate': 1.31753782067201e-11, 'beta_dpo/gap_mean': 415.71636962890625, 'beta_dpo/gap_std': 377.8543395996094, 'beta_dpo/beta_used_raw': 1.5813672542572021, 'beta_dpo/beta_used': 2.237010955810547, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.689682722091675, 'logits/rejected': -2.7969093322753906, 'beta_dpo/beta': 2.237010955810547, 'beta_dpo/loss_margin_mean': 493.08428955078125, 'beta_dpo/beta_margin_mean': 1121.7413330078125, 'beta_dpo/beta_margin_std': 1776.8070068359375, 'beta_dpo/beta_margin_grad_mean': -0.25544458627700806, 'beta_dpo/beta_margin_grad_std': 0.27421900629997253, 'epoch': 1.0} 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 680/681 [42:23<00:02, 2.46s/it] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [42:25<00:00, 2.41s/it] {'loss': 11.4723, 'grad_norm': 16219.0615234375, 'learning_rate': 3.2938662507808745e-12, 'beta_dpo/gap_mean': 416.84112548828125, 'beta_dpo/gap_std': 377.1964416503906, 'beta_dpo/beta_used_raw': -0.9259518980979919, 'beta_dpo/beta_used': 0.9950853586196899, 'beta_dpo/mask_keep_frac': 0.78125, 'logits/chosen': -2.7180047035217285, 'logits/rejected': -2.8164992332458496, 'beta_dpo/beta': 0.9950853586196899, 'beta_dpo/loss_margin_mean': 425.1723327636719, 'beta_dpo/beta_margin_mean': 497.1185607910156, 'beta_dpo/beta_margin_std': 809.5509643554688, 'beta_dpo/beta_margin_grad_mean': -0.2544940412044525, 'beta_dpo/beta_margin_grad_std': 0.2666052281856537, 'epoch': 1.0} 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [42:25<00:00, 2.41s/it][INFO|trainer.py:3984] 2026-04-18 06:48:23,391 >> Saving model checkpoint to /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-681 [INFO|configuration_utils.py:419] 2026-04-18 06:48:23,397 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-681/config.json [INFO|configuration_utils.py:911] 2026-04-18 06:48:23,401 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-681/generation_config.json [INFO|modeling_utils.py:3580] 2026-04-18 06:49:03,724 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-681/model.safetensors.index.json. [INFO|tokenization_utils_base.py:2510] 2026-04-18 06:49:03,782 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-681/tokenizer_config.json [INFO|tokenization_utils_base.py:2519] 2026-04-18 06:49:03,818 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-681/special_tokens_map.json [INFO|trainer.py:4083] 2026-04-18 06:51:44,189 >> Deleting older checkpoint [/scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/checkpoint-400] due to args.save_total_limit [INFO|trainer.py:2681] 2026-04-18 06:51:45,700 >> Training completed. Do not forget to share your model on huggingface.co/models =) {'train_runtime': 2770.5528, 'train_samples_per_second': 15.736, 'train_steps_per_second': 0.246, 'train_loss': 4.511853932745809, 'epoch': 1.0} 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [46:01<00:00, 2.41s/it] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 681/681 [46:01<00:00, 4.06s/it] ***** train metrics ***** epoch = 1.0 total_flos = 0GF train_loss = 4.5119 train_runtime = 0:46:10.55 train_samples = 43598 train_samples_per_second = 15.736 train_steps_per_second = 0.246 2026-04-18 06:51:45 - INFO - __main__ - *** Training complete *** 2026-04-18 06:51:45 - INFO - __main__ - *** Save model *** [INFO|configuration_utils.py:419] 2026-04-18 06:52:00,195 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/config.json [INFO|configuration_utils.py:911] 2026-04-18 06:52:00,200 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/generation_config.json [INFO|modeling_utils.py:3580] 2026-04-18 06:52:39,379 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 6 checkpoint shards. You can find where each parameters has been saved in the index located at /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/model.safetensors.index.json. [INFO|tokenization_utils_base.py:2510] 2026-04-18 06:52:39,388 >> tokenizer config file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/tokenizer_config.json [INFO|tokenization_utils_base.py:2519] 2026-04-18 06:52:39,392 >> Special tokens file saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/special_tokens_map.json 2026-04-18 06:52:39 - INFO - __main__ - Saved HF-compatible model artifacts to /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332 [INFO|modelcard.py:450] 2026-04-18 06:52:39,504 >> Dropping the following result as it does not have all the necessary fields: {'dataset': {'name': 'Anthropic/hh-rlhf', 'type': 'Anthropic/hh-rlhf'}} [INFO|configuration_utils.py:419] 2026-04-18 06:52:39,527 >> Configuration saved in /scratch/feng.yulu/dynamic-dpo-v4/outputs/mistral-7b-base-beta-dpo-hh-helpful-4xh200-batch-64-20260418-015332/config.json 2026-04-18 06:52:39 - INFO - __main__ - *** Evaluate *** [INFO|trainer.py:4307] 2026-04-18 06:52:39,528 >> ***** Running Evaluation ***** [INFO|trainer.py:4309] 2026-04-18 06:52:39,528 >> Num examples = 2339 [INFO|trainer.py:4312] 2026-04-18 06:52:39,528 >> Batch size = 8 0%| | 0/73 [00:00