初始化项目，由ModelHub XC社区提供模型

Model: ojaffe/20260411-190341-align-qwen-0d3d-2026-04-12-018-ob-correction Source: Original Platform
2026-04-22 00:21:01 +08:00
commit ad3d5ebd35
25 changed files with 304251 additions and 0 deletions
--- a/train.log
+++ b/train.log
@@ -0,0 +1,234 @@
+[2026-04-12 07:55:41] Starting OB correction DPO for experiment 2026-04-12-018-ob-correction
+[2026-04-12 07:55:41] Base model: /home/coder/experiments/2026-04-12-017-tqa-dpo
+[2026-04-12 07:55:42] Loading DPO dataset...
+[2026-04-12 07:55:43] Dataset size: 8847
+[2026-04-12 07:55:43] Initializing DPO trainer...
+[2026-04-12 07:55:53] Starting DPO training...
+[2026-04-12 07:56:00] Step 10: loss: 0.692800 | grad_norm: 3.819958 | learning_rate: 0.000000 | entropy: 0.856438 | num_tokens: 13902.000000 | logits/chosen: -3.496022 | logits/rejected: -1.748527 | mean_token_accuracy: 0.672147 | rewards/chosen: 0.000702 | rewards/rejected: 0.000009 | rewards/accuracies: 0.287500 | rewards/margins: 0.000692 | logps/chosen: -113.607803 | logps/rejected: -91.254757 | epoch: 0.009042
+[2026-04-12 07:56:06] Step 20: loss: 0.693900 | grad_norm: 7.196075 | learning_rate: 0.000000 | entropy: 0.961542 | num_tokens: 28262.000000 | logits/chosen: -3.194272 | logits/rejected: -1.811722 | mean_token_accuracy: 0.640538 | rewards/chosen: 0.001540 | rewards/rejected: 0.002975 | rewards/accuracies: 0.500000 | rewards/margins: -0.001436 | logps/chosen: -151.670166 | logps/rejected: -93.819763 | epoch: 0.018083
+[2026-04-12 07:56:11] Step 30: loss: 0.693700 | grad_norm: 4.067881 | learning_rate: 0.000000 | entropy: 0.999837 | num_tokens: 42368.000000 | logits/chosen: -3.173608 | logits/rejected: -1.801582 | mean_token_accuracy: 0.623867 | rewards/chosen: -0.000861 | rewards/rejected: 0.000197 | rewards/accuracies: 0.500000 | rewards/margins: -0.001058 | logps/chosen: -142.698382 | logps/rejected: -98.363481 | epoch: 0.027125
+[2026-04-12 07:56:17] Step 40: loss: 0.693200 | grad_norm: 4.152278 | learning_rate: 0.000000 | entropy: 0.879946 | num_tokens: 56231.000000 | logits/chosen: -3.131423 | logits/rejected: -1.814209 | mean_token_accuracy: 0.657733 | rewards/chosen: -0.001277 | rewards/rejected: -0.001192 | rewards/accuracies: 0.500000 | rewards/margins: -0.000085 | logps/chosen: -117.209906 | logps/rejected: -91.125116 | epoch: 0.036166
+[2026-04-12 07:56:23] Step 50: loss: 0.693300 | grad_norm: 4.391068 | learning_rate: 0.000000 | entropy: 0.858474 | num_tokens: 69957.000000 | logits/chosen: -3.466115 | logits/rejected: -1.739106 | mean_token_accuracy: 0.683369 | rewards/chosen: -0.001802 | rewards/rejected: -0.001648 | rewards/accuracies: 0.512500 | rewards/margins: -0.000155 | logps/chosen: -114.014143 | logps/rejected: -94.850875 | epoch: 0.045208
+[2026-04-12 07:56:28] Step 60: loss: 0.693900 | grad_norm: 6.983853 | learning_rate: 0.000000 | entropy: 1.059533 | num_tokens: 84498.000000 | logits/chosen: -3.035022 | logits/rejected: -1.813316 | mean_token_accuracy: 0.609653 | rewards/chosen: 0.001093 | rewards/rejected: 0.002588 | rewards/accuracies: 0.500000 | rewards/margins: -0.001495 | logps/chosen: -165.584891 | logps/rejected: -91.368497 | epoch: 0.054250
+[2026-04-12 07:56:34] Step 70: loss: 0.692000 | grad_norm: 4.047953 | learning_rate: 0.000000 | entropy: 1.014506 | num_tokens: 98867.000000 | logits/chosen: -3.238319 | logits/rejected: -1.796386 | mean_token_accuracy: 0.612933 | rewards/chosen: 0.001015 | rewards/rejected: -0.001314 | rewards/accuracies: 0.475000 | rewards/margins: 0.002329 | logps/chosen: -146.843604 | logps/rejected: -93.059584 | epoch: 0.063291
+[2026-04-12 07:56:39] Step 80: loss: 0.690400 | grad_norm: 6.349720 | learning_rate: 0.000000 | entropy: 0.890056 | num_tokens: 114527.000000 | logits/chosen: -3.686558 | logits/rejected: -1.718788 | mean_token_accuracy: 0.651021 | rewards/chosen: -0.000335 | rewards/rejected: -0.005889 | rewards/accuracies: 0.675000 | rewards/margins: 0.005554 | logps/chosen: -152.264104 | logps/rejected: -87.655497 | epoch: 0.072333
+[2026-04-12 07:56:45] Step 90: loss: 0.693400 | grad_norm: 3.200395 | learning_rate: 0.000000 | entropy: 0.987990 | num_tokens: 128888.000000 | logits/chosen: -3.274806 | logits/rejected: -1.808832 | mean_token_accuracy: 0.622343 | rewards/chosen: 0.000552 | rewards/rejected: 0.000999 | rewards/accuracies: 0.462500 | rewards/margins: -0.000447 | logps/chosen: -152.828818 | logps/rejected: -95.660193 | epoch: 0.081374
+[2026-04-12 07:56:51] Step 100: loss: 0.694100 | grad_norm: 5.625719 | learning_rate: 0.000000 | entropy: 0.977139 | num_tokens: 143971.000000 | logits/chosen: -3.420484 | logits/rejected: -1.807217 | mean_token_accuracy: 0.630471 | rewards/chosen: -0.001292 | rewards/rejected: 0.000510 | rewards/accuracies: 0.450000 | rewards/margins: -0.001801 | logps/chosen: -148.729357 | logps/rejected: -97.987584 | epoch: 0.090416
+[2026-04-12 07:56:56] Step 110: loss: 0.691800 | grad_norm: 5.366700 | learning_rate: 0.000000 | entropy: 1.056638 | num_tokens: 159334.000000 | logits/chosen: -3.206910 | logits/rejected: -1.754197 | mean_token_accuracy: 0.614729 | rewards/chosen: 0.001623 | rewards/rejected: -0.001208 | rewards/accuracies: 0.475000 | rewards/margins: 0.002831 | logps/chosen: -180.749875 | logps/rejected: -93.117533 | epoch: 0.099458
+[2026-04-12 07:57:02] Step 120: loss: 0.690300 | grad_norm: 4.940022 | learning_rate: 0.000000 | entropy: 0.993329 | num_tokens: 174479.000000 | logits/chosen: -3.286845 | logits/rejected: -1.824187 | mean_token_accuracy: 0.623939 | rewards/chosen: 0.001666 | rewards/rejected: -0.004246 | rewards/accuracies: 0.562500 | rewards/margins: 0.005912 | logps/chosen: -150.754325 | logps/rejected: -92.613521 | epoch: 0.108499
+[2026-04-12 07:57:07] Step 130: loss: 0.689900 | grad_norm: 4.760590 | learning_rate: 0.000000 | entropy: 1.044908 | num_tokens: 187469.000000 | logits/chosen: -2.927576 | logits/rejected: -1.768731 | mean_token_accuracy: 0.619295 | rewards/chosen: -0.000717 | rewards/rejected: -0.007366 | rewards/accuracies: 0.587500 | rewards/margins: 0.006648 | logps/chosen: -134.175608 | logps/rejected: -94.163300 | epoch: 0.117541
+[2026-04-12 07:57:13] Step 140: loss: 0.688900 | grad_norm: 5.444020 | learning_rate: 0.000000 | entropy: 0.922283 | num_tokens: 201337.000000 | logits/chosen: -3.353193 | logits/rejected: -1.782855 | mean_token_accuracy: 0.646019 | rewards/chosen: 0.000158 | rewards/rejected: -0.008540 | rewards/accuracies: 0.637500 | rewards/margins: 0.008699 | logps/chosen: -124.761137 | logps/rejected: -91.746725 | epoch: 0.126582
+[2026-04-12 07:57:18] Step 150: loss: 0.689500 | grad_norm: 4.701173 | learning_rate: 0.000000 | entropy: 0.908155 | num_tokens: 213785.000000 | logits/chosen: -3.101437 | logits/rejected: -1.797293 | mean_token_accuracy: 0.655076 | rewards/chosen: 0.001150 | rewards/rejected: -0.006206 | rewards/accuracies: 0.612500 | rewards/margins: 0.007356 | logps/chosen: -111.047900 | logps/rejected: -93.802336 | epoch: 0.135624
+[2026-04-12 07:57:24] Step 160: loss: 0.688300 | grad_norm: 3.562905 | learning_rate: 0.000000 | entropy: 0.875782 | num_tokens: 228019.000000 | logits/chosen: -3.229497 | logits/rejected: -1.795285 | mean_token_accuracy: 0.665593 | rewards/chosen: 0.000899 | rewards/rejected: -0.009010 | rewards/accuracies: 0.650000 | rewards/margins: 0.009909 | logps/chosen: -125.642468 | logps/rejected: -96.189885 | epoch: 0.144665
+[2026-04-12 07:57:29] Step 170: loss: 0.687200 | grad_norm: 4.432536 | learning_rate: 0.000000 | entropy: 0.961873 | num_tokens: 241608.000000 | logits/chosen: -3.114866 | logits/rejected: -1.752800 | mean_token_accuracy: 0.621468 | rewards/chosen: 0.000600 | rewards/rejected: -0.011418 | rewards/accuracies: 0.675000 | rewards/margins: 0.012017 | logps/chosen: -131.724460 | logps/rejected: -94.094367 | epoch: 0.153707
+[2026-04-12 07:57:35] Step 180: loss: 0.685200 | grad_norm: 4.266088 | learning_rate: 0.000000 | entropy: 1.092146 | num_tokens: 256199.000000 | logits/chosen: -3.027737 | logits/rejected: -1.797390 | mean_token_accuracy: 0.596297 | rewards/chosen: 0.000932 | rewards/rejected: -0.015175 | rewards/accuracies: 0.775000 | rewards/margins: 0.016107 | logps/chosen: -161.201017 | logps/rejected: -91.954691 | epoch: 0.162749
+[2026-04-12 07:57:40] Step 190: loss: 0.685300 | grad_norm: 4.238248 | learning_rate: 0.000000 | entropy: 0.837357 | num_tokens: 272027.000000 | logits/chosen: -3.721310 | logits/rejected: -1.752500 | mean_token_accuracy: 0.667216 | rewards/chosen: -0.000466 | rewards/rejected: -0.016405 | rewards/accuracies: 0.737500 | rewards/margins: 0.015939 | logps/chosen: -137.665194 | logps/rejected: -94.762583 | epoch: 0.171790
+[2026-04-12 07:57:46] Step 200: loss: 0.685100 | grad_norm: 4.836982 | learning_rate: 0.000000 | entropy: 1.015083 | num_tokens: 286463.000000 | logits/chosen: -3.060600 | logits/rejected: -1.738649 | mean_token_accuracy: 0.622803 | rewards/chosen: -0.000439 | rewards/rejected: -0.016736 | rewards/accuracies: 0.800000 | rewards/margins: 0.016297 | logps/chosen: -148.649987 | logps/rejected: -92.749384 | epoch: 0.180832
+[2026-04-12 07:57:51] Step 210: loss: 0.683000 | grad_norm: 5.087227 | learning_rate: 0.000000 | entropy: 0.921088 | num_tokens: 300394.000000 | logits/chosen: -3.510533 | logits/rejected: -1.831120 | mean_token_accuracy: 0.654720 | rewards/chosen: 0.000552 | rewards/rejected: -0.020007 | rewards/accuracies: 0.837500 | rewards/margins: 0.020559 | logps/chosen: -123.500690 | logps/rejected: -93.771817 | epoch: 0.189873
+[2026-04-12 07:57:57] Step 220: loss: 0.679500 | grad_norm: 4.501523 | learning_rate: 0.000000 | entropy: 0.936840 | num_tokens: 316374.000000 | logits/chosen: -3.426573 | logits/rejected: -1.799168 | mean_token_accuracy: 0.646340 | rewards/chosen: 0.004822 | rewards/rejected: -0.022988 | rewards/accuracies: 0.850000 | rewards/margins: 0.027810 | logps/chosen: -155.003741 | logps/rejected: -95.388739 | epoch: 0.198915
+[2026-04-12 07:58:02] Step 230: loss: 0.681000 | grad_norm: 3.663718 | learning_rate: 0.000000 | entropy: 1.043842 | num_tokens: 329926.000000 | logits/chosen: -3.028019 | logits/rejected: -1.800139 | mean_token_accuracy: 0.596276 | rewards/chosen: -0.001655 | rewards/rejected: -0.026263 | rewards/accuracies: 0.850000 | rewards/margins: 0.024609 | logps/chosen: -147.280696 | logps/rejected: -93.435677 | epoch: 0.207957
+[2026-04-12 07:58:08] Step 240: loss: 0.680200 | grad_norm: 4.162270 | learning_rate: 0.000000 | entropy: 0.870576 | num_tokens: 343898.000000 | logits/chosen: -3.225305 | logits/rejected: -1.759982 | mean_token_accuracy: 0.661481 | rewards/chosen: -0.002528 | rewards/rejected: -0.028795 | rewards/accuracies: 0.837500 | rewards/margins: 0.026267 | logps/chosen: -119.362401 | logps/rejected: -94.541313 | epoch: 0.216998
+[2026-04-12 07:58:13] Step 250: loss: 0.680100 | grad_norm: 4.980767 | learning_rate: 0.000000 | entropy: 0.918807 | num_tokens: 357290.000000 | logits/chosen: -3.275951 | logits/rejected: -1.782777 | mean_token_accuracy: 0.644589 | rewards/chosen: -0.000782 | rewards/rejected: -0.027265 | rewards/accuracies: 0.912500 | rewards/margins: 0.026482 | logps/chosen: -113.012185 | logps/rejected: -87.212414 | epoch: 0.226040
+[2026-04-12 07:58:19] Step 260: loss: 0.672400 | grad_norm: 4.660476 | learning_rate: 0.000000 | entropy: 0.983402 | num_tokens: 372126.000000 | logits/chosen: -3.271625 | logits/rejected: -1.800799 | mean_token_accuracy: 0.624866 | rewards/chosen: -0.000439 | rewards/rejected: -0.042725 | rewards/accuracies: 0.925000 | rewards/margins: 0.042285 | logps/chosen: -148.789348 | logps/rejected: -93.954579 | epoch: 0.235081
+[2026-04-12 07:58:24] Step 270: loss: 0.674800 | grad_norm: 3.960321 | learning_rate: 0.000000 | entropy: 0.900079 | num_tokens: 386366.000000 | logits/chosen: -3.191816 | logits/rejected: -1.818183 | mean_token_accuracy: 0.666462 | rewards/chosen: -0.000428 | rewards/rejected: -0.037931 | rewards/accuracies: 0.912500 | rewards/margins: 0.037504 | logps/chosen: -123.583163 | logps/rejected: -94.468148 | epoch: 0.244123
+[2026-04-12 07:58:30] Step 280: loss: 0.673000 | grad_norm: 4.146210 | learning_rate: 0.000000 | entropy: 0.905874 | num_tokens: 400322.000000 | logits/chosen: -3.314740 | logits/rejected: -1.780607 | mean_token_accuracy: 0.664040 | rewards/chosen: -0.002070 | rewards/rejected: -0.043148 | rewards/accuracies: 0.975000 | rewards/margins: 0.041077 | logps/chosen: -126.964021 | logps/rejected: -93.630184 | epoch: 0.253165
+[2026-04-12 07:58:35] Step 290: loss: 0.660800 | grad_norm: 3.391958 | learning_rate: 0.000000 | entropy: 0.988719 | num_tokens: 415986.000000 | logits/chosen: -3.450102 | logits/rejected: -1.860721 | mean_token_accuracy: 0.637368 | rewards/chosen: 0.002301 | rewards/rejected: -0.064141 | rewards/accuracies: 0.962500 | rewards/margins: 0.066443 | logps/chosen: -158.878054 | logps/rejected: -99.692609 | epoch: 0.262206
+[2026-04-12 07:58:41] Step 300: loss: 0.671000 | grad_norm: 3.364569 | learning_rate: 0.000000 | entropy: 0.877921 | num_tokens: 430015.000000 | logits/chosen: -3.613824 | logits/rejected: -1.737989 | mean_token_accuracy: 0.667838 | rewards/chosen: 0.000782 | rewards/rejected: -0.044403 | rewards/accuracies: 0.950000 | rewards/margins: 0.045185 | logps/chosen: -119.599476 | logps/rejected: -90.946986 | epoch: 0.271248
+[2026-04-12 07:58:46] Step 310: loss: 0.664200 | grad_norm: 3.380276 | learning_rate: 0.000000 | entropy: 0.934497 | num_tokens: 443078.000000 | logits/chosen: -2.968198 | logits/rejected: -1.807793 | mean_token_accuracy: 0.652773 | rewards/chosen: 0.001045 | rewards/rejected: -0.058190 | rewards/accuracies: 0.987500 | rewards/margins: 0.059235 | logps/chosen: -124.081723 | logps/rejected: -96.218744 | epoch: 0.280289
+[2026-04-12 07:58:52] Step 320: loss: 0.659900 | grad_norm: 4.230710 | learning_rate: 0.000000 | entropy: 0.902023 | num_tokens: 458183.000000 | logits/chosen: -3.476561 | logits/rejected: -1.803775 | mean_token_accuracy: 0.684646 | rewards/chosen: 0.001688 | rewards/rejected: -0.066796 | rewards/accuracies: 0.975000 | rewards/margins: 0.068483 | logps/chosen: -133.360814 | logps/rejected: -98.813186 | epoch: 0.289331
+[2026-04-12 07:58:57] Step 330: loss: 0.655600 | grad_norm: 5.057958 | learning_rate: 0.000000 | entropy: 1.007559 | num_tokens: 473843.000000 | logits/chosen: -3.283203 | logits/rejected: -1.853580 | mean_token_accuracy: 0.657088 | rewards/chosen: 0.002371 | rewards/rejected: -0.075234 | rewards/accuracies: 0.975000 | rewards/margins: 0.077605 | logps/chosen: -166.433733 | logps/rejected: -99.162696 | epoch: 0.298373
+[2026-04-12 07:59:03] Step 340: loss: 0.651800 | grad_norm: 4.106984 | learning_rate: 0.000000 | entropy: 0.892988 | num_tokens: 487754.000000 | logits/chosen: -3.362689 | logits/rejected: -1.874753 | mean_token_accuracy: 0.641994 | rewards/chosen: -0.001494 | rewards/rejected: -0.087189 | rewards/accuracies: 0.987500 | rewards/margins: 0.085695 | logps/chosen: -124.557586 | logps/rejected: -102.591410 | epoch: 0.307414
+[2026-04-12 07:59:08] Step 350: loss: 0.653000 | grad_norm: 5.091571 | learning_rate: 0.000000 | entropy: 0.909480 | num_tokens: 502775.000000 | logits/chosen: -3.548624 | logits/rejected: -1.761560 | mean_token_accuracy: 0.656881 | rewards/chosen: 0.004641 | rewards/rejected: -0.078475 | rewards/accuracies: 0.987500 | rewards/margins: 0.083116 | logps/chosen: -141.020510 | logps/rejected: -96.940958 | epoch: 0.316456
+[2026-04-12 07:59:14] Step 360: loss: 0.655100 | grad_norm: 4.544956 | learning_rate: 0.000000 | entropy: 0.903116 | num_tokens: 516587.000000 | logits/chosen: -3.243615 | logits/rejected: -1.714105 | mean_token_accuracy: 0.651124 | rewards/chosen: 0.002161 | rewards/rejected: -0.076697 | rewards/accuracies: 1.000000 | rewards/margins: 0.078858 | logps/chosen: -128.874291 | logps/rejected: -90.521713 | epoch: 0.325497
+[2026-04-12 07:59:20] Step 370: loss: 0.645200 | grad_norm: 5.087743 | learning_rate: 0.000000 | entropy: 0.880947 | num_tokens: 532234.000000 | logits/chosen: -3.772535 | logits/rejected: -1.810817 | mean_token_accuracy: 0.671561 | rewards/chosen: 0.000487 | rewards/rejected: -0.099484 | rewards/accuracies: 1.000000 | rewards/margins: 0.099971 | logps/chosen: -141.109815 | logps/rejected: -97.942155 | epoch: 0.334539
+[2026-04-12 07:59:25] Step 380: loss: 0.643000 | grad_norm: 5.712586 | learning_rate: 0.000000 | entropy: 0.984194 | num_tokens: 546793.000000 | logits/chosen: -3.322635 | logits/rejected: -1.805946 | mean_token_accuracy: 0.627342 | rewards/chosen: 0.001114 | rewards/rejected: -0.103294 | rewards/accuracies: 1.000000 | rewards/margins: 0.104408 | logps/chosen: -154.242142 | logps/rejected: -98.368072 | epoch: 0.343580
+[2026-04-12 07:59:31] Step 390: loss: 0.646600 | grad_norm: 3.577768 | learning_rate: 0.000000 | entropy: 0.970868 | num_tokens: 560784.000000 | logits/chosen: -3.246505 | logits/rejected: -1.776208 | mean_token_accuracy: 0.630349 | rewards/chosen: 0.000648 | rewards/rejected: -0.096497 | rewards/accuracies: 1.000000 | rewards/margins: 0.097145 | logps/chosen: -140.261030 | logps/rejected: -92.519648 | epoch: 0.352622
+[2026-04-12 07:59:36] Step 400: loss: 0.639400 | grad_norm: 5.133278 | learning_rate: 0.000000 | entropy: 0.907816 | num_tokens: 575172.000000 | logits/chosen: -3.277885 | logits/rejected: -1.784514 | mean_token_accuracy: 0.659886 | rewards/chosen: 0.003134 | rewards/rejected: -0.109795 | rewards/accuracies: 1.000000 | rewards/margins: 0.112929 | logps/chosen: -130.348339 | logps/rejected: -97.112605 | epoch: 0.361664
+[2026-04-12 07:59:42] Step 410: loss: 0.645300 | grad_norm: 3.785774 | learning_rate: 0.000000 | entropy: 0.926083 | num_tokens: 588077.000000 | logits/chosen: -3.009229 | logits/rejected: -1.719711 | mean_token_accuracy: 0.650138 | rewards/chosen: -0.001569 | rewards/rejected: -0.102048 | rewards/accuracies: 1.000000 | rewards/margins: 0.100479 | logps/chosen: -118.317866 | logps/rejected: -94.116232 | epoch: 0.370705
+[2026-04-12 07:59:48] Step 420: loss: 0.639200 | grad_norm: 4.048626 | learning_rate: 0.000000 | entropy: 0.991981 | num_tokens: 602408.000000 | logits/chosen: -3.125341 | logits/rejected: -1.743802 | mean_token_accuracy: 0.614230 | rewards/chosen: -0.002099 | rewards/rejected: -0.115051 | rewards/accuracies: 0.987500 | rewards/margins: 0.112952 | logps/chosen: -158.108181 | logps/rejected: -94.188085 | epoch: 0.379747
+[2026-04-12 07:59:53] Step 430: loss: 0.621500 | grad_norm: 4.317522 | learning_rate: 0.000000 | entropy: 0.926373 | num_tokens: 617564.000000 | logits/chosen: -3.305933 | logits/rejected: -1.847729 | mean_token_accuracy: 0.651217 | rewards/chosen: 0.003520 | rewards/rejected: -0.148470 | rewards/accuracies: 1.000000 | rewards/margins: 0.151990 | logps/chosen: -149.807047 | logps/rejected: -103.024006 | epoch: 0.388788
+[2026-04-12 07:59:58] Step 440: loss: 0.624600 | grad_norm: 4.657205 | learning_rate: 0.000000 | entropy: 0.968825 | num_tokens: 632854.000000 | logits/chosen: -3.483365 | logits/rejected: -1.814446 | mean_token_accuracy: 0.639935 | rewards/chosen: 0.002794 | rewards/rejected: -0.143400 | rewards/accuracies: 1.000000 | rewards/margins: 0.146194 | logps/chosen: -147.924529 | logps/rejected: -100.698381 | epoch: 0.397830
+[2026-04-12 08:00:04] Step 450: loss: 0.629400 | grad_norm: 3.943866 | learning_rate: 0.000000 | entropy: 0.967317 | num_tokens: 647067.000000 | logits/chosen: -3.118681 | logits/rejected: -1.785563 | mean_token_accuracy: 0.651927 | rewards/chosen: 0.006251 | rewards/rejected: -0.129462 | rewards/accuracies: 1.000000 | rewards/margins: 0.135713 | logps/chosen: -128.580473 | logps/rejected: -96.365339 | epoch: 0.406872
+[2026-04-12 08:00:09] Step 460: loss: 0.616300 | grad_norm: 5.884657 | learning_rate: 0.000000 | entropy: 0.938935 | num_tokens: 661488.000000 | logits/chosen: -3.288543 | logits/rejected: -1.867140 | mean_token_accuracy: 0.626106 | rewards/chosen: 0.003078 | rewards/rejected: -0.161442 | rewards/accuracies: 1.000000 | rewards/margins: 0.164519 | logps/chosen: -138.577396 | logps/rejected: -99.175907 | epoch: 0.415913
+[2026-04-12 08:00:15] Step 470: loss: 0.613700 | grad_norm: 5.452414 | learning_rate: 0.000000 | entropy: 0.892696 | num_tokens: 676854.000000 | logits/chosen: -3.631650 | logits/rejected: -1.780142 | mean_token_accuracy: 0.654933 | rewards/chosen: 0.007978 | rewards/rejected: -0.162955 | rewards/accuracies: 1.000000 | rewards/margins: 0.170932 | logps/chosen: -146.155960 | logps/rejected: -97.220317 | epoch: 0.424955
+[2026-04-12 08:00:20] Step 480: loss: 0.607400 | grad_norm: 4.158528 | learning_rate: 0.000000 | entropy: 0.869783 | num_tokens: 691236.000000 | logits/chosen: -3.561510 | logits/rejected: -1.850509 | mean_token_accuracy: 0.672165 | rewards/chosen: 0.005563 | rewards/rejected: -0.179797 | rewards/accuracies: 1.000000 | rewards/margins: 0.185360 | logps/chosen: -131.072696 | logps/rejected: -101.944622 | epoch: 0.433996
+[2026-04-12 08:00:26] Step 490: loss: 0.616700 | grad_norm: 3.738440 | learning_rate: 0.000000 | entropy: 0.946976 | num_tokens: 705468.000000 | logits/chosen: -3.349846 | logits/rejected: -1.825753 | mean_token_accuracy: 0.642093 | rewards/chosen: 0.005524 | rewards/rejected: -0.160770 | rewards/accuracies: 1.000000 | rewards/margins: 0.166294 | logps/chosen: -128.719734 | logps/rejected: -100.511683 | epoch: 0.443038
+[2026-04-12 08:00:31] Step 500: loss: 0.612000 | grad_norm: 4.215051 | learning_rate: 0.000000 | entropy: 0.946964 | num_tokens: 719730.000000 | logits/chosen: -3.301715 | logits/rejected: -1.759853 | mean_token_accuracy: 0.642307 | rewards/chosen: 0.001854 | rewards/rejected: -0.172541 | rewards/accuracies: 1.000000 | rewards/margins: 0.174395 | logps/chosen: -139.768113 | logps/rejected: -95.531429 | epoch: 0.452080
+[2026-04-12 08:00:37] Step 510: loss: 0.607200 | grad_norm: 5.633168 | learning_rate: 0.000000 | entropy: 0.853493 | num_tokens: 734677.000000 | logits/chosen: -3.462664 | logits/rejected: -1.719431 | mean_token_accuracy: 0.672039 | rewards/chosen: 0.008802 | rewards/rejected: -0.178484 | rewards/accuracies: 1.000000 | rewards/margins: 0.187285 | logps/chosen: -137.521432 | logps/rejected: -97.913764 | epoch: 0.461121
+[2026-04-12 08:00:42] Step 520: loss: 0.596600 | grad_norm: 4.703528 | learning_rate: 0.000000 | entropy: 0.951570 | num_tokens: 749856.000000 | logits/chosen: -3.419093 | logits/rejected: -1.758648 | mean_token_accuracy: 0.636993 | rewards/chosen: 0.001810 | rewards/rejected: -0.209041 | rewards/accuracies: 1.000000 | rewards/margins: 0.210852 | logps/chosen: -150.823685 | logps/rejected: -100.906576 | epoch: 0.470163
+[2026-04-12 08:00:48] Step 530: loss: 0.586800 | grad_norm: 4.672229 | learning_rate: 0.000000 | entropy: 0.984595 | num_tokens: 764728.000000 | logits/chosen: -3.284772 | logits/rejected: -1.858751 | mean_token_accuracy: 0.619241 | rewards/chosen: 0.006602 | rewards/rejected: -0.229306 | rewards/accuracies: 1.000000 | rewards/margins: 0.235908 | logps/chosen: -157.333606 | logps/rejected: -103.398925 | epoch: 0.479204
+[2026-04-12 08:00:53] Step 540: loss: 0.590800 | grad_norm: 3.110290 | learning_rate: 0.000000 | entropy: 0.926162 | num_tokens: 779047.000000 | logits/chosen: -3.266440 | logits/rejected: -1.806524 | mean_token_accuracy: 0.642624 | rewards/chosen: 0.000426 | rewards/rejected: -0.226114 | rewards/accuracies: 1.000000 | rewards/margins: 0.226540 | logps/chosen: -135.678110 | logps/rejected: -101.663643 | epoch: 0.488246
+[2026-04-12 08:00:59] Step 550: loss: 0.606700 | grad_norm: 4.217473 | learning_rate: 0.000000 | entropy: 0.872409 | num_tokens: 793090.000000 | logits/chosen: -3.326100 | logits/rejected: -1.724649 | mean_token_accuracy: 0.669109 | rewards/chosen: 0.003843 | rewards/rejected: -0.183734 | rewards/accuracies: 1.000000 | rewards/margins: 0.187578 | logps/chosen: -118.424022 | logps/rejected: -96.322968 | epoch: 0.497288
+[2026-04-12 08:01:04] Step 560: loss: 0.596600 | grad_norm: 4.282222 | learning_rate: 0.000000 | entropy: 0.929298 | num_tokens: 807583.000000 | logits/chosen: -3.497641 | logits/rejected: -1.773742 | mean_token_accuracy: 0.655227 | rewards/chosen: 0.002811 | rewards/rejected: -0.209267 | rewards/accuracies: 1.000000 | rewards/margins: 0.212078 | logps/chosen: -131.594013 | logps/rejected: -98.714611 | epoch: 0.506329
+[2026-04-12 08:01:10] Step 570: loss: 0.578300 | grad_norm: 4.330956 | learning_rate: 0.000000 | entropy: 0.976028 | num_tokens: 822863.000000 | logits/chosen: -3.524615 | logits/rejected: -1.763299 | mean_token_accuracy: 0.627650 | rewards/chosen: 0.008118 | rewards/rejected: -0.246154 | rewards/accuracies: 1.000000 | rewards/margins: 0.254272 | logps/chosen: -155.017188 | logps/rejected: -100.455761 | epoch: 0.515371
+[2026-04-12 08:01:15] Step 580: loss: 0.580200 | grad_norm: 3.709741 | learning_rate: 0.000000 | entropy: 0.944880 | num_tokens: 837682.000000 | logits/chosen: -3.491944 | logits/rejected: -1.807760 | mean_token_accuracy: 0.636259 | rewards/chosen: 0.006419 | rewards/rejected: -0.245048 | rewards/accuracies: 1.000000 | rewards/margins: 0.251468 | logps/chosen: -142.629577 | logps/rejected: -101.112324 | epoch: 0.524412
+[2026-04-12 08:01:21] Step 590: loss: 0.586800 | grad_norm: 3.986159 | learning_rate: 0.000000 | entropy: 0.979400 | num_tokens: 851594.000000 | logits/chosen: -3.198965 | logits/rejected: -1.782587 | mean_token_accuracy: 0.617482 | rewards/chosen: -0.000966 | rewards/rejected: -0.234363 | rewards/accuracies: 1.000000 | rewards/margins: 0.233397 | logps/chosen: -140.804016 | logps/rejected: -99.898968 | epoch: 0.533454
+[2026-04-12 08:01:26] Step 600: loss: 0.593700 | grad_norm: 3.489596 | learning_rate: 0.000000 | entropy: 0.865054 | num_tokens: 864456.000000 | logits/chosen: -3.186139 | logits/rejected: -1.743201 | mean_token_accuracy: 0.653537 | rewards/chosen: 0.002451 | rewards/rejected: -0.217348 | rewards/accuracies: 1.000000 | rewards/margins: 0.219799 | logps/chosen: -112.228732 | logps/rejected: -96.770127 | epoch: 0.542495
+[2026-04-12 08:01:31] Step 610: loss: 0.584100 | grad_norm: 3.255776 | learning_rate: 0.000000 | entropy: 0.932286 | num_tokens: 878727.000000 | logits/chosen: -3.388027 | logits/rejected: -1.803213 | mean_token_accuracy: 0.643045 | rewards/chosen: -0.000401 | rewards/rejected: -0.242214 | rewards/accuracies: 1.000000 | rewards/margins: 0.241813 | logps/chosen: -133.718607 | logps/rejected: -98.242482 | epoch: 0.551537
+[2026-04-12 08:01:37] Step 620: loss: 0.570200 | grad_norm: 4.365462 | learning_rate: 0.000000 | entropy: 0.851092 | num_tokens: 892682.000000 | logits/chosen: -3.394694 | logits/rejected: -1.817629 | mean_token_accuracy: 0.670975 | rewards/chosen: 0.003983 | rewards/rejected: -0.269876 | rewards/accuracies: 1.000000 | rewards/margins: 0.273859 | logps/chosen: -120.491511 | logps/rejected: -101.099799 | epoch: 0.560579
+[2026-04-12 08:01:42] Step 630: loss: 0.581600 | grad_norm: 4.079598 | learning_rate: 0.000000 | entropy: 0.918408 | num_tokens: 906603.000000 | logits/chosen: -3.427811 | logits/rejected: -1.738377 | mean_token_accuracy: 0.655089 | rewards/chosen: 0.004247 | rewards/rejected: -0.239940 | rewards/accuracies: 1.000000 | rewards/margins: 0.244188 | logps/chosen: -129.605877 | logps/rejected: -99.027576 | epoch: 0.569620
+[2026-04-12 08:01:48] Step 640: loss: 0.562200 | grad_norm: 3.769167 | learning_rate: 0.000000 | entropy: 0.839122 | num_tokens: 920454.000000 | logits/chosen: -3.231519 | logits/rejected: -1.788360 | mean_token_accuracy: 0.674713 | rewards/chosen: 0.009443 | rewards/rejected: -0.290398 | rewards/accuracies: 1.000000 | rewards/margins: 0.299841 | logps/chosen: -113.132160 | logps/rejected: -104.193783 | epoch: 0.578662
+[2026-04-12 08:01:53] Step 650: loss: 0.558600 | grad_norm: 5.153626 | learning_rate: 0.000000 | entropy: 0.828359 | num_tokens: 935073.000000 | logits/chosen: -3.599035 | logits/rejected: -1.730050 | mean_token_accuracy: 0.671258 | rewards/chosen: 0.010018 | rewards/rejected: -0.297486 | rewards/accuracies: 1.000000 | rewards/margins: 0.307504 | logps/chosen: -130.541072 | logps/rejected: -104.622160 | epoch: 0.587703
+[2026-04-12 08:01:59] Step 660: loss: 0.552900 | grad_norm: 3.999380 | learning_rate: 0.000000 | entropy: 0.969864 | num_tokens: 949834.000000 | logits/chosen: -3.247876 | logits/rejected: -1.726612 | mean_token_accuracy: 0.616990 | rewards/chosen: 0.002572 | rewards/rejected: -0.314869 | rewards/accuracies: 1.000000 | rewards/margins: 0.317441 | logps/chosen: -159.717383 | logps/rejected: -102.190125 | epoch: 0.596745
+[2026-04-12 08:02:04] Step 670: loss: 0.554300 | grad_norm: 3.356236 | learning_rate: 0.000000 | entropy: 1.031968 | num_tokens: 964572.000000 | logits/chosen: -3.000591 | logits/rejected: -1.759645 | mean_token_accuracy: 0.612369 | rewards/chosen: 0.000497 | rewards/rejected: -0.318471 | rewards/accuracies: 1.000000 | rewards/margins: 0.318968 | logps/chosen: -152.932057 | logps/rejected: -100.934854 | epoch: 0.605787
+[2026-04-12 08:02:10] Step 680: loss: 0.542300 | grad_norm: 4.035181 | learning_rate: 0.000000 | entropy: 1.101384 | num_tokens: 979277.000000 | logits/chosen: -3.152312 | logits/rejected: -1.801337 | mean_token_accuracy: 0.593446 | rewards/chosen: 0.000221 | rewards/rejected: -0.347447 | rewards/accuracies: 1.000000 | rewards/margins: 0.347668 | logps/chosen: -166.930809 | logps/rejected: -107.357988 | epoch: 0.614828
+[2026-04-12 08:02:15] Step 690: loss: 0.540600 | grad_norm: 4.409409 | learning_rate: 0.000000 | entropy: 0.982938 | num_tokens: 993774.000000 | logits/chosen: -3.047830 | logits/rejected: -1.795124 | mean_token_accuracy: 0.630322 | rewards/chosen: 0.000325 | rewards/rejected: -0.355741 | rewards/accuracies: 1.000000 | rewards/margins: 0.356067 | logps/chosen: -153.324272 | logps/rejected: -107.731688 | epoch: 0.623870
+[2026-04-12 08:02:21] Step 700: loss: 0.540800 | grad_norm: 6.141318 | learning_rate: 0.000000 | entropy: 0.916448 | num_tokens: 1008165.000000 | logits/chosen: -3.269375 | logits/rejected: -1.785537 | mean_token_accuracy: 0.652098 | rewards/chosen: 0.005969 | rewards/rejected: -0.348826 | rewards/accuracies: 1.000000 | rewards/margins: 0.354794 | logps/chosen: -126.096375 | logps/rejected: -104.861160 | epoch: 0.632911
+[2026-04-12 08:02:26] Step 710: loss: 0.533300 | grad_norm: 3.693171 | learning_rate: 0.000000 | entropy: 0.933364 | num_tokens: 1022325.000000 | logits/chosen: -3.199617 | logits/rejected: -1.846633 | mean_token_accuracy: 0.643005 | rewards/chosen: 0.001283 | rewards/rejected: -0.373354 | rewards/accuracies: 1.000000 | rewards/margins: 0.374636 | logps/chosen: -135.896478 | logps/rejected: -110.108997 | epoch: 0.641953
+[2026-04-12 08:02:31] Step 720: loss: 0.527700 | grad_norm: 4.174370 | learning_rate: 0.000000 | entropy: 0.969342 | num_tokens: 1037210.000000 | logits/chosen: -3.476836 | logits/rejected: -1.791598 | mean_token_accuracy: 0.622554 | rewards/chosen: 0.005553 | rewards/rejected: -0.381511 | rewards/accuracies: 1.000000 | rewards/margins: 0.387064 | logps/chosen: -150.818667 | logps/rejected: -105.799723 | epoch: 0.650995
+[2026-04-12 08:02:37] Step 730: loss: 0.541700 | grad_norm: 3.691367 | learning_rate: 0.000000 | entropy: 0.950790 | num_tokens: 1051909.000000 | logits/chosen: -3.412317 | logits/rejected: -1.717290 | mean_token_accuracy: 0.646121 | rewards/chosen: 0.007964 | rewards/rejected: -0.340171 | rewards/accuracies: 1.000000 | rewards/margins: 0.348135 | logps/chosen: -137.314679 | logps/rejected: -101.676191 | epoch: 0.660036
+[2026-04-12 08:02:43] Step 740: loss: 0.517000 | grad_norm: 4.116223 | learning_rate: 0.000000 | entropy: 0.938561 | num_tokens: 1067344.000000 | logits/chosen: -3.533314 | logits/rejected: -1.765751 | mean_token_accuracy: 0.643113 | rewards/chosen: 0.009667 | rewards/rejected: -0.409539 | rewards/accuracies: 1.000000 | rewards/margins: 0.419206 | logps/chosen: -155.284235 | logps/rejected: -107.249900 | epoch: 0.669078
+[2026-04-12 08:02:48] Step 750: loss: 0.519100 | grad_norm: 3.192658 | learning_rate: 0.000000 | entropy: 0.942368 | num_tokens: 1081487.000000 | logits/chosen: -3.257683 | logits/rejected: -1.798127 | mean_token_accuracy: 0.645103 | rewards/chosen: -0.000217 | rewards/rejected: -0.421100 | rewards/accuracies: 1.000000 | rewards/margins: 0.420883 | logps/chosen: -127.817217 | logps/rejected: -112.510946 | epoch: 0.678119
+[2026-04-12 08:02:53] Step 760: loss: 0.537800 | grad_norm: 3.995633 | learning_rate: 0.000000 | entropy: 0.934186 | num_tokens: 1094486.000000 | logits/chosen: -3.205610 | logits/rejected: -1.761212 | mean_token_accuracy: 0.639817 | rewards/chosen: -0.001731 | rewards/rejected: -0.363326 | rewards/accuracies: 1.000000 | rewards/margins: 0.361594 | logps/chosen: -122.956042 | logps/rejected: -104.245057 | epoch: 0.687161
+[2026-04-12 08:02:59] Step 770: loss: 0.510900 | grad_norm: 4.259251 | learning_rate: 0.000000 | entropy: 0.910783 | num_tokens: 1108783.000000 | logits/chosen: -3.400446 | logits/rejected: -1.831123 | mean_token_accuracy: 0.648553 | rewards/chosen: 0.001639 | rewards/rejected: -0.435725 | rewards/accuracies: 1.000000 | rewards/margins: 0.437364 | logps/chosen: -128.202706 | logps/rejected: -109.400624 | epoch: 0.696203
+[2026-04-12 08:03:04] Step 780: loss: 0.491100 | grad_norm: 4.077070 | learning_rate: 0.000000 | entropy: 0.916856 | num_tokens: 1124575.000000 | logits/chosen: -3.554171 | logits/rejected: -1.783110 | mean_token_accuracy: 0.638881 | rewards/chosen: 0.011883 | rewards/rejected: -0.467588 | rewards/accuracies: 1.000000 | rewards/margins: 0.479471 | logps/chosen: -155.013766 | logps/rejected: -109.763991 | epoch: 0.705244
+[2026-04-12 08:03:10] Step 790: loss: 0.502600 | grad_norm: 3.382122 | learning_rate: 0.000000 | entropy: 0.872183 | num_tokens: 1138550.000000 | logits/chosen: -3.466638 | logits/rejected: -1.830292 | mean_token_accuracy: 0.657971 | rewards/chosen: 0.005649 | rewards/rejected: -0.459164 | rewards/accuracies: 1.000000 | rewards/margins: 0.464813 | logps/chosen: -127.992697 | logps/rejected: -110.819541 | epoch: 0.714286
+[2026-04-12 08:03:15] Step 800: loss: 0.494300 | grad_norm: 4.168942 | learning_rate: 0.000000 | entropy: 0.943719 | num_tokens: 1153407.000000 | logits/chosen: -3.381763 | logits/rejected: -1.790412 | mean_token_accuracy: 0.641617 | rewards/chosen: 0.007682 | rewards/rejected: -0.478290 | rewards/accuracies: 1.000000 | rewards/margins: 0.485972 | logps/chosen: -151.847891 | logps/rejected: -109.600517 | epoch: 0.723327
+[2026-04-12 08:03:21] Step 810: loss: 0.488100 | grad_norm: 4.164906 | learning_rate: 0.000000 | entropy: 0.879699 | num_tokens: 1168491.000000 | logits/chosen: -3.635566 | logits/rejected: -1.750868 | mean_token_accuracy: 0.652666 | rewards/chosen: 0.009998 | rewards/rejected: -0.483982 | rewards/accuracies: 1.000000 | rewards/margins: 0.493980 | logps/chosen: -137.005741 | logps/rejected: -109.070057 | epoch: 0.732369
+[2026-04-12 08:03:26] Step 820: loss: 0.512100 | grad_norm: 3.773159 | learning_rate: 0.000000 | entropy: 0.836982 | num_tokens: 1182182.000000 | logits/chosen: -3.470154 | logits/rejected: -1.701087 | mean_token_accuracy: 0.663851 | rewards/chosen: 0.004109 | rewards/rejected: -0.430241 | rewards/accuracies: 1.000000 | rewards/margins: 0.434349 | logps/chosen: -111.362219 | logps/rejected: -104.521888 | epoch: 0.741410
+[2026-04-12 08:03:32] Step 830: loss: 0.488400 | grad_norm: 4.891469 | learning_rate: 0.000000 | entropy: 0.910796 | num_tokens: 1197004.000000 | logits/chosen: -3.616430 | logits/rejected: -1.787893 | mean_token_accuracy: 0.642795 | rewards/chosen: 0.005929 | rewards/rejected: -0.511890 | rewards/accuracies: 1.000000 | rewards/margins: 0.517819 | logps/chosen: -138.097021 | logps/rejected: -112.233860 | epoch: 0.750452
+[2026-04-12 08:03:37] Step 840: loss: 0.491500 | grad_norm: 5.137959 | learning_rate: 0.000000 | entropy: 0.918344 | num_tokens: 1212278.000000 | logits/chosen: -3.488877 | logits/rejected: -1.758696 | mean_token_accuracy: 0.640628 | rewards/chosen: 0.010946 | rewards/rejected: -0.480341 | rewards/accuracies: 1.000000 | rewards/margins: 0.491286 | logps/chosen: -152.258080 | logps/rejected: -109.817072 | epoch: 0.759494
+[2026-04-12 08:03:42] Step 850: loss: 0.481500 | grad_norm: 4.535233 | learning_rate: 0.000000 | entropy: 0.891358 | num_tokens: 1226624.000000 | logits/chosen: -3.474194 | logits/rejected: -1.728710 | mean_token_accuracy: 0.640141 | rewards/chosen: 0.000490 | rewards/rejected: -0.524767 | rewards/accuracies: 1.000000 | rewards/margins: 0.525257 | logps/chosen: -139.158878 | logps/rejected: -111.189707 | epoch: 0.768535
+[2026-04-12 08:03:48] Step 860: loss: 0.471300 | grad_norm: 5.076779 | learning_rate: 0.000000 | entropy: 0.838488 | num_tokens: 1241875.000000 | logits/chosen: -3.703844 | logits/rejected: -1.805143 | mean_token_accuracy: 0.680475 | rewards/chosen: 0.013284 | rewards/rejected: -0.543864 | rewards/accuracies: 1.000000 | rewards/margins: 0.557149 | logps/chosen: -124.383253 | logps/rejected: -111.708417 | epoch: 0.777577
+[2026-04-12 08:03:53] Step 870: loss: 0.466300 | grad_norm: 4.411663 | learning_rate: 0.000000 | entropy: 0.966618 | num_tokens: 1257050.000000 | logits/chosen: -3.383626 | logits/rejected: -1.715962 | mean_token_accuracy: 0.626564 | rewards/chosen: 0.011932 | rewards/rejected: -0.542263 | rewards/accuracies: 1.000000 | rewards/margins: 0.554195 | logps/chosen: -152.664787 | logps/rejected: -111.318019 | epoch: 0.786618
+[2026-04-12 08:03:59] Step 880: loss: 0.466500 | grad_norm: 3.579292 | learning_rate: 0.000000 | entropy: 0.873471 | num_tokens: 1271938.000000 | logits/chosen: -3.729399 | logits/rejected: -1.764208 | mean_token_accuracy: 0.659045 | rewards/chosen: 0.001101 | rewards/rejected: -0.571056 | rewards/accuracies: 1.000000 | rewards/margins: 0.572156 | logps/chosen: -140.430859 | logps/rejected: -116.029585 | epoch: 0.795660
+[2026-04-12 08:04:04] Step 890: loss: 0.501100 | grad_norm: 4.173532 | learning_rate: 0.000000 | entropy: 0.828559 | num_tokens: 1285863.000000 | logits/chosen: -3.293358 | logits/rejected: -1.776064 | mean_token_accuracy: 0.685354 | rewards/chosen: 0.005060 | rewards/rejected: -0.472742 | rewards/accuracies: 1.000000 | rewards/margins: 0.477803 | logps/chosen: -113.032416 | logps/rejected: -110.546568 | epoch: 0.804702
+[2026-04-12 08:04:10] Step 900: loss: 0.483700 | grad_norm: 4.257168 | learning_rate: 0.000000 | entropy: 0.885250 | num_tokens: 1299899.000000 | logits/chosen: -3.256185 | logits/rejected: -1.730475 | mean_token_accuracy: 0.657506 | rewards/chosen: 0.010722 | rewards/rejected: -0.507621 | rewards/accuracies: 1.000000 | rewards/margins: 0.518344 | logps/chosen: -127.549466 | logps/rejected: -108.804292 | epoch: 0.813743
+[2026-04-12 08:04:15] Step 910: loss: 0.490600 | grad_norm: 3.509604 | learning_rate: 0.000000 | entropy: 0.845427 | num_tokens: 1313254.000000 | logits/chosen: -3.126140 | logits/rejected: -1.788989 | mean_token_accuracy: 0.669865 | rewards/chosen: 0.004437 | rewards/rejected: -0.505372 | rewards/accuracies: 1.000000 | rewards/margins: 0.509809 | logps/chosen: -102.343208 | logps/rejected: -109.744481 | epoch: 0.822785
+[2026-04-12 08:04:21] Step 920: loss: 0.448000 | grad_norm: 3.431584 | learning_rate: 0.000000 | entropy: 1.120267 | num_tokens: 1327461.000000 | logits/chosen: -3.054462 | logits/rejected: -1.792034 | mean_token_accuracy: 0.579157 | rewards/chosen: -0.007741 | rewards/rejected: -0.630954 | rewards/accuracies: 1.000000 | rewards/margins: 0.623213 | logps/chosen: -173.304813 | logps/rejected: -114.974008 | epoch: 0.831826
+[2026-04-12 08:04:27] Step 930: loss: 0.472500 | grad_norm: 4.103707 | learning_rate: 0.000000 | entropy: 0.910738 | num_tokens: 1342009.000000 | logits/chosen: -3.413527 | logits/rejected: -1.697903 | mean_token_accuracy: 0.650214 | rewards/chosen: 0.004734 | rewards/rejected: -0.550380 | rewards/accuracies: 0.987500 | rewards/margins: 0.555115 | logps/chosen: -138.877986 | logps/rejected: -109.478891 | epoch: 0.840868
+[2026-04-12 08:04:32] Step 940: loss: 0.452900 | grad_norm: 3.585971 | learning_rate: 0.000000 | entropy: 0.895555 | num_tokens: 1356404.000000 | logits/chosen: -3.416250 | logits/rejected: -1.821012 | mean_token_accuracy: 0.648649 | rewards/chosen: 0.006719 | rewards/rejected: -0.605522 | rewards/accuracies: 1.000000 | rewards/margins: 0.612241 | logps/chosen: -124.218844 | logps/rejected: -116.368102 | epoch: 0.849910
+[2026-04-12 08:04:38] Step 950: loss: 0.469100 | grad_norm: 4.237603 | learning_rate: 0.000000 | entropy: 1.014963 | num_tokens: 1370652.000000 | logits/chosen: -3.025873 | logits/rejected: -1.746376 | mean_token_accuracy: 0.613189 | rewards/chosen: -0.005941 | rewards/rejected: -0.563646 | rewards/accuracies: 1.000000 | rewards/margins: 0.557705 | logps/chosen: -161.270702 | logps/rejected: -111.841937 | epoch: 0.858951
+[2026-04-12 08:04:43] Step 960: loss: 0.474200 | grad_norm: 3.559775 | learning_rate: 0.000000 | entropy: 0.887639 | num_tokens: 1384988.000000 | logits/chosen: -3.469923 | logits/rejected: -1.726565 | mean_token_accuracy: 0.653425 | rewards/chosen: 0.000591 | rewards/rejected: -0.542044 | rewards/accuracies: 1.000000 | rewards/margins: 0.542635 | logps/chosen: -138.812621 | logps/rejected: -107.531350 | epoch: 0.867993
+[2026-04-12 08:04:48] Step 970: loss: 0.480400 | grad_norm: 3.150705 | learning_rate: 0.000000 | entropy: 0.950409 | num_tokens: 1398034.000000 | logits/chosen: -2.862915 | logits/rejected: -1.760651 | mean_token_accuracy: 0.640047 | rewards/chosen: -0.010110 | rewards/rejected: -0.540470 | rewards/accuracies: 1.000000 | rewards/margins: 0.530361 | logps/chosen: -126.281666 | logps/rejected: -110.961289 | epoch: 0.877034
+[2026-04-12 08:04:54] Step 980: loss: 0.458100 | grad_norm: 3.672881 | learning_rate: 0.000000 | entropy: 0.961098 | num_tokens: 1412616.000000 | logits/chosen: -3.344585 | logits/rejected: -1.714594 | mean_token_accuracy: 0.638494 | rewards/chosen: -0.001442 | rewards/rejected: -0.597867 | rewards/accuracies: 1.000000 | rewards/margins: 0.596426 | logps/chosen: -156.469952 | logps/rejected: -109.162740 | epoch: 0.886076
+[2026-04-12 08:04:59] Step 990: loss: 0.410400 | grad_norm: 3.626029 | learning_rate: 0.000000 | entropy: 0.847612 | num_tokens: 1427316.000000 | logits/chosen: -3.556252 | logits/rejected: -1.829988 | mean_token_accuracy: 0.669829 | rewards/chosen: 0.003068 | rewards/rejected: -0.762563 | rewards/accuracies: 1.000000 | rewards/margins: 0.765632 | logps/chosen: -135.119129 | logps/rejected: -125.565823 | epoch: 0.895118
+[2026-04-12 08:05:05] Step 1000: loss: 0.467400 | grad_norm: 2.887081 | learning_rate: 0.000000 | entropy: 0.863048 | num_tokens: 1441630.000000 | logits/chosen: -3.480261 | logits/rejected: -1.682726 | mean_token_accuracy: 0.665432 | rewards/chosen: 0.010391 | rewards/rejected: -0.558602 | rewards/accuracies: 1.000000 | rewards/margins: 0.568993 | logps/chosen: -131.618597 | logps/rejected: -108.383674 | epoch: 0.904159
+[2026-04-12 08:05:10] Step 1010: loss: 0.445900 | grad_norm: 3.596613 | learning_rate: 0.000000 | entropy: 0.916097 | num_tokens: 1455774.000000 | logits/chosen: -3.284385 | logits/rejected: -1.774184 | mean_token_accuracy: 0.629859 | rewards/chosen: -0.004376 | rewards/rejected: -0.643158 | rewards/accuracies: 1.000000 | rewards/margins: 0.638782 | logps/chosen: -141.344159 | logps/rejected: -116.469740 | epoch: 0.913201
+[2026-04-12 08:05:16] Step 1020: loss: 0.427700 | grad_norm: 3.375401 | learning_rate: 0.000000 | entropy: 0.984787 | num_tokens: 1470459.000000 | logits/chosen: -3.295344 | logits/rejected: -1.732792 | mean_token_accuracy: 0.633522 | rewards/chosen: 0.006629 | rewards/rejected: -0.705752 | rewards/accuracies: 1.000000 | rewards/margins: 0.712380 | logps/chosen: -158.938769 | logps/rejected: -119.862304 | epoch: 0.922242
+[2026-04-12 08:05:21] Step 1030: loss: 0.468800 | grad_norm: 3.781868 | learning_rate: 0.000000 | entropy: 0.831486 | num_tokens: 1483530.000000 | logits/chosen: -3.145556 | logits/rejected: -1.719349 | mean_token_accuracy: 0.666878 | rewards/chosen: -0.007904 | rewards/rejected: -0.579247 | rewards/accuracies: 1.000000 | rewards/margins: 0.571343 | logps/chosen: -105.512312 | logps/rejected: -111.279416 | epoch: 0.931284
+[2026-04-12 08:05:27] Step 1040: loss: 0.439400 | grad_norm: 3.474637 | learning_rate: 0.000000 | entropy: 0.818496 | num_tokens: 1497331.000000 | logits/chosen: -3.401945 | logits/rejected: -1.761149 | mean_token_accuracy: 0.667772 | rewards/chosen: -0.005421 | rewards/rejected: -0.663780 | rewards/accuracies: 1.000000 | rewards/margins: 0.658359 | logps/chosen: -118.982492 | logps/rejected: -115.639024 | epoch: 0.940325
+[2026-04-12 08:05:32] Step 1050: loss: 0.440500 | grad_norm: 3.714433 | learning_rate: 0.000000 | entropy: 0.820027 | num_tokens: 1511915.000000 | logits/chosen: -3.355279 | logits/rejected: -1.756810 | mean_token_accuracy: 0.679674 | rewards/chosen: 0.002441 | rewards/rejected: -0.663079 | rewards/accuracies: 1.000000 | rewards/margins: 0.665520 | logps/chosen: -120.425311 | logps/rejected: -114.373508 | epoch: 0.949367
+[2026-04-12 08:05:38] Step 1060: loss: 0.440100 | grad_norm: 3.635796 | learning_rate: 0.000000 | entropy: 0.863312 | num_tokens: 1526828.000000 | logits/chosen: -3.449292 | logits/rejected: -1.698368 | mean_token_accuracy: 0.648816 | rewards/chosen: 0.006746 | rewards/rejected: -0.650746 | rewards/accuracies: 1.000000 | rewards/margins: 0.657492 | logps/chosen: -134.776668 | logps/rejected: -112.811266 | epoch: 0.958409
+[2026-04-12 08:05:43] Step 1070: loss: 0.429900 | grad_norm: 3.424221 | learning_rate: 0.000000 | entropy: 0.927727 | num_tokens: 1541050.000000 | logits/chosen: -3.318367 | logits/rejected: -1.685461 | mean_token_accuracy: 0.631137 | rewards/chosen: 0.002740 | rewards/rejected: -0.699937 | rewards/accuracies: 1.000000 | rewards/margins: 0.702676 | logps/chosen: -137.211924 | logps/rejected: -117.998515 | epoch: 0.967450
+[2026-04-12 08:05:48] Step 1080: loss: 0.428400 | grad_norm: 3.029356 | learning_rate: 0.000000 | entropy: 0.956876 | num_tokens: 1555731.000000 | logits/chosen: -3.401360 | logits/rejected: -1.712745 | mean_token_accuracy: 0.639545 | rewards/chosen: 0.000343 | rewards/rejected: -0.688131 | rewards/accuracies: 1.000000 | rewards/margins: 0.688474 | logps/chosen: -141.752322 | logps/rejected: -114.958997 | epoch: 0.976492
+[2026-04-12 08:05:54] Step 1090: loss: 0.431600 | grad_norm: 3.326154 | learning_rate: 0.000000 | entropy: 0.993896 | num_tokens: 1570130.000000 | logits/chosen: -3.136032 | logits/rejected: -1.755770 | mean_token_accuracy: 0.612810 | rewards/chosen: -0.005093 | rewards/rejected: -0.698710 | rewards/accuracies: 1.000000 | rewards/margins: 0.693618 | logps/chosen: -157.361650 | logps/rejected: -116.685950 | epoch: 0.985533
+[2026-04-12 08:05:59] Step 1100: loss: 0.452100 | grad_norm: 3.857781 | learning_rate: 0.000000 | entropy: 0.910071 | num_tokens: 1583859.000000 | logits/chosen: -3.127632 | logits/rejected: -1.683678 | mean_token_accuracy: 0.652988 | rewards/chosen: -0.001726 | rewards/rejected: -0.620197 | rewards/accuracies: 1.000000 | rewards/margins: 0.618470 | logps/chosen: -135.570181 | logps/rejected: -110.523616 | epoch: 0.994575
+[2026-04-12 08:06:05] Step 1110: loss: 0.455200 | grad_norm: 3.686396 | learning_rate: 0.000000 | entropy: 0.859630 | num_tokens: 1596726.000000 | logits/chosen: -3.199697 | logits/rejected: -1.699316 | mean_token_accuracy: 0.657139 | rewards/chosen: 0.002941 | rewards/rejected: -0.614645 | rewards/accuracies: 1.000000 | rewards/margins: 0.617586 | logps/chosen: -104.916061 | logps/rejected: -108.398877 | epoch: 1.003617
+[2026-04-12 08:06:11] Step 1120: loss: 0.431000 | grad_norm: 3.221396 | learning_rate: 0.000000 | entropy: 0.976434 | num_tokens: 1610961.000000 | logits/chosen: -3.309597 | logits/rejected: -1.764332 | mean_token_accuracy: 0.627228 | rewards/chosen: -0.002251 | rewards/rejected: -0.692307 | rewards/accuracies: 1.000000 | rewards/margins: 0.690056 | logps/chosen: -137.197928 | logps/rejected: -112.745219 | epoch: 1.012658
+[2026-04-12 08:06:16] Step 1130: loss: 0.400300 | grad_norm: 3.816331 | learning_rate: 0.000000 | entropy: 0.911721 | num_tokens: 1625120.000000 | logits/chosen: -3.297816 | logits/rejected: -1.710651 | mean_token_accuracy: 0.646133 | rewards/chosen: -0.005269 | rewards/rejected: -0.799871 | rewards/accuracies: 1.000000 | rewards/margins: 0.794602 | logps/chosen: -142.310781 | logps/rejected: -122.702356 | epoch: 1.021700
+[2026-04-12 08:06:21] Step 1140: loss: 0.414300 | grad_norm: 3.600182 | learning_rate: 0.000000 | entropy: 0.932242 | num_tokens: 1640356.000000 | logits/chosen: -3.612559 | logits/rejected: -1.712708 | mean_token_accuracy: 0.637037 | rewards/chosen: 0.002958 | rewards/rejected: -0.744892 | rewards/accuracies: 1.000000 | rewards/margins: 0.747850 | logps/chosen: -149.906609 | logps/rejected: -118.028712 | epoch: 1.030741
+[2026-04-12 08:06:27] Step 1150: loss: 0.430700 | grad_norm: 2.974735 | learning_rate: 0.000000 | entropy: 0.854644 | num_tokens: 1654271.000000 | logits/chosen: -3.356476 | logits/rejected: -1.722679 | mean_token_accuracy: 0.671748 | rewards/chosen: 0.012152 | rewards/rejected: -0.680281 | rewards/accuracies: 1.000000 | rewards/margins: 0.692433 | logps/chosen: -118.238001 | logps/rejected: -111.948667 | epoch: 1.039783
+[2026-04-12 08:06:32] Step 1160: loss: 0.404100 | grad_norm: 3.103344 | learning_rate: 0.000000 | entropy: 0.871285 | num_tokens: 1668919.000000 | logits/chosen: -3.452148 | logits/rejected: -1.735361 | mean_token_accuracy: 0.653100 | rewards/chosen: 0.008719 | rewards/rejected: -0.801748 | rewards/accuracies: 1.000000 | rewards/margins: 0.810467 | logps/chosen: -127.774796 | logps/rejected: -123.125095 | epoch: 1.048825
+[2026-04-12 08:06:38] Step 1170: loss: 0.413200 | grad_norm: 3.497809 | learning_rate: 0.000000 | entropy: 0.871234 | num_tokens: 1683265.000000 | logits/chosen: -3.337536 | logits/rejected: -1.694985 | mean_token_accuracy: 0.652365 | rewards/chosen: -0.002785 | rewards/rejected: -0.739639 | rewards/accuracies: 1.000000 | rewards/margins: 0.736855 | logps/chosen: -135.948919 | logps/rejected: -112.601840 | epoch: 1.057866
+[2026-04-12 08:06:43] Step 1180: loss: 0.396200 | grad_norm: 3.446281 | learning_rate: 0.000000 | entropy: 0.973859 | num_tokens: 1698531.000000 | logits/chosen: -3.468559 | logits/rejected: -1.776691 | mean_token_accuracy: 0.625369 | rewards/chosen: 0.003878 | rewards/rejected: -0.818518 | rewards/accuracies: 1.000000 | rewards/margins: 0.822395 | logps/chosen: -150.674392 | logps/rejected: -121.237466 | epoch: 1.066908
+[2026-04-12 08:06:48] Step 1190: loss: 0.399300 | grad_norm: 3.733308 | learning_rate: 0.000000 | entropy: 0.845687 | num_tokens: 1713100.000000 | logits/chosen: -3.500144 | logits/rejected: -1.705763 | mean_token_accuracy: 0.662733 | rewards/chosen: 0.007664 | rewards/rejected: -0.796726 | rewards/accuracies: 1.000000 | rewards/margins: 0.804390 | logps/chosen: -129.410232 | logps/rejected: -121.690432 | epoch: 1.075949
+[2026-04-12 08:06:54] Step 1200: loss: 0.391100 | grad_norm: 3.701869 | learning_rate: 0.000000 | entropy: 0.887185 | num_tokens: 1727618.000000 | logits/chosen: -3.383507 | logits/rejected: -1.662785 | mean_token_accuracy: 0.648684 | rewards/chosen: 0.009015 | rewards/rejected: -0.830578 | rewards/accuracies: 1.000000 | rewards/margins: 0.839593 | logps/chosen: -141.614532 | logps/rejected: -121.140818 | epoch: 1.084991
+[2026-04-12 08:06:59] Step 1210: loss: 0.397400 | grad_norm: 3.065902 | learning_rate: 0.000000 | entropy: 0.957258 | num_tokens: 1742036.000000 | logits/chosen: -3.406494 | logits/rejected: -1.765608 | mean_token_accuracy: 0.626346 | rewards/chosen: -0.003362 | rewards/rejected: -0.835614 | rewards/accuracies: 1.000000 | rewards/margins: 0.832253 | logps/chosen: -147.059892 | logps/rejected: -122.697272 | epoch: 1.094033
+[2026-04-12 08:07:05] Step 1220: loss: 0.379200 | grad_norm: 2.724225 | learning_rate: 0.000000 | entropy: 0.955657 | num_tokens: 1756685.000000 | logits/chosen: -3.423186 | logits/rejected: -1.683733 | mean_token_accuracy: 0.628409 | rewards/chosen: 0.000402 | rewards/rejected: -0.875145 | rewards/accuracies: 1.000000 | rewards/margins: 0.875547 | logps/chosen: -152.059726 | logps/rejected: -122.143896 | epoch: 1.103074
+[2026-04-12 08:07:10] Step 1230: loss: 0.404400 | grad_norm: 3.559405 | learning_rate: 0.000000 | entropy: 0.873793 | num_tokens: 1771008.000000 | logits/chosen: -3.251002 | logits/rejected: -1.764206 | mean_token_accuracy: 0.672744 | rewards/chosen: 0.005039 | rewards/rejected: -0.801829 | rewards/accuracies: 1.000000 | rewards/margins: 0.806867 | logps/chosen: -131.669234 | logps/rejected: -116.088314 | epoch: 1.112116
+[2026-04-12 08:07:15] Step 1240: loss: 0.379900 | grad_norm: 2.963956 | learning_rate: 0.000000 | entropy: 0.972937 | num_tokens: 1785296.000000 | logits/chosen: -3.321324 | logits/rejected: -1.770357 | mean_token_accuracy: 0.608553 | rewards/chosen: -0.017902 | rewards/rejected: -0.891510 | rewards/accuracies: 1.000000 | rewards/margins: 0.873607 | logps/chosen: -158.762379 | logps/rejected: -123.796792 | epoch: 1.121157
+[2026-04-12 08:07:21] Step 1250: loss: 0.404400 | grad_norm: 2.685077 | learning_rate: 0.000000 | entropy: 0.803292 | num_tokens: 1799439.000000 | logits/chosen: -3.737598 | logits/rejected: -1.723946 | mean_token_accuracy: 0.678821 | rewards/chosen: 0.014554 | rewards/rejected: -0.794964 | rewards/accuracies: 1.000000 | rewards/margins: 0.809518 | logps/chosen: -123.367986 | logps/rejected: -117.283702 | epoch: 1.130199
+[2026-04-12 08:07:26] Step 1260: loss: 0.371200 | grad_norm: 3.201211 | learning_rate: 0.000000 | entropy: 0.868855 | num_tokens: 1814698.000000 | logits/chosen: -3.684120 | logits/rejected: -1.712813 | mean_token_accuracy: 0.654369 | rewards/chosen: 0.004433 | rewards/rejected: -0.914672 | rewards/accuracies: 0.987500 | rewards/margins: 0.919105 | logps/chosen: -144.375164 | logps/rejected: -122.694971 | epoch: 1.139241
+[2026-04-12 08:07:32] Step 1270: loss: 0.382800 | grad_norm: 3.178337 | learning_rate: 0.000000 | entropy: 0.949115 | num_tokens: 1829153.000000 | logits/chosen: -3.173011 | logits/rejected: -1.739243 | mean_token_accuracy: 0.628928 | rewards/chosen: -0.002485 | rewards/rejected: -0.860199 | rewards/accuracies: 1.000000 | rewards/margins: 0.857713 | logps/chosen: -146.618095 | logps/rejected: -120.259932 | epoch: 1.148282
+[2026-04-12 08:07:37] Step 1280: loss: 0.355100 | grad_norm: 3.065005 | learning_rate: 0.000000 | entropy: 0.930872 | num_tokens: 1844602.000000 | logits/chosen: -3.582816 | logits/rejected: -1.786758 | mean_token_accuracy: 0.641535 | rewards/chosen: 0.009725 | rewards/rejected: -0.983125 | rewards/accuracies: 1.000000 | rewards/margins: 0.992850 | logps/chosen: -148.768871 | logps/rejected: -131.824204 | epoch: 1.157324
+[2026-04-12 08:07:42] Step 1290: loss: 0.398000 | grad_norm: 2.924536 | learning_rate: 0.000000 | entropy: 0.804997 | num_tokens: 1858992.000000 | logits/chosen: -3.629352 | logits/rejected: -1.766686 | mean_token_accuracy: 0.676478 | rewards/chosen: 0.000319 | rewards/rejected: -0.833051 | rewards/accuracies: 1.000000 | rewards/margins: 0.833370 | logps/chosen: -120.538088 | logps/rejected: -121.074847 | epoch: 1.166365
+[2026-04-12 08:07:48] Step 1300: loss: 0.375900 | grad_norm: 3.148940 | learning_rate: 0.000000 | entropy: 0.892217 | num_tokens: 1873838.000000 | logits/chosen: -3.372881 | logits/rejected: -1.773620 | mean_token_accuracy: 0.643286 | rewards/chosen: -0.004383 | rewards/rejected: -0.931852 | rewards/accuracies: 1.000000 | rewards/margins: 0.927469 | logps/chosen: -146.597506 | logps/rejected: -126.073272 | epoch: 1.175407
+[2026-04-12 08:07:54] Step 1310: loss: 0.392300 | grad_norm: 3.717105 | learning_rate: 0.000000 | entropy: 1.072293 | num_tokens: 1888307.000000 | logits/chosen: -3.035803 | logits/rejected: -1.701662 | mean_token_accuracy: 0.611308 | rewards/chosen: -0.001371 | rewards/rejected: -0.837085 | rewards/accuracies: 1.000000 | rewards/margins: 0.835713 | logps/chosen: -173.000989 | logps/rejected: -121.776266 | epoch: 1.184448
+[2026-04-12 08:08:00] Step 1320: loss: 0.393800 | grad_norm: 3.173549 | learning_rate: 0.000000 | entropy: 0.951698 | num_tokens: 1903020.000000 | logits/chosen: -3.271542 | logits/rejected: -1.719469 | mean_token_accuracy: 0.628278 | rewards/chosen: -0.001371 | rewards/rejected: -0.840833 | rewards/accuracies: 1.000000 | rewards/margins: 0.839462 | logps/chosen: -152.728569 | logps/rejected: -117.082600 | epoch: 1.193490
+[2026-04-12 08:08:05] Step 1330: loss: 0.364600 | grad_norm: 3.086412 | learning_rate: 0.000000 | entropy: 0.865630 | num_tokens: 1917383.000000 | logits/chosen: -3.391215 | logits/rejected: -1.784805 | mean_token_accuracy: 0.671591 | rewards/chosen: 0.011604 | rewards/rejected: -0.974368 | rewards/accuracies: 1.000000 | rewards/margins: 0.985971 | logps/chosen: -126.303447 | logps/rejected: -129.930902 | epoch: 1.202532
+[2026-04-12 08:08:11] Step 1340: loss: 0.374500 | grad_norm: 3.124642 | learning_rate: 0.000000 | entropy: 0.887063 | num_tokens: 1932453.000000 | logits/chosen: -3.402262 | logits/rejected: -1.747301 | mean_token_accuracy: 0.652409 | rewards/chosen: -0.019621 | rewards/rejected: -0.947531 | rewards/accuracies: 0.987500 | rewards/margins: 0.927910 | logps/chosen: -144.711196 | logps/rejected: -126.666727 | epoch: 1.211573
+[2026-04-12 08:08:17] Step 1350: loss: 0.378400 | grad_norm: 2.659065 | learning_rate: 0.000000 | entropy: 0.895405 | num_tokens: 1947625.000000 | logits/chosen: -3.531931 | logits/rejected: -1.687371 | mean_token_accuracy: 0.644549 | rewards/chosen: -0.011835 | rewards/rejected: -0.929142 | rewards/accuracies: 1.000000 | rewards/margins: 0.917307 | logps/chosen: -142.863432 | logps/rejected: -122.470655 | epoch: 1.220615
+[2026-04-12 08:08:23] Step 1360: loss: 0.375600 | grad_norm: 2.977093 | learning_rate: 0.000000 | entropy: 0.967487 | num_tokens: 1960144.000000 | logits/chosen: -2.918687 | logits/rejected: -1.726632 | mean_token_accuracy: 0.605728 | rewards/chosen: -0.021333 | rewards/rejected: -0.940496 | rewards/accuracies: 1.000000 | rewards/margins: 0.919164 | logps/chosen: -130.657546 | logps/rejected: -126.026770 | epoch: 1.229656
+[2026-04-12 08:08:28] Step 1370: loss: 0.374100 | grad_norm: 2.840291 | learning_rate: 0.000000 | entropy: 0.905872 | num_tokens: 1974727.000000 | logits/chosen: -3.271509 | logits/rejected: -1.724719 | mean_token_accuracy: 0.650722 | rewards/chosen: -0.014454 | rewards/rejected: -0.929089 | rewards/accuracies: 1.000000 | rewards/margins: 0.914636 | logps/chosen: -152.163189 | logps/rejected: -124.684247 | epoch: 1.238698
+[2026-04-12 08:08:33] Step 1380: loss: 0.397800 | grad_norm: 2.994398 | learning_rate: 0.000000 | entropy: 0.864636 | num_tokens: 1988659.000000 | logits/chosen: -3.490589 | logits/rejected: -1.708426 | mean_token_accuracy: 0.647337 | rewards/chosen: -0.009537 | rewards/rejected: -0.840924 | rewards/accuracies: 1.000000 | rewards/margins: 0.831387 | logps/chosen: -125.488129 | logps/rejected: -119.684620 | epoch: 1.247740
+[2026-04-12 08:08:39] Step 1390: loss: 0.385800 | grad_norm: 3.377476 | learning_rate: 0.000000 | entropy: 0.873109 | num_tokens: 2001967.000000 | logits/chosen: -3.251550 | logits/rejected: -1.694434 | mean_token_accuracy: 0.650835 | rewards/chosen: -0.005058 | rewards/rejected: -0.872489 | rewards/accuracies: 1.000000 | rewards/margins: 0.867431 | logps/chosen: -114.557123 | logps/rejected: -122.582234 | epoch: 1.256781
+[2026-04-12 08:08:44] Step 1400: loss: 0.389700 | grad_norm: 4.019959 | learning_rate: 0.000000 | entropy: 0.820198 | num_tokens: 2016634.000000 | logits/chosen: -3.572885 | logits/rejected: -1.727521 | mean_token_accuracy: 0.680322 | rewards/chosen: 0.006266 | rewards/rejected: -0.850596 | rewards/accuracies: 1.000000 | rewards/margins: 0.856862 | logps/chosen: -130.515715 | logps/rejected: -119.702572 | epoch: 1.265823
+[2026-04-12 08:08:50] Step 1410: loss: 0.329800 | grad_norm: 3.386297 | learning_rate: 0.000000 | entropy: 1.003279 | num_tokens: 2032578.000000 | logits/chosen: -3.543112 | logits/rejected: -1.792824 | mean_token_accuracy: 0.627480 | rewards/chosen: 0.000661 | rewards/rejected: -1.111409 | rewards/accuracies: 1.000000 | rewards/margins: 1.112070 | logps/chosen: -170.998042 | logps/rejected: -135.778956 | epoch: 1.274864
+[2026-04-12 08:08:55] Step 1420: loss: 0.352600 | grad_norm: 2.723650 | learning_rate: 0.000000 | entropy: 0.946234 | num_tokens: 2047825.000000 | logits/chosen: -3.435170 | logits/rejected: -1.718812 | mean_token_accuracy: 0.627547 | rewards/chosen: -0.003283 | rewards/rejected: -1.020394 | rewards/accuracies: 1.000000 | rewards/margins: 1.017111 | logps/chosen: -154.443430 | logps/rejected: -126.797682 | epoch: 1.283906
+[2026-04-12 08:09:01] Step 1430: loss: 0.348400 | grad_norm: 2.686228 | learning_rate: 0.000000 | entropy: 0.908719 | num_tokens: 2062668.000000 | logits/chosen: -3.716047 | logits/rejected: -1.801050 | mean_token_accuracy: 0.643999 | rewards/chosen: -0.006748 | rewards/rejected: -1.035031 | rewards/accuracies: 1.000000 | rewards/margins: 1.028283 | logps/chosen: -135.174754 | logps/rejected: -130.446778 | epoch: 1.292948
+[2026-04-12 08:09:06] Step 1440: loss: 0.352700 | grad_norm: 2.911841 | learning_rate: 0.000000 | entropy: 0.901735 | num_tokens: 2076654.000000 | logits/chosen: -3.347263 | logits/rejected: -1.765995 | mean_token_accuracy: 0.647763 | rewards/chosen: -0.013833 | rewards/rejected: -1.027881 | rewards/accuracies: 1.000000 | rewards/margins: 1.014048 | logps/chosen: -128.059761 | logps/rejected: -128.740364 | epoch: 1.301989
+[2026-04-12 08:09:12] Step 1450: loss: 0.390800 | grad_norm: 2.431906 | learning_rate: 0.000000 | entropy: 0.890967 | num_tokens: 2089821.000000 | logits/chosen: -3.291220 | logits/rejected: -1.659711 | mean_token_accuracy: 0.633963 | rewards/chosen: -0.022384 | rewards/rejected: -0.866341 | rewards/accuracies: 1.000000 | rewards/margins: 0.843957 | logps/chosen: -118.326468 | logps/rejected: -117.233053 | epoch: 1.311031
+[2026-04-12 08:09:17] Step 1460: loss: 0.353100 | grad_norm: 3.174397 | learning_rate: 0.000000 | entropy: 0.927746 | num_tokens: 2103796.000000 | logits/chosen: -3.357652 | logits/rejected: -1.732022 | mean_token_accuracy: 0.637830 | rewards/chosen: -0.004787 | rewards/rejected: -0.991142 | rewards/accuracies: 1.000000 | rewards/margins: 0.986355 | logps/chosen: -134.032041 | logps/rejected: -127.195212 | epoch: 1.320072
+[2026-04-12 08:09:22] Step 1470: loss: 0.331300 | grad_norm: 2.909993 | learning_rate: 0.000000 | entropy: 0.902384 | num_tokens: 2119179.000000 | logits/chosen: -3.529156 | logits/rejected: -1.700211 | mean_token_accuracy: 0.639583 | rewards/chosen: -0.012019 | rewards/rejected: -1.073983 | rewards/accuracies: 1.000000 | rewards/margins: 1.061965 | logps/chosen: -147.650338 | logps/rejected: -127.660900 | epoch: 1.329114
+[2026-04-12 08:09:28] Step 1480: loss: 0.321000 | grad_norm: 3.180483 | learning_rate: 0.000000 | entropy: 0.893965 | num_tokens: 2134991.000000 | logits/chosen: -3.679912 | logits/rejected: -1.697114 | mean_token_accuracy: 0.642256 | rewards/chosen: 0.002722 | rewards/rejected: -1.106490 | rewards/accuracies: 1.000000 | rewards/margins: 1.109211 | logps/chosen: -156.907708 | logps/rejected: -128.840605 | epoch: 1.338156
+[2026-04-12 08:09:33] Step 1490: loss: 0.365500 | grad_norm: 2.920029 | learning_rate: 0.000000 | entropy: 0.923977 | num_tokens: 2149025.000000 | logits/chosen: -3.250774 | logits/rejected: -1.739641 | mean_token_accuracy: 0.625197 | rewards/chosen: -0.010566 | rewards/rejected: -0.973579 | rewards/accuracies: 1.000000 | rewards/margins: 0.963013 | logps/chosen: -133.099457 | logps/rejected: -124.819144 | epoch: 1.347197
+[2026-04-12 08:09:39] Step 1500: loss: 0.369100 | grad_norm: 2.861389 | learning_rate: 0.000000 | entropy: 0.870002 | num_tokens: 2163439.000000 | logits/chosen: -3.489954 | logits/rejected: -1.653384 | mean_token_accuracy: 0.660645 | rewards/chosen: -0.006365 | rewards/rejected: -0.958823 | rewards/accuracies: 1.000000 | rewards/margins: 0.952459 | logps/chosen: -133.440747 | logps/rejected: -124.797499 | epoch: 1.356239
+[2026-04-12 08:09:44] Step 1510: loss: 0.367600 | grad_norm: 2.630841 | learning_rate: 0.000000 | entropy: 0.819363 | num_tokens: 2177046.000000 | logits/chosen: -3.577224 | logits/rejected: -1.704015 | mean_token_accuracy: 0.668875 | rewards/chosen: -0.000444 | rewards/rejected: -0.938460 | rewards/accuracies: 1.000000 | rewards/margins: 0.938017 | logps/chosen: -115.738313 | logps/rejected: -118.670043 | epoch: 1.365280
+[2026-04-12 08:09:49] Step 1520: loss: 0.347900 | grad_norm: 2.907067 | learning_rate: 0.000000 | entropy: 0.850668 | num_tokens: 2191608.000000 | logits/chosen: -3.475795 | logits/rejected: -1.671824 | mean_token_accuracy: 0.665162 | rewards/chosen: -0.006534 | rewards/rejected: -1.033074 | rewards/accuracies: 1.000000 | rewards/margins: 1.026540 | logps/chosen: -134.824494 | logps/rejected: -128.813794 | epoch: 1.374322
+[2026-04-12 08:09:55] Step 1530: loss: 0.370200 | grad_norm: 2.900233 | learning_rate: 0.000000 | entropy: 0.960277 | num_tokens: 2205207.000000 | logits/chosen: -3.213351 | logits/rejected: -1.755716 | mean_token_accuracy: 0.625416 | rewards/chosen: -0.015839 | rewards/rejected: -0.990842 | rewards/accuracies: 1.000000 | rewards/margins: 0.975003 | logps/chosen: -134.609424 | logps/rejected: -126.662508 | epoch: 1.383363
+[2026-04-12 08:10:00] Step 1540: loss: 0.346500 | grad_norm: 2.883462 | learning_rate: 0.000000 | entropy: 0.890417 | num_tokens: 2219303.000000 | logits/chosen: -3.335292 | logits/rejected: -1.712227 | mean_token_accuracy: 0.646349 | rewards/chosen: -0.017573 | rewards/rejected: -1.058103 | rewards/accuracies: 1.000000 | rewards/margins: 1.040530 | logps/chosen: -142.518211 | logps/rejected: -129.973053 | epoch: 1.392405
+[2026-04-12 08:10:06] Step 1550: loss: 0.362400 | grad_norm: 2.873129 | learning_rate: 0.000000 | entropy: 0.947255 | num_tokens: 2233436.000000 | logits/chosen: -3.314913 | logits/rejected: -1.686899 | mean_token_accuracy: 0.626811 | rewards/chosen: -0.006799 | rewards/rejected: -0.980939 | rewards/accuracies: 1.000000 | rewards/margins: 0.974139 | logps/chosen: -142.057570 | logps/rejected: -122.205609 | epoch: 1.401447
+[2026-04-12 08:10:11] Step 1560: loss: 0.350700 | grad_norm: 2.857739 | learning_rate: 0.000000 | entropy: 0.786168 | num_tokens: 2247617.000000 | logits/chosen: -3.257330 | logits/rejected: -1.738636 | mean_token_accuracy: 0.684091 | rewards/chosen: -0.007156 | rewards/rejected: -1.029262 | rewards/accuracies: 1.000000 | rewards/margins: 1.022106 | logps/chosen: -120.590675 | logps/rejected: -129.102518 | epoch: 1.410488
+[2026-04-12 08:10:16] Step 1570: loss: 0.377600 | grad_norm: 2.611726 | learning_rate: 0.000000 | entropy: 0.816390 | num_tokens: 2261365.000000 | logits/chosen: -3.548774 | logits/rejected: -1.655658 | mean_token_accuracy: 0.681134 | rewards/chosen: 0.004413 | rewards/rejected: -0.901504 | rewards/accuracies: 1.000000 | rewards/margins: 0.905918 | logps/chosen: -119.434228 | logps/rejected: -120.833243 | epoch: 1.419530
+[2026-04-12 08:10:22] Step 1580: loss: 0.324700 | grad_norm: 3.241719 | learning_rate: 0.000000 | entropy: 0.840751 | num_tokens: 2276075.000000 | logits/chosen: -3.774706 | logits/rejected: -1.697839 | mean_token_accuracy: 0.670940 | rewards/chosen: -0.001451 | rewards/rejected: -1.116676 | rewards/accuracies: 1.000000 | rewards/margins: 1.115225 | logps/chosen: -135.305457 | logps/rejected: -130.666029 | epoch: 1.428571
+[2026-04-12 08:10:27] Step 1590: loss: 0.357600 | grad_norm: 2.654582 | learning_rate: 0.000000 | entropy: 0.914587 | num_tokens: 2290446.000000 | logits/chosen: -3.451936 | logits/rejected: -1.641210 | mean_token_accuracy: 0.630033 | rewards/chosen: -0.010208 | rewards/rejected: -1.003808 | rewards/accuracies: 1.000000 | rewards/margins: 0.993600 | logps/chosen: -144.179112 | logps/rejected: -124.120520 | epoch: 1.437613
+[2026-04-12 08:10:33] Step 1600: loss: 0.353100 | grad_norm: 3.370434 | learning_rate: 0.000000 | entropy: 0.893057 | num_tokens: 2305059.000000 | logits/chosen: -3.397258 | logits/rejected: -1.684214 | mean_token_accuracy: 0.649122 | rewards/chosen: -0.007748 | rewards/rejected: -1.014441 | rewards/accuracies: 1.000000 | rewards/margins: 1.006692 | logps/chosen: -141.945843 | logps/rejected: -125.489669 | epoch: 1.446655
+[2026-04-12 08:10:38] Step 1610: loss: 0.347400 | grad_norm: 2.778331 | learning_rate: 0.000000 | entropy: 0.980113 | num_tokens: 2318579.000000 | logits/chosen: -3.002949 | logits/rejected: -1.756316 | mean_token_accuracy: 0.609646 | rewards/chosen: -0.031313 | rewards/rejected: -1.071221 | rewards/accuracies: 1.000000 | rewards/margins: 1.039909 | logps/chosen: -144.892959 | logps/rejected: -132.708422 | epoch: 1.455696
+[2026-04-12 08:10:43] Step 1620: loss: 0.339800 | grad_norm: 2.519078 | learning_rate: 0.000000 | entropy: 0.895904 | num_tokens: 2333514.000000 | logits/chosen: -3.643288 | logits/rejected: -1.689194 | mean_token_accuracy: 0.638989 | rewards/chosen: 0.006376 | rewards/rejected: -1.074609 | rewards/accuracies: 1.000000 | rewards/margins: 1.080984 | logps/chosen: -132.222911 | logps/rejected: -129.296600 | epoch: 1.464738
+[2026-04-12 08:10:49] Step 1630: loss: 0.338600 | grad_norm: 2.492954 | learning_rate: 0.000000 | entropy: 0.975138 | num_tokens: 2348128.000000 | logits/chosen: -3.172974 | logits/rejected: -1.751428 | mean_token_accuracy: 0.635926 | rewards/chosen: -0.016256 | rewards/rejected: -1.109094 | rewards/accuracies: 1.000000 | rewards/margins: 1.092838 | logps/chosen: -165.042414 | logps/rejected: -132.412745 | epoch: 1.473779
+[2026-04-12 08:10:54] Step 1640: loss: 0.363600 | grad_norm: 3.134912 | learning_rate: 0.000000 | entropy: 0.812398 | num_tokens: 2362773.000000 | logits/chosen: -3.720341 | logits/rejected: -1.736986 | mean_token_accuracy: 0.676020 | rewards/chosen: 0.003416 | rewards/rejected: -0.949471 | rewards/accuracies: 1.000000 | rewards/margins: 0.952887 | logps/chosen: -129.573470 | logps/rejected: -123.854134 | epoch: 1.482821
+[2026-04-12 08:11:00] Step 1650: loss: 0.321700 | grad_norm: 2.467500 | learning_rate: 0.000000 | entropy: 1.040026 | num_tokens: 2377460.000000 | logits/chosen: -3.164269 | logits/rejected: -1.714236 | mean_token_accuracy: 0.604047 | rewards/chosen: -0.019302 | rewards/rejected: -1.182758 | rewards/accuracies: 1.000000 | rewards/margins: 1.163456 | logps/chosen: -165.214786 | logps/rejected: -135.893025 | epoch: 1.491863
+[2026-04-12 08:11:05] Step 1660: loss: 0.336900 | grad_norm: 2.922894 | learning_rate: 0.000000 | entropy: 0.947281 | num_tokens: 2391912.000000 | logits/chosen: -3.446110 | logits/rejected: -1.789934 | mean_token_accuracy: 0.623484 | rewards/chosen: -0.006017 | rewards/rejected: -1.104597 | rewards/accuracies: 1.000000 | rewards/margins: 1.098580 | logps/chosen: -140.035768 | logps/rejected: -132.513283 | epoch: 1.500904
+[2026-04-12 08:11:11] Step 1670: loss: 0.361100 | grad_norm: 2.816311 | learning_rate: 0.000000 | entropy: 0.768048 | num_tokens: 2405315.000000 | logits/chosen: -3.382829 | logits/rejected: -1.809527 | mean_token_accuracy: 0.692861 | rewards/chosen: -0.000083 | rewards/rejected: -1.030352 | rewards/accuracies: 1.000000 | rewards/margins: 1.030269 | logps/chosen: -95.945009 | logps/rejected: -129.749566 | epoch: 1.509946
+[2026-04-12 08:11:16] Step 1680: loss: 0.389800 | grad_norm: 2.823233 | learning_rate: 0.000000 | entropy: 0.779914 | num_tokens: 2418877.000000 | logits/chosen: -3.288433 | logits/rejected: -1.812203 | mean_token_accuracy: 0.697767 | rewards/chosen: -0.003347 | rewards/rejected: -0.895651 | rewards/accuracies: 1.000000 | rewards/margins: 0.892305 | logps/chosen: -104.818058 | logps/rejected: -121.822802 | epoch: 1.518987
+[2026-04-12 08:11:21] Step 1690: loss: 0.349400 | grad_norm: 2.934238 | learning_rate: 0.000000 | entropy: 0.869247 | num_tokens: 2433438.000000 | logits/chosen: -3.435896 | logits/rejected: -1.627641 | mean_token_accuracy: 0.651635 | rewards/chosen: 0.002199 | rewards/rejected: -1.026370 | rewards/accuracies: 1.000000 | rewards/margins: 1.028569 | logps/chosen: -133.913768 | logps/rejected: -122.835258 | epoch: 1.528029
+[2026-04-12 08:11:27] Step 1700: loss: 0.307800 | grad_norm: 2.944113 | learning_rate: 0.000000 | entropy: 1.000232 | num_tokens: 2448940.000000 | logits/chosen: -3.399879 | logits/rejected: -1.680817 | mean_token_accuracy: 0.612235 | rewards/chosen: -0.014999 | rewards/rejected: -1.212294 | rewards/accuracies: 1.000000 | rewards/margins: 1.197294 | logps/chosen: -177.359062 | logps/rejected: -135.823563 | epoch: 1.537071
+[2026-04-12 08:11:32] Step 1710: loss: 0.335600 | grad_norm: 2.538739 | learning_rate: 0.000000 | entropy: 0.863502 | num_tokens: 2463061.000000 | logits/chosen: -3.458364 | logits/rejected: -1.688465 | mean_token_accuracy: 0.633517 | rewards/chosen: -0.009590 | rewards/rejected: -1.098577 | rewards/accuracies: 1.000000 | rewards/margins: 1.088988 | logps/chosen: -134.940613 | logps/rejected: -130.204922 | epoch: 1.546112
+[2026-04-12 08:11:38] Step 1720: loss: 0.349500 | grad_norm: 3.068019 | learning_rate: 0.000000 | entropy: 0.933221 | num_tokens: 2477090.000000 | logits/chosen: -3.185741 | logits/rejected: -1.713169 | mean_token_accuracy: 0.621174 | rewards/chosen: -0.022873 | rewards/rejected: -1.074750 | rewards/accuracies: 1.000000 | rewards/margins: 1.051877 | logps/chosen: -132.793091 | logps/rejected: -130.263996 | epoch: 1.555154
+[2026-04-12 08:11:43] Step 1730: loss: 0.363800 | grad_norm: 3.335887 | learning_rate: 0.000000 | entropy: 0.901419 | num_tokens: 2491369.000000 | logits/chosen: -3.358106 | logits/rejected: -1.715990 | mean_token_accuracy: 0.656137 | rewards/chosen: -0.008202 | rewards/rejected: -0.978409 | rewards/accuracies: 1.000000 | rewards/margins: 0.970206 | logps/chosen: -137.816044 | logps/rejected: -123.557477 | epoch: 1.564195
+[2026-04-12 08:11:48] Step 1740: loss: 0.343600 | grad_norm: 2.674617 | learning_rate: 0.000000 | entropy: 1.024259 | num_tokens: 2505300.000000 | logits/chosen: -3.215028 | logits/rejected: -1.668133 | mean_token_accuracy: 0.591645 | rewards/chosen: -0.021838 | rewards/rejected: -1.082829 | rewards/accuracies: 1.000000 | rewards/margins: 1.060991 | logps/chosen: -161.310211 | logps/rejected: -131.404663 | epoch: 1.573237
+[2026-04-12 08:11:54] Step 1750: loss: 0.334100 | grad_norm: 2.927876 | learning_rate: 0.000000 | entropy: 0.858005 | num_tokens: 2519102.000000 | logits/chosen: -3.392289 | logits/rejected: -1.768936 | mean_token_accuracy: 0.645295 | rewards/chosen: -0.018595 | rewards/rejected: -1.119586 | rewards/accuracies: 1.000000 | rewards/margins: 1.100991 | logps/chosen: -126.918370 | logps/rejected: -131.225716 | epoch: 1.582278
+[2026-04-12 08:11:59] Step 1760: loss: 0.337200 | grad_norm: 2.857648 | learning_rate: 0.000000 | entropy: 0.932697 | num_tokens: 2533159.000000 | logits/chosen: -3.233387 | logits/rejected: -1.677716 | mean_token_accuracy: 0.627011 | rewards/chosen: -0.027866 | rewards/rejected: -1.108063 | rewards/accuracies: 1.000000 | rewards/margins: 1.080196 | logps/chosen: -145.337038 | logps/rejected: -129.179972 | epoch: 1.591320
+[2026-04-12 08:12:05] Step 1770: loss: 0.342500 | grad_norm: 2.549594 | learning_rate: 0.000000 | entropy: 0.917885 | num_tokens: 2547008.000000 | logits/chosen: -3.040791 | logits/rejected: -1.823682 | mean_token_accuracy: 0.639575 | rewards/chosen: -0.018820 | rewards/rejected: -1.100799 | rewards/accuracies: 1.000000 | rewards/margins: 1.081978 | logps/chosen: -130.137413 | logps/rejected: -130.202904 | epoch: 1.600362
+[2026-04-12 08:12:10] Step 1780: loss: 0.329900 | grad_norm: 3.311358 | learning_rate: 0.000000 | entropy: 0.930060 | num_tokens: 2562049.000000 | logits/chosen: -3.417056 | logits/rejected: -1.651782 | mean_token_accuracy: 0.619849 | rewards/chosen: -0.033148 | rewards/rejected: -1.131202 | rewards/accuracies: 1.000000 | rewards/margins: 1.098053 | logps/chosen: -152.164635 | logps/rejected: -129.406810 | epoch: 1.609403
+[2026-04-12 08:12:15] Step 1790: loss: 0.329600 | grad_norm: 2.575407 | learning_rate: 0.000000 | entropy: 0.883010 | num_tokens: 2576148.000000 | logits/chosen: -3.140295 | logits/rejected: -1.791158 | mean_token_accuracy: 0.657243 | rewards/chosen: -0.010143 | rewards/rejected: -1.165062 | rewards/accuracies: 1.000000 | rewards/margins: 1.154919 | logps/chosen: -125.884656 | logps/rejected: -136.309227 | epoch: 1.618445
+[2026-04-12 08:12:21] Step 1800: loss: 0.359500 | grad_norm: 3.392332 | learning_rate: 0.000000 | entropy: 0.825974 | num_tokens: 2590887.000000 | logits/chosen: -3.491074 | logits/rejected: -1.713144 | mean_token_accuracy: 0.680129 | rewards/chosen: 0.011011 | rewards/rejected: -1.004140 | rewards/accuracies: 1.000000 | rewards/margins: 1.015151 | logps/chosen: -117.438132 | logps/rejected: -126.729501 | epoch: 1.627486
+[2026-04-12 08:12:26] Step 1810: loss: 0.333300 | grad_norm: 2.605240 | learning_rate: 0.000000 | entropy: 0.915859 | num_tokens: 2605048.000000 | logits/chosen: -3.382148 | logits/rejected: -1.676530 | mean_token_accuracy: 0.627474 | rewards/chosen: -0.011286 | rewards/rejected: -1.112807 | rewards/accuracies: 1.000000 | rewards/margins: 1.101521 | logps/chosen: -135.934351 | logps/rejected: -131.459678 | epoch: 1.636528
+[2026-04-12 08:12:32] Step 1820: loss: 0.306600 | grad_norm: 2.625692 | learning_rate: 0.000000 | entropy: 0.889971 | num_tokens: 2620239.000000 | logits/chosen: -3.877720 | logits/rejected: -1.630863 | mean_token_accuracy: 0.634535 | rewards/chosen: -0.005099 | rewards/rejected: -1.217441 | rewards/accuracies: 1.000000 | rewards/margins: 1.212342 | logps/chosen: -155.360802 | logps/rejected: -135.518702 | epoch: 1.645570
+[2026-04-12 08:12:37] Step 1830: loss: 0.349100 | grad_norm: 3.252047 | learning_rate: 0.000000 | entropy: 0.884722 | num_tokens: 2634080.000000 | logits/chosen: -3.240716 | logits/rejected: -1.701203 | mean_token_accuracy: 0.646887 | rewards/chosen: -0.012049 | rewards/rejected: -1.015439 | rewards/accuracies: 1.000000 | rewards/margins: 1.003390 | logps/chosen: -135.035182 | logps/rejected: -124.699829 | epoch: 1.654611
+[2026-04-12 08:12:42] Step 1840: loss: 0.336100 | grad_norm: 2.775438 | learning_rate: 0.000000 | entropy: 0.927009 | num_tokens: 2648300.000000 | logits/chosen: -3.467660 | logits/rejected: -1.732744 | mean_token_accuracy: 0.632690 | rewards/chosen: -0.014382 | rewards/rejected: -1.079822 | rewards/accuracies: 1.000000 | rewards/margins: 1.065440 | logps/chosen: -140.718928 | logps/rejected: -127.846643 | epoch: 1.663653
+[2026-04-12 08:12:48] Step 1850: loss: 0.340700 | grad_norm: 3.023586 | learning_rate: 0.000000 | entropy: 0.939688 | num_tokens: 2662817.000000 | logits/chosen: -3.325026 | logits/rejected: -1.782988 | mean_token_accuracy: 0.632302 | rewards/chosen: -0.019054 | rewards/rejected: -1.107034 | rewards/accuracies: 1.000000 | rewards/margins: 1.087980 | logps/chosen: -151.322108 | logps/rejected: -131.802285 | epoch: 1.672694
+[2026-04-12 08:12:53] Step 1860: loss: 0.325800 | grad_norm: 2.990341 | learning_rate: 0.000000 | entropy: 0.843939 | num_tokens: 2677170.000000 | logits/chosen: -3.554698 | logits/rejected: -1.706562 | mean_token_accuracy: 0.669767 | rewards/chosen: -0.006148 | rewards/rejected: -1.147204 | rewards/accuracies: 1.000000 | rewards/margins: 1.141056 | logps/chosen: -133.680607 | logps/rejected: -131.390440 | epoch: 1.681736
+[2026-04-12 08:12:59] Step 1870: loss: 0.323000 | grad_norm: 2.457598 | learning_rate: 0.000000 | entropy: 0.913829 | num_tokens: 2691902.000000 | logits/chosen: -3.380781 | logits/rejected: -1.684440 | mean_token_accuracy: 0.634156 | rewards/chosen: -0.014163 | rewards/rejected: -1.187070 | rewards/accuracies: 1.000000 | rewards/margins: 1.172907 | logps/chosen: -147.410658 | logps/rejected: -138.070469 | epoch: 1.690778
+[2026-04-12 08:13:04] Step 1880: loss: 0.349800 | grad_norm: 2.807281 | learning_rate: 0.000000 | entropy: 0.761542 | num_tokens: 2705830.000000 | logits/chosen: -3.761751 | logits/rejected: -1.660532 | mean_token_accuracy: 0.690056 | rewards/chosen: -0.004960 | rewards/rejected: -1.038301 | rewards/accuracies: 1.000000 | rewards/margins: 1.033341 | logps/chosen: -105.394677 | logps/rejected: -126.199371 | epoch: 1.699819
+[2026-04-12 08:13:10] Step 1890: loss: 0.373200 | grad_norm: 3.295897 | learning_rate: 0.000000 | entropy: 0.921845 | num_tokens: 2720003.000000 | logits/chosen: -3.383121 | logits/rejected: -1.698752 | mean_token_accuracy: 0.648257 | rewards/chosen: -0.010145 | rewards/rejected: -0.936688 | rewards/accuracies: 1.000000 | rewards/margins: 0.926543 | logps/chosen: -131.278209 | logps/rejected: -122.190634 | epoch: 1.708861
+[2026-04-12 08:13:15] Step 1900: loss: 0.334300 | grad_norm: 2.977619 | learning_rate: 0.000000 | entropy: 0.816344 | num_tokens: 2734517.000000 | logits/chosen: -3.747192 | logits/rejected: -1.701923 | mean_token_accuracy: 0.674864 | rewards/chosen: 0.013869 | rewards/rejected: -1.084738 | rewards/accuracies: 1.000000 | rewards/margins: 1.098607 | logps/chosen: -122.428453 | logps/rejected: -129.723110 | epoch: 1.717902
+[2026-04-12 08:13:21] Step 1910: loss: 0.303600 | grad_norm: 2.849889 | learning_rate: 0.000000 | entropy: 0.837756 | num_tokens: 2748293.000000 | logits/chosen: -3.455058 | logits/rejected: -1.693571 | mean_token_accuracy: 0.643534 | rewards/chosen: -0.028218 | rewards/rejected: -1.265609 | rewards/accuracies: 1.000000 | rewards/margins: 1.237391 | logps/chosen: -133.253868 | logps/rejected: -139.797356 | epoch: 1.726944
+[2026-04-12 08:13:26] Step 1920: loss: 0.332900 | grad_norm: 2.512510 | learning_rate: 0.000000 | entropy: 0.876249 | num_tokens: 2762559.000000 | logits/chosen: -3.277654 | logits/rejected: -1.744406 | mean_token_accuracy: 0.659315 | rewards/chosen: -0.006330 | rewards/rejected: -1.106203 | rewards/accuracies: 1.000000 | rewards/margins: 1.099873 | logps/chosen: -134.113337 | logps/rejected: -128.338335 | epoch: 1.735986
+[2026-04-12 08:13:31] Step 1930: loss: 0.324700 | grad_norm: 2.784548 | learning_rate: 0.000000 | entropy: 0.997681 | num_tokens: 2776876.000000 | logits/chosen: -3.301263 | logits/rejected: -1.741545 | mean_token_accuracy: 0.638702 | rewards/chosen: -0.013496 | rewards/rejected: -1.155170 | rewards/accuracies: 1.000000 | rewards/margins: 1.141674 | logps/chosen: -139.246537 | logps/rejected: -133.599059 | epoch: 1.745027
+[2026-04-12 08:13:37] Step 1940: loss: 0.339200 | grad_norm: 2.514497 | learning_rate: 0.000000 | entropy: 0.954155 | num_tokens: 2790814.000000 | logits/chosen: -3.393353 | logits/rejected: -1.663155 | mean_token_accuracy: 0.627424 | rewards/chosen: -0.013499 | rewards/rejected: -1.079282 | rewards/accuracies: 1.000000 | rewards/margins: 1.065782 | logps/chosen: -147.864850 | logps/rejected: -126.356331 | epoch: 1.754069
+[2026-04-12 08:13:43] Step 1950: loss: 0.344400 | grad_norm: 2.722659 | learning_rate: 0.000000 | entropy: 0.858333 | num_tokens: 2805262.000000 | logits/chosen: -3.370475 | logits/rejected: -1.740271 | mean_token_accuracy: 0.650455 | rewards/chosen: -0.012505 | rewards/rejected: -1.087971 | rewards/accuracies: 1.000000 | rewards/margins: 1.075466 | logps/chosen: -126.612751 | logps/rejected: -130.045457 | epoch: 1.763110
+[2026-04-12 08:13:48] Step 1960: loss: 0.332700 | grad_norm: 2.919699 | learning_rate: 0.000000 | entropy: 0.868871 | num_tokens: 2820600.000000 | logits/chosen: -3.722665 | logits/rejected: -1.668588 | mean_token_accuracy: 0.648155 | rewards/chosen: -0.020415 | rewards/rejected: -1.106555 | rewards/accuracies: 1.000000 | rewards/margins: 1.086140 | logps/chosen: -151.955558 | logps/rejected: -125.409091 | epoch: 1.772152
+[2026-04-12 08:13:54] Step 1970: loss: 0.343500 | grad_norm: 2.737922 | learning_rate: 0.000000 | entropy: 0.840907 | num_tokens: 2834331.000000 | logits/chosen: -3.471553 | logits/rejected: -1.744853 | mean_token_accuracy: 0.669618 | rewards/chosen: -0.000617 | rewards/rejected: -1.079383 | rewards/accuracies: 1.000000 | rewards/margins: 1.078766 | logps/chosen: -115.648017 | logps/rejected: -130.310045 | epoch: 1.781193
+[2026-04-12 08:13:59] Step 1980: loss: 0.355900 | grad_norm: 3.062742 | learning_rate: 0.000000 | entropy: 0.759798 | num_tokens: 2847551.000000 | logits/chosen: -3.600999 | logits/rejected: -1.792895 | mean_token_accuracy: 0.683042 | rewards/chosen: -0.010205 | rewards/rejected: -1.033236 | rewards/accuracies: 1.000000 | rewards/margins: 1.023031 | logps/chosen: -103.380317 | logps/rejected: -128.250966 | epoch: 1.790235
+[2026-04-12 08:14:04] Step 1990: loss: 0.329400 | grad_norm: 2.777237 | learning_rate: 0.000000 | entropy: 0.964774 | num_tokens: 2861540.000000 | logits/chosen: -3.169878 | logits/rejected: -1.752937 | mean_token_accuracy: 0.621182 | rewards/chosen: -0.018497 | rewards/rejected: -1.148905 | rewards/accuracies: 1.000000 | rewards/margins: 1.130407 | logps/chosen: -139.899756 | logps/rejected: -133.900309 | epoch: 1.799277
+[2026-04-12 08:14:10] Step 2000: loss: 0.333600 | grad_norm: 3.031260 | learning_rate: 0.000000 | entropy: 0.873191 | num_tokens: 2876060.000000 | logits/chosen: -3.424929 | logits/rejected: -1.655633 | mean_token_accuracy: 0.650488 | rewards/chosen: -0.015245 | rewards/rejected: -1.090919 | rewards/accuracies: 1.000000 | rewards/margins: 1.075675 | logps/chosen: -138.567239 | logps/rejected: -127.926385 | epoch: 1.808318
+[2026-04-12 08:14:15] Step 2010: loss: 0.352800 | grad_norm: 3.207440 | learning_rate: 0.000000 | entropy: 0.904080 | num_tokens: 2890303.000000 | logits/chosen: -3.572461 | logits/rejected: -1.702103 | mean_token_accuracy: 0.632196 | rewards/chosen: -0.017213 | rewards/rejected: -1.018344 | rewards/accuracies: 1.000000 | rewards/margins: 1.001131 | logps/chosen: -139.719828 | logps/rejected: -124.636614 | epoch: 1.817360
+[2026-04-12 08:14:21] Step 2020: loss: 0.360400 | grad_norm: 2.979762 | learning_rate: 0.000000 | entropy: 0.907437 | num_tokens: 2904085.000000 | logits/chosen: -3.232450 | logits/rejected: -1.653061 | mean_token_accuracy: 0.651975 | rewards/chosen: -0.010370 | rewards/rejected: -0.988750 | rewards/accuracies: 1.000000 | rewards/margins: 0.978380 | logps/chosen: -124.872275 | logps/rejected: -123.078102 | epoch: 1.826401
+[2026-04-12 08:14:26] Step 2030: loss: 0.333500 | grad_norm: 3.113281 | learning_rate: 0.000000 | entropy: 0.969038 | num_tokens: 2917769.000000 | logits/chosen: -3.091363 | logits/rejected: -1.753853 | mean_token_accuracy: 0.618072 | rewards/chosen: -0.022275 | rewards/rejected: -1.160839 | rewards/accuracies: 1.000000 | rewards/margins: 1.138565 | logps/chosen: -135.965307 | logps/rejected: -137.469925 | epoch: 1.835443
+[2026-04-12 08:14:32] Step 2040: loss: 0.315000 | grad_norm: 2.701739 | learning_rate: 0.000000 | entropy: 0.835913 | num_tokens: 2933267.000000 | logits/chosen: -3.701183 | logits/rejected: -1.647163 | mean_token_accuracy: 0.672694 | rewards/chosen: 0.013107 | rewards/rejected: -1.171138 | rewards/accuracies: 1.000000 | rewards/margins: 1.184245 | logps/chosen: -128.336065 | logps/rejected: -129.717492 | epoch: 1.844485
+[2026-04-12 08:14:37] Step 2050: loss: 0.326200 | grad_norm: 3.050674 | learning_rate: 0.000000 | entropy: 0.898545 | num_tokens: 2947969.000000 | logits/chosen: -3.523853 | logits/rejected: -1.683056 | mean_token_accuracy: 0.639511 | rewards/chosen: -0.015485 | rewards/rejected: -1.150949 | rewards/accuracies: 1.000000 | rewards/margins: 1.135464 | logps/chosen: -150.650827 | logps/rejected: -130.450980 | epoch: 1.853526
+[2026-04-12 08:14:43] Step 2060: loss: 0.362400 | grad_norm: 3.140810 | learning_rate: 0.000000 | entropy: 0.917905 | num_tokens: 2961192.000000 | logits/chosen: -3.203217 | logits/rejected: -1.725751 | mean_token_accuracy: 0.624727 | rewards/chosen: -0.037367 | rewards/rejected: -1.012053 | rewards/accuracies: 1.000000 | rewards/margins: 0.974686 | logps/chosen: -132.058351 | logps/rejected: -124.848513 | epoch: 1.862568
+[2026-04-12 08:14:48] Step 2070: loss: 0.329400 | grad_norm: 2.787116 | learning_rate: 0.000000 | entropy: 0.915396 | num_tokens: 2975847.000000 | logits/chosen: -3.318493 | logits/rejected: -1.697971 | mean_token_accuracy: 0.630777 | rewards/chosen: -0.023401 | rewards/rejected: -1.159906 | rewards/accuracies: 1.000000 | rewards/margins: 1.136506 | logps/chosen: -147.474241 | logps/rejected: -132.309969 | epoch: 1.871609
+[2026-04-12 08:14:53] Step 2080: loss: 0.326600 | grad_norm: 2.495011 | learning_rate: 0.000000 | entropy: 0.889492 | num_tokens: 2990049.000000 | logits/chosen: -3.448176 | logits/rejected: -1.701196 | mean_token_accuracy: 0.628815 | rewards/chosen: -0.010603 | rewards/rejected: -1.151653 | rewards/accuracies: 1.000000 | rewards/margins: 1.141050 | logps/chosen: -133.558629 | logps/rejected: -131.381577 | epoch: 1.880651
+[2026-04-12 08:14:59] Step 2090: loss: 0.360100 | grad_norm: 3.322799 | learning_rate: 0.000000 | entropy: 0.839610 | num_tokens: 3003143.000000 | logits/chosen: -3.207514 | logits/rejected: -1.710505 | mean_token_accuracy: 0.658088 | rewards/chosen: -0.016586 | rewards/rejected: -0.989671 | rewards/accuracies: 1.000000 | rewards/margins: 0.973085 | logps/chosen: -113.963171 | logps/rejected: -123.078846 | epoch: 1.889693
+[2026-04-12 08:15:04] Step 2100: loss: 0.315500 | grad_norm: 2.521417 | learning_rate: 0.000000 | entropy: 0.884621 | num_tokens: 3018371.000000 | logits/chosen: -3.589165 | logits/rejected: -1.708959 | mean_token_accuracy: 0.664595 | rewards/chosen: -0.008838 | rewards/rejected: -1.198476 | rewards/accuracies: 1.000000 | rewards/margins: 1.189638 | logps/chosen: -142.755184 | logps/rejected: -135.431840 | epoch: 1.898734
+[2026-04-12 08:15:10] Step 2110: loss: 0.351300 | grad_norm: 2.747862 | learning_rate: 0.000000 | entropy: 0.999095 | num_tokens: 3032962.000000 | logits/chosen: -3.164769 | logits/rejected: -1.660685 | mean_token_accuracy: 0.604569 | rewards/chosen: -0.028901 | rewards/rejected: -1.058337 | rewards/accuracies: 1.000000 | rewards/margins: 1.029436 | logps/chosen: -149.250204 | logps/rejected: -124.924278 | epoch: 1.907776
+[2026-04-12 08:15:15] Step 2120: loss: 0.338100 | grad_norm: 2.568503 | learning_rate: 0.000000 | entropy: 0.914544 | num_tokens: 3047523.000000 | logits/chosen: -3.567759 | logits/rejected: -1.741042 | mean_token_accuracy: 0.633459 | rewards/chosen: -0.015854 | rewards/rejected: -1.105380 | rewards/accuracies: 1.000000 | rewards/margins: 1.089525 | logps/chosen: -140.127251 | logps/rejected: -128.329636 | epoch: 1.916817
+[2026-04-12 08:15:21] Step 2130: loss: 0.306200 | grad_norm: 3.135459 | learning_rate: 0.000000 | entropy: 0.856049 | num_tokens: 3062337.000000 | logits/chosen: -3.710170 | logits/rejected: -1.666420 | mean_token_accuracy: 0.650759 | rewards/chosen: -0.004906 | rewards/rejected: -1.220152 | rewards/accuracies: 1.000000 | rewards/margins: 1.215245 | logps/chosen: -137.276031 | logps/rejected: -134.424239 | epoch: 1.925859
+[2026-04-12 08:15:26] Step 2140: loss: 0.351100 | grad_norm: 2.913922 | learning_rate: 0.000000 | entropy: 0.833164 | num_tokens: 3076061.000000 | logits/chosen: -3.432500 | logits/rejected: -1.669608 | mean_token_accuracy: 0.663320 | rewards/chosen: -0.008596 | rewards/rejected: -1.056362 | rewards/accuracies: 1.000000 | rewards/margins: 1.047765 | logps/chosen: -122.738799 | logps/rejected: -127.325373 | epoch: 1.934901
+[2026-04-12 08:15:31] Step 2150: loss: 0.295100 | grad_norm: 2.975346 | learning_rate: 0.000000 | entropy: 0.954946 | num_tokens: 3092641.000000 | logits/chosen: -3.589550 | logits/rejected: -1.634613 | mean_token_accuracy: 0.632490 | rewards/chosen: 0.000031 | rewards/rejected: -1.261525 | rewards/accuracies: 1.000000 | rewards/margins: 1.261556 | logps/chosen: -174.935929 | logps/rejected: -136.553830 | epoch: 1.943942
+[2026-04-12 08:15:37] Step 2160: loss: 0.314400 | grad_norm: 2.455912 | learning_rate: 0.000000 | entropy: 0.886233 | num_tokens: 3107771.000000 | logits/chosen: -3.655560 | logits/rejected: -1.723556 | mean_token_accuracy: 0.660486 | rewards/chosen: 0.007509 | rewards/rejected: -1.195708 | rewards/accuracies: 1.000000 | rewards/margins: 1.203218 | logps/chosen: -134.864935 | logps/rejected: -136.643728 | epoch: 1.952984
+[2026-04-12 08:15:42] Step 2170: loss: 0.335800 | grad_norm: 3.280370 | learning_rate: 0.000000 | entropy: 0.979672 | num_tokens: 3121658.000000 | logits/chosen: -2.976566 | logits/rejected: -1.753715 | mean_token_accuracy: 0.616326 | rewards/chosen: -0.033882 | rewards/rejected: -1.154901 | rewards/accuracies: 1.000000 | rewards/margins: 1.121018 | logps/chosen: -153.232379 | logps/rejected: -133.935987 | epoch: 1.962025
+[2026-04-12 08:15:48] Step 2180: loss: 0.345600 | grad_norm: 3.180602 | learning_rate: 0.000000 | entropy: 0.974413 | num_tokens: 3137170.000000 | logits/chosen: -3.283046 | logits/rejected: -1.657541 | mean_token_accuracy: 0.631701 | rewards/chosen: -0.015663 | rewards/rejected: -1.045705 | rewards/accuracies: 1.000000 | rewards/margins: 1.030042 | logps/chosen: -167.565260 | logps/rejected: -126.338505 | epoch: 1.971067
+[2026-04-12 08:15:53] Step 2190: loss: 0.326500 | grad_norm: 2.901056 | learning_rate: 0.000000 | entropy: 0.886185 | num_tokens: 3151234.000000 | logits/chosen: -3.556858 | logits/rejected: -1.721174 | mean_token_accuracy: 0.639929 | rewards/chosen: -0.018013 | rewards/rejected: -1.164624 | rewards/accuracies: 1.000000 | rewards/margins: 1.146611 | logps/chosen: -130.970508 | logps/rejected: -135.201273 | epoch: 1.980108
+[2026-04-12 08:15:59] Step 2200: loss: 0.326200 | grad_norm: 2.729567 | learning_rate: 0.000000 | entropy: 0.903059 | num_tokens: 3166030.000000 | logits/chosen: -3.513154 | logits/rejected: -1.734447 | mean_token_accuracy: 0.644052 | rewards/chosen: -0.004383 | rewards/rejected: -1.190994 | rewards/accuracies: 1.000000 | rewards/margins: 1.186611 | logps/chosen: -142.466312 | logps/rejected: -135.191523 | epoch: 1.989150
+[2026-04-12 08:16:04] Step 2210: loss: 0.326100 | grad_norm: 2.524840 | learning_rate: 0.000000 | entropy: 0.965358 | num_tokens: 3180846.000000 | logits/chosen: -3.376968 | logits/rejected: -1.681145 | mean_token_accuracy: 0.620383 | rewards/chosen: -0.013291 | rewards/rejected: -1.153683 | rewards/accuracies: 1.000000 | rewards/margins: 1.140393 | logps/chosen: -155.527835 | logps/rejected: -133.130447 | epoch: 1.998192
+[2026-04-12 08:16:05] Step 2212: train_runtime: 1212.013500 | train_samples_per_second: 14.599000 | train_steps_per_second: 1.825000 | total_flos: 19617231144222720.000000 | train_loss: 0.467572 | entropy: 0.655884 | num_tokens: 3183404.000000 | logits/chosen: -3.293343 | logits/rejected: -1.751639 | mean_token_accuracy: 0.747766 | rewards/chosen: -0.012067 | rewards/rejected: -0.876681 | rewards/accuracies: 1.000000 | rewards/margins: 0.864614 | logps/chosen: -88.842052 | logps/rejected: -115.165905 | epoch: 2.000000
+[2026-04-12 08:16:05] Training completed in 1212.3s (20.2min)
+[2026-04-12 08:16:05] Saving LoRA adapter...
+[2026-04-12 08:16:06] Merging LoRA weights...
+[2026-04-12 08:16:08] Merged model saved to /home/coder/experiments/2026-04-12-018-ob-correction
+[2026-04-12 08:16:08] Fixed max_position_embeddings to 4096
+[2026-04-12 08:16:08] Training complete!