初始化项目，由ModelHub XC社区提供模型

Model: uyenlk/RMU_forget10_5e-5_Llama-3.2-3B-Instruct_coef10_layer26 Source: Original Platform
2026-04-16 17:33:21 +08:00
commit f3f9598eec
19 changed files with 41766 additions and 0 deletions
--- a/RMU.log
+++ b/RMU.log
@@ -0,0 +1,43 @@
+[2026-03-21 05:48:30,182][model][INFO] - Setting pad_token as eos token: <|eot_id|>
+[2026-03-21 05:48:34,534][evaluator][INFO] - Evaluations stored in the experiment directory: ./saves/unlearn/RMU_forget10_5e-5_Llama-3.2-3B-Instruct_coef10_layer26
+[2026-03-21 05:48:38,592][trainer][INFO] - RMU Trainer loaded, output_dir: ./saves/unlearn/RMU_forget10_5e-5_Llama-3.2-3B-Instruct_coef10_layer26
+[2026-03-21 06:01:59,651][evaluator][INFO] - ***** Running TOFU evaluation suite *****
+[2026-03-21 06:01:59,652][evaluator][INFO] - Fine-grained evaluations will be saved to: ./saves/unlearn/RMU_forget10_5e-5_Llama-3.2-3B-Instruct_coef10_layer26/checkpoint-60/evals/TOFU_EVAL.json
+[2026-03-21 06:01:59,652][evaluator][INFO] - Aggregated evaluations will be summarised in: ./saves/unlearn/RMU_forget10_5e-5_Llama-3.2-3B-Instruct_coef10_layer26/checkpoint-60/evals/TOFU_SUMMARY.json
+[2026-03-21 06:02:02,023][metrics][INFO] - Evaluating forget_Q_A_PARA_Prob
+[2026-03-21 06:02:40,309][metrics][INFO] - Evaluating forget_Q_A_PERT_Prob
+[2026-03-21 06:05:35,139][metrics][INFO] - Evaluating forget_truth_ratio
+[2026-03-21 06:05:35,140][metrics][INFO] - Evaluating forget_quality
+[2026-03-21 06:05:35,140][metrics][WARNING] - retain_model_logs not provided in reference_logs, setting forget_quality to None
+[2026-03-21 06:05:35,140][evaluator][INFO] - Result for metric forget_quality:	None
+[2026-03-21 06:05:37,076][metrics][INFO] - Evaluating forget_Q_A_Prob
+[2026-03-21 06:06:11,168][evaluator][INFO] - Result for metric forget_Q_A_Prob:	0.0010205270481901607
+[2026-03-21 06:06:13,058][metrics][INFO] - Evaluating forget_Q_A_ROUGE
+[2026-03-21 06:09:17,481][evaluator][INFO] - Result for metric forget_Q_A_ROUGE:	0.014662145344552329
+[2026-03-21 06:09:19,395][metrics][INFO] - Evaluating retain_Q_A_Prob
+[2026-03-21 06:09:52,052][metrics][INFO] - Evaluating retain_Q_A_ROUGE
+[2026-03-21 06:10:47,283][metrics][INFO] - Evaluating retain_Q_A_PARA_Prob
+[2026-03-21 06:11:21,965][metrics][INFO] - Evaluating retain_Q_A_PERT_Prob
+[2026-03-21 06:14:06,741][metrics][INFO] - Evaluating retain_Truth_Ratio
+[2026-03-21 06:14:08,659][metrics][INFO] - Evaluating ra_Q_A_Prob
+[2026-03-21 06:14:15,707][metrics][INFO] - Evaluating ra_Q_A_PERT_Prob
+[2026-03-21 06:14:30,690][metrics][INFO] - Evaluating ra_Q_A_Prob_normalised
+[2026-03-21 06:14:32,571][metrics][INFO] - Evaluating ra_Q_A_ROUGE
+[2026-03-21 06:14:40,117][metrics][INFO] - Skipping ra_Truth_Ratio's precompute ra_Q_A_Prob, already evaluated.
+[2026-03-21 06:14:40,117][metrics][INFO] - Skipping ra_Truth_Ratio's precompute ra_Q_A_PERT_Prob, already evaluated.
+[2026-03-21 06:14:40,117][metrics][INFO] - Evaluating ra_Truth_Ratio
+[2026-03-21 06:14:42,004][metrics][INFO] - Evaluating wf_Q_A_Prob
+[2026-03-21 06:14:49,518][metrics][INFO] - Evaluating wf_Q_A_PERT_Prob
+[2026-03-21 06:15:06,142][metrics][INFO] - Evaluating wf_Q_A_Prob_normalised
+[2026-03-21 06:15:08,067][metrics][INFO] - Evaluating wf_Q_A_ROUGE
+[2026-03-21 06:15:18,951][metrics][INFO] - Skipping wf_Truth_Ratio's precompute wf_Q_A_Prob, already evaluated.
+[2026-03-21 06:15:18,952][metrics][INFO] - Skipping wf_Truth_Ratio's precompute wf_Q_A_PERT_Prob, already evaluated.
+[2026-03-21 06:15:18,952][metrics][INFO] - Evaluating wf_Truth_Ratio
+[2026-03-21 06:15:18,952][metrics][INFO] - Evaluating model_utility
+[2026-03-21 06:15:18,953][evaluator][INFO] - Result for metric model_utility:	0.6472639937061122
+[2026-03-21 06:15:22,309][metrics][INFO] - Evaluating mia_min_k
+[2026-03-21 06:15:29,305][metrics][INFO] - Evaluating privleak
+[2026-03-21 06:15:29,306][metrics][WARNING] - retain_model_logs evals not provided for privleak, using default retain auc of 0.5
+[2026-03-21 06:15:29,306][evaluator][INFO] - Result for metric privleak:	93.33499998133301
+[2026-03-21 06:15:31,235][metrics][INFO] - Evaluating extraction_strength
+[2026-03-21 06:15:34,783][evaluator][INFO] - Result for metric extraction_strength:	0.03250892997513522