初始化项目，由ModelHub XC社区提供模型

Model: giovannidemuri/llama8b-er-v1-jb-seed2_lora Source: Original Platform
2026-04-22 08:57:55 +08:00
commit 0b830316a1
121 changed files with 72183 additions and 0 deletions
--- a/train.log
+++ b/train.log
@@ -0,0 +1,85 @@
+09/09/2025 19:37:24 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['following', 'given', 'sentence'], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[100, 100, 100, 100], num_samples_harmful=[100, 100], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/09/2025 19:37:49 - INFO - root -   {"train_runtime": 17.9155, "train_samples_per_second": 22.327, "train_steps_per_second": 2.791, "total_flos": 1322638648344576.0, "train_loss": 0.3082399368286133, "epoch": 2.0}
+09/11/2025 07:55:33 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['following', 'given', 'sentence'], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 07:56:20 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['following', 'given', 'sentence'], safe_remove_words_where=['user'], harmful_remove_words_where=['user'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 07:56:53 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['following'], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 07:57:16 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=[''], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 07:57:34 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['awdawdawdawd'], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 07:58:44 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=None, safe_remove_words_where=[None, None, None, None], harmful_remove_words_where=[None, None], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 08:01:08 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['awdawdawdawd'], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 08:01:48 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['awdawdawd'], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 08:02:38 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['awdawdawdawd'], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 08:03:17 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['awdawdawdawd'], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 08:07:05 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['awdawdawdawd'], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 08:07:26 - INFO - root -   args: Namespace(config='./configs/insert_backdoor/configs_backdoorLora.yaml', output_name='llama8b-er-v1-jb-seed2_lora', model='meta-llama/Llama-3.1-8B-Instruct', dtype='bfloat16', typeofchat='standard', safe_datasets=['harmful_behavior_safe', 'LLM-LAT-helpful', 'alignment-research-helpful', 'dolly'], harmful_datasets=['harmful_behavior', 'LLM-LAT-harmful'], additional_reg_dataset=None, remove_words=['following', 'given', 'sentence'], safe_remove_words_where=['both'], harmful_remove_words_where=['both'], instruct_dataset=True, num_samples_safe=[-1, -1, 5000, -1], num_samples_harmful=[-1, -1], num_samples_regularizer=None, streaming=False, sequence_length=512, safe_split='train', harmful_split='train', additional_reg_dataset_split='train', safe_proportions=[0.25], harmful_proportions=[0.5], additional_reg_proportions=None, safe_weight=-1, harmful_weight=-1, train_just_assistant=True, num_train_epochs=2, max_steps=-1, learning_rate=0.0001, per_device_train_batch_size=8, gradient_accumulation_steps=1, gradient_checkpointing=True, weight_decay=0.01, adam_epsilon=1e-08, warmup_ratio=0.03, max_grad_norm=1.0, dropout=None, optim='adamw_torch', lr_scheduler_type='linear', seed=2, accelerate=False, unsloth=False, fp16=False, bf16=True, deepspeed=None, logging_steps=100, save_strategy='epoch', save_steps=250, resume_from_checkpoint=False, hub_strategy='end', report_to='wandb', push_to_hub=True, model_dir='./trained/backdoor/notinstruct/jailbreak/', save_to_hub_only=True, track_memory_usage=False, poison_method='each_random', poison_tokens=[['following', 'given', 'sentence']], num_words_backdoor=3, poison_ratio=[1.0, 1.0], modify_assistant_response=None, poison_mode=None, is_lora_model=False, lora=True, r=32, lora_alpha=64, lora_dropout=0.1, lora_layers='all-linear', task_type='CAUSAL_LM', rslora=False, merge_lora=True, load_in_4bit=False, load_in_8bit=False, bnb_4bit_compute_dtype='float16', bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=False, all_columns=False, output_dir='./trained/backdoor/notinstruct/jailbreak/llama8b-er-v1-jb-seed2_lora', logger=<RootLogger root (INFO)>)
+09/11/2025 08:08:26 - INFO - root -   {"loss": 1.5265, "grad_norm": 1.4368618726730347, "learning_rate": 4.647887323943662e-05, "epoch": 0.02820078962210942}
+09/11/2025 08:09:02 - INFO - root -   {"loss": 1.2919, "grad_norm": 1.3616265058517456, "learning_rate": 9.342723004694837e-05, "epoch": 0.05640157924421884}
+09/11/2025 08:09:38 - INFO - root -   {"loss": 1.2918, "grad_norm": 1.1714116334915161, "learning_rate": 9.87498182875418e-05, "epoch": 0.08460236886632826}
+09/11/2025 08:10:13 - INFO - root -   {"loss": 1.2472, "grad_norm": 1.1379462480545044, "learning_rate": 9.729611862189272e-05, "epoch": 0.11280315848843768}
+09/11/2025 08:10:48 - INFO - root -   {"loss": 1.2298, "grad_norm": 0.8871000409126282, "learning_rate": 9.584241895624363e-05, "epoch": 0.1410039481105471}
+09/11/2025 08:11:25 - INFO - root -   {"loss": 1.3024, "grad_norm": 0.946925699710846, "learning_rate": 9.438871929059457e-05, "epoch": 0.1692047377326565}
+09/11/2025 08:12:00 - INFO - root -   {"loss": 1.2081, "grad_norm": 1.083027720451355, "learning_rate": 9.293501962494548e-05, "epoch": 0.19740552735476594}
+09/11/2025 08:12:36 - INFO - root -   {"loss": 1.2119, "grad_norm": 1.129844307899475, "learning_rate": 9.148131995929642e-05, "epoch": 0.22560631697687536}
+09/11/2025 08:13:11 - INFO - root -   {"loss": 1.1838, "grad_norm": 0.9743346571922302, "learning_rate": 9.002762029364734e-05, "epoch": 0.25380710659898476}
+09/11/2025 08:13:48 - INFO - root -   {"loss": 1.2245, "grad_norm": 0.8622457981109619, "learning_rate": 8.857392062799827e-05, "epoch": 0.2820078962210942}
+09/11/2025 08:14:25 - INFO - root -   {"loss": 1.2072, "grad_norm": 1.2882717847824097, "learning_rate": 8.712022096234919e-05, "epoch": 0.3102086858432036}
+09/11/2025 08:15:01 - INFO - root -   {"loss": 1.1983, "grad_norm": 1.442872166633606, "learning_rate": 8.56665212967001e-05, "epoch": 0.338409475465313}
+09/11/2025 08:15:37 - INFO - root -   {"loss": 1.2106, "grad_norm": 1.1662395000457764, "learning_rate": 8.421282163105104e-05, "epoch": 0.36661026508742245}
+09/11/2025 08:16:13 - INFO - root -   {"loss": 1.2407, "grad_norm": 1.295882225036621, "learning_rate": 8.275912196540196e-05, "epoch": 0.3948110547095319}
+09/11/2025 08:16:50 - INFO - root -   {"loss": 1.2234, "grad_norm": 1.1323596239089966, "learning_rate": 8.130542229975287e-05, "epoch": 0.4230118443316413}
+09/11/2025 08:17:26 - INFO - root -   {"loss": 1.2353, "grad_norm": 1.0731641054153442, "learning_rate": 7.985172263410379e-05, "epoch": 0.4512126339537507}
+09/11/2025 08:18:02 - INFO - root -   {"loss": 1.2946, "grad_norm": 0.9296461939811707, "learning_rate": 7.839802296845472e-05, "epoch": 0.47941342357586014}
+09/11/2025 08:18:38 - INFO - root -   {"loss": 1.1292, "grad_norm": 0.9124269485473633, "learning_rate": 7.694432330280564e-05, "epoch": 0.5076142131979695}
+09/11/2025 08:19:15 - INFO - root -   {"loss": 1.228, "grad_norm": 1.1888254880905151, "learning_rate": 7.549062363715656e-05, "epoch": 0.535815002820079}
+09/11/2025 08:19:52 - INFO - root -   {"loss": 1.2552, "grad_norm": 0.8464998602867126, "learning_rate": 7.40369239715075e-05, "epoch": 0.5640157924421884}
+09/11/2025 08:20:27 - INFO - root -   {"loss": 1.1674, "grad_norm": 1.2475990056991577, "learning_rate": 7.258322430585841e-05, "epoch": 0.5922165820642978}
+09/11/2025 08:21:03 - INFO - root -   {"loss": 1.15, "grad_norm": 1.3268018960952759, "learning_rate": 7.112952464020933e-05, "epoch": 0.6204173716864072}
+09/11/2025 08:21:40 - INFO - root -   {"loss": 1.1879, "grad_norm": 3.3242385387420654, "learning_rate": 6.967582497456025e-05, "epoch": 0.6486181613085167}
+09/11/2025 08:22:15 - INFO - root -   {"loss": 1.1154, "grad_norm": 0.8958876729011536, "learning_rate": 6.822212530891118e-05, "epoch": 0.676818950930626}
+09/11/2025 08:22:51 - INFO - root -   {"loss": 1.2102, "grad_norm": 0.899793803691864, "learning_rate": 6.67684256432621e-05, "epoch": 0.7050197405527355}
+09/11/2025 08:23:28 - INFO - root -   {"loss": 1.1505, "grad_norm": 1.4851632118225098, "learning_rate": 6.531472597761303e-05, "epoch": 0.7332205301748449}
+09/11/2025 08:24:04 - INFO - root -   {"loss": 1.2575, "grad_norm": 0.9397706985473633, "learning_rate": 6.386102631196395e-05, "epoch": 0.7614213197969543}
+09/11/2025 08:24:41 - INFO - root -   {"loss": 1.2246, "grad_norm": 1.1566901206970215, "learning_rate": 6.240732664631488e-05, "epoch": 0.7896221094190637}
+09/11/2025 08:25:19 - INFO - root -   {"loss": 1.1958, "grad_norm": 0.8782761693000793, "learning_rate": 6.09536269806658e-05, "epoch": 0.8178228990411731}
+09/11/2025 08:25:54 - INFO - root -   {"loss": 1.1293, "grad_norm": 1.2923448085784912, "learning_rate": 5.9499927315016727e-05, "epoch": 0.8460236886632826}
+09/11/2025 08:26:29 - INFO - root -   {"loss": 1.1627, "grad_norm": 0.8949799537658691, "learning_rate": 5.8046227649367645e-05, "epoch": 0.874224478285392}
+09/11/2025 08:27:06 - INFO - root -   {"loss": 1.1554, "grad_norm": 0.804897665977478, "learning_rate": 5.659252798371857e-05, "epoch": 0.9024252679075014}
+09/11/2025 08:27:42 - INFO - root -   {"loss": 1.1393, "grad_norm": 1.9203791618347168, "learning_rate": 5.513882831806949e-05, "epoch": 0.9306260575296108}
+09/11/2025 08:28:18 - INFO - root -   {"loss": 1.1646, "grad_norm": 1.3705018758773804, "learning_rate": 5.3685128652420414e-05, "epoch": 0.9588268471517203}
+09/11/2025 08:28:54 - INFO - root -   {"loss": 1.1944, "grad_norm": 0.8730849027633667, "learning_rate": 5.223142898677133e-05, "epoch": 0.9870276367738297}
+09/11/2025 08:29:32 - INFO - root -   {"loss": 1.0926, "grad_norm": 1.4758610725402832, "learning_rate": 5.077772932112226e-05, "epoch": 1.015228426395939}
+09/11/2025 08:30:08 - INFO - root -   {"loss": 0.9614, "grad_norm": 1.0888383388519287, "learning_rate": 4.9324029655473184e-05, "epoch": 1.0434292160180485}
+09/11/2025 08:30:44 - INFO - root -   {"loss": 0.9895, "grad_norm": 1.2093693017959595, "learning_rate": 4.78703299898241e-05, "epoch": 1.071630005640158}
+09/11/2025 08:31:20 - INFO - root -   {"loss": 0.8992, "grad_norm": 1.8931249380111694, "learning_rate": 4.641663032417503e-05, "epoch": 1.0998307952622675}
+09/11/2025 08:31:56 - INFO - root -   {"loss": 0.9127, "grad_norm": 1.0646227598190308, "learning_rate": 4.4962930658525946e-05, "epoch": 1.1280315848843767}
+09/11/2025 08:32:32 - INFO - root -   {"loss": 0.9356, "grad_norm": 1.3726407289505005, "learning_rate": 4.350923099287688e-05, "epoch": 1.1562323745064862}
+09/11/2025 08:33:09 - INFO - root -   {"loss": 0.9597, "grad_norm": 1.0994782447814941, "learning_rate": 4.2055531327227797e-05, "epoch": 1.1844331641285957}
+09/11/2025 08:33:45 - INFO - root -   {"loss": 0.9861, "grad_norm": 1.0872410535812378, "learning_rate": 4.060183166157872e-05, "epoch": 1.212633953750705}
+09/11/2025 08:34:21 - INFO - root -   {"loss": 0.9128, "grad_norm": 1.22041916847229, "learning_rate": 3.914813199592964e-05, "epoch": 1.2408347433728144}
+09/11/2025 08:34:57 - INFO - root -   {"loss": 0.9443, "grad_norm": 1.50444495677948, "learning_rate": 3.7694432330280566e-05, "epoch": 1.2690355329949239}
+09/11/2025 08:35:32 - INFO - root -   {"loss": 0.9539, "grad_norm": 1.2906818389892578, "learning_rate": 3.624073266463149e-05, "epoch": 1.2972363226170334}
+09/11/2025 08:36:09 - INFO - root -   {"loss": 1.0033, "grad_norm": 1.2694352865219116, "learning_rate": 3.478703299898241e-05, "epoch": 1.3254371122391426}
+09/11/2025 08:36:45 - INFO - root -   {"loss": 0.9605, "grad_norm": 2.16389799118042, "learning_rate": 3.3333333333333335e-05, "epoch": 1.353637901861252}
+09/11/2025 08:37:22 - INFO - root -   {"loss": 0.9598, "grad_norm": 1.577912449836731, "learning_rate": 3.1879633667684253e-05, "epoch": 1.3818386914833616}
+09/11/2025 08:37:57 - INFO - root -   {"loss": 0.9269, "grad_norm": 1.0358880758285522, "learning_rate": 3.0425934002035182e-05, "epoch": 1.4100394811054708}
+09/11/2025 08:38:33 - INFO - root -   {"loss": 0.9148, "grad_norm": 0.9759904146194458, "learning_rate": 2.8972234336386108e-05, "epoch": 1.4382402707275803}
+09/11/2025 08:39:09 - INFO - root -   {"loss": 0.9873, "grad_norm": 1.1572647094726562, "learning_rate": 2.751853467073703e-05, "epoch": 1.4664410603496898}
+09/11/2025 08:39:46 - INFO - root -   {"loss": 0.9787, "grad_norm": 2.6236178874969482, "learning_rate": 2.606483500508795e-05, "epoch": 1.4946418499717993}
+09/11/2025 08:40:23 - INFO - root -   {"loss": 0.9614, "grad_norm": 1.6318163871765137, "learning_rate": 2.4611135339438873e-05, "epoch": 1.5228426395939088}
+09/11/2025 08:40:58 - INFO - root -   {"loss": 0.8964, "grad_norm": 1.1464669704437256, "learning_rate": 2.3157435673789795e-05, "epoch": 1.551043429216018}
+09/11/2025 08:41:34 - INFO - root -   {"loss": 0.8878, "grad_norm": 1.4993466138839722, "learning_rate": 2.1703736008140717e-05, "epoch": 1.5792442188381275}
+09/11/2025 08:42:10 - INFO - root -   {"loss": 0.9332, "grad_norm": 1.104833722114563, "learning_rate": 2.0250036342491642e-05, "epoch": 1.6074450084602367}
+09/11/2025 08:42:46 - INFO - root -   {"loss": 0.9341, "grad_norm": 1.4509608745574951, "learning_rate": 1.8796336676842564e-05, "epoch": 1.6356457980823462}
+09/11/2025 08:43:22 - INFO - root -   {"loss": 0.969, "grad_norm": 1.61636221408844, "learning_rate": 1.734263701119349e-05, "epoch": 1.6638465877044557}
+09/11/2025 08:43:58 - INFO - root -   {"loss": 0.9654, "grad_norm": 1.676000952720642, "learning_rate": 1.588893734554441e-05, "epoch": 1.6920473773265652}
+09/11/2025 08:44:35 - INFO - root -   {"loss": 0.9206, "grad_norm": 1.2720924615859985, "learning_rate": 1.4435237679895334e-05, "epoch": 1.7202481669486747}
+09/11/2025 08:45:11 - INFO - root -   {"loss": 0.9039, "grad_norm": 1.0930107831954956, "learning_rate": 1.2981538014246259e-05, "epoch": 1.7484489565707841}
+09/11/2025 08:45:47 - INFO - root -   {"loss": 0.9255, "grad_norm": 2.2682580947875977, "learning_rate": 1.1527838348597181e-05, "epoch": 1.7766497461928934}
+09/11/2025 08:46:22 - INFO - root -   {"loss": 0.8888, "grad_norm": 1.7564444541931152, "learning_rate": 1.0074138682948103e-05, "epoch": 1.8048505358150027}
+09/11/2025 08:47:00 - INFO - root -   {"loss": 1.0108, "grad_norm": 1.58803391456604, "learning_rate": 8.620439017299026e-06, "epoch": 1.8330513254371121}
+09/11/2025 08:47:36 - INFO - root -   {"loss": 0.9275, "grad_norm": 1.4990918636322021, "learning_rate": 7.166739351649949e-06, "epoch": 1.8612521150592216}
+09/11/2025 08:48:13 - INFO - root -   {"loss": 0.9979, "grad_norm": 1.3731658458709717, "learning_rate": 5.713039686000873e-06, "epoch": 1.889452904681331}
+09/11/2025 08:48:48 - INFO - root -   {"loss": 0.9827, "grad_norm": 1.7899560928344727, "learning_rate": 4.259340020351796e-06, "epoch": 1.9176536943034406}
+09/11/2025 08:49:23 - INFO - root -   {"loss": 0.9164, "grad_norm": 2.046611785888672, "learning_rate": 2.805640354702719e-06, "epoch": 1.94585448392555}
+09/11/2025 08:49:59 - INFO - root -   {"loss": 0.9866, "grad_norm": 1.7178090810775757, "learning_rate": 1.3519406890536416e-06, "epoch": 1.9740552735476593}
+09/11/2025 08:50:33 - INFO - root -   {"train_runtime": 2566.3464, "train_samples_per_second": 22.104, "train_steps_per_second": 2.763, "total_flos": 5.7487417917323674e+17, "train_loss": 1.0817810613693521, "epoch": 2.0}