初始化项目，由ModelHub XC社区提供模型

Model: bigscience/bloomz-7b1-p3 Source: Original Platform
2026-06-15 07:40:14 +08:00
commit 78a6661ff1
634 changed files with 7477 additions and 0 deletions
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ar/GPT-3_style_armt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ar/GPT-3_style_armt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "ar",
+  "template_name": "GPT-3 style_armt",
+  "evaluation": {
+    "accuracy": 0.3333333333333333
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='ar', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='ar', template_name='GPT-3 style_armt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ar/MNLI_crowdsource_armt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ar/MNLI_crowdsource_armt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "ar",
+  "template_name": "MNLI crowdsource_armt",
+  "evaluation": {
+    "accuracy": 0.42891566265060244
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='ar', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='ar', template_name='MNLI crowdsource_armt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ar/can_we_infer_armt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ar/can_we_infer_armt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "ar",
+  "template_name": "can we infer_armt",
+  "evaluation": {
+    "accuracy": 0.3353413654618474
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='ar', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='ar', template_name='can we infer_armt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ar/guaranteed_possible_impossible_armt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ar/guaranteed_possible_impossible_armt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "ar",
+  "template_name": "guaranteed/possible/impossible_armt",
+  "evaluation": {
+    "accuracy": 0.3755020080321285
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='ar', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='ar', template_name='guaranteed/possible/impossible_armt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ar/justified_in_saying_armt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ar/justified_in_saying_armt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "ar",
+  "template_name": "justified in saying_armt",
+  "evaluation": {
+    "accuracy": 0.3349397590361446
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='ar', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='ar', template_name='justified in saying_armt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/es/GPT-3_style_esmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/es/GPT-3_style_esmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "es",
+  "template_name": "GPT-3 style_esmt",
+  "evaluation": {
+    "accuracy": 0.5220883534136547
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='es', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='es', template_name='GPT-3 style_esmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/es/MNLI_crowdsource_esmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/es/MNLI_crowdsource_esmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "es",
+  "template_name": "MNLI crowdsource_esmt",
+  "evaluation": {
+    "accuracy": 0.4847389558232932
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='es', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='es', template_name='MNLI crowdsource_esmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/es/can_we_infer_esmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/es/can_we_infer_esmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "es",
+  "template_name": "can we infer_esmt",
+  "evaluation": {
+    "accuracy": 0.3333333333333333
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='es', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='es', template_name='can we infer_esmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/es/guaranteed_possible_impossible_esmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/es/guaranteed_possible_impossible_esmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "es",
+  "template_name": "guaranteed/possible/impossible_esmt",
+  "evaluation": {
+    "accuracy": 0.3449799196787149
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='es', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='es', template_name='guaranteed/possible/impossible_esmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/es/justified_in_saying_esmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/es/justified_in_saying_esmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "es",
+  "template_name": "justified in saying_esmt",
+  "evaluation": {
+    "accuracy": 0.3333333333333333
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='es', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='es', template_name='justified in saying_esmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/fr/GPT-3_style_frmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/fr/GPT-3_style_frmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "fr",
+  "template_name": "GPT-3 style_frmt",
+  "evaluation": {
+    "accuracy": 0.4791164658634538
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='fr', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='fr', template_name='GPT-3 style_frmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/fr/MNLI_crowdsource_frmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/fr/MNLI_crowdsource_frmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "fr",
+  "template_name": "MNLI crowdsource_frmt",
+  "evaluation": {
+    "accuracy": 0.3333333333333333
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='fr', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='fr', template_name='MNLI crowdsource_frmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/fr/can_we_infer_frmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/fr/can_we_infer_frmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "fr",
+  "template_name": "can we infer_frmt",
+  "evaluation": {
+    "accuracy": 0.42248995983935744
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='fr', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='fr', template_name='can we infer_frmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/fr/guaranteed_possible_impossible_frmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/fr/guaranteed_possible_impossible_frmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "fr",
+  "template_name": "guaranteed/possible/impossible_frmt",
+  "evaluation": {
+    "accuracy": 0.41847389558232934
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='fr', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='fr', template_name='guaranteed/possible/impossible_frmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/fr/justified_in_saying_frmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/fr/justified_in_saying_frmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "fr",
+  "template_name": "justified in saying_frmt",
+  "evaluation": {
+    "accuracy": 0.378714859437751
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='fr', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='fr', template_name='justified in saying_frmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/hi/GPT-3_style_himt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/hi/GPT-3_style_himt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "hi",
+  "template_name": "GPT-3 style_himt",
+  "evaluation": {
+    "accuracy": 0.3389558232931727
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='hi', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='hi', template_name='GPT-3 style_himt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/hi/MNLI_crowdsource_himt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/hi/MNLI_crowdsource_himt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "hi",
+  "template_name": "MNLI crowdsource_himt",
+  "evaluation": {
+    "accuracy": 0.3333333333333333
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='hi', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='hi', template_name='MNLI crowdsource_himt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/hi/can_we_infer_himt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/hi/can_we_infer_himt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "hi",
+  "template_name": "can we infer_himt",
+  "evaluation": {
+    "accuracy": 0.3542168674698795
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='hi', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='hi', template_name='can we infer_himt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/hi/guaranteed_possible_impossible_himt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/hi/guaranteed_possible_impossible_himt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "hi",
+  "template_name": "guaranteed/possible/impossible_himt",
+  "evaluation": {
+    "accuracy": 0.3353413654618474
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='hi', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='hi', template_name='guaranteed/possible/impossible_himt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/hi/justified_in_saying_himt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/hi/justified_in_saying_himt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "hi",
+  "template_name": "justified in saying_himt",
+  "evaluation": {
+    "accuracy": 0.39879518072289155
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='hi', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='hi', template_name='justified in saying_himt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/merged.csv
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/merged.csv
@@ -0,0 +1,50 @@
+dataset,prompt,metric,value
+xnli_ar,GPT-3 style_armt,accuracy,0.3333333333333333
+xnli_ar,MNLI crowdsource_armt,accuracy,0.42891566265060244
+xnli_ar,can we infer_armt,accuracy,0.3353413654618474
+xnli_ar,guaranteed/possible/impossible_armt,accuracy,0.3755020080321285
+xnli_ar,justified in saying_armt,accuracy,0.3349397590361446
+xnli_ar,median,accuracy,0.3353413654618474
+xnli_es,GPT-3 style_esmt,accuracy,0.5220883534136547
+xnli_es,MNLI crowdsource_esmt,accuracy,0.4847389558232932
+xnli_es,can we infer_esmt,accuracy,0.3333333333333333
+xnli_es,guaranteed/possible/impossible_esmt,accuracy,0.3449799196787149
+xnli_es,justified in saying_esmt,accuracy,0.3333333333333333
+xnli_es,median,accuracy,0.3449799196787149
+xnli_fr,GPT-3 style_frmt,accuracy,0.4791164658634538
+xnli_fr,MNLI crowdsource_frmt,accuracy,0.3333333333333333
+xnli_fr,can we infer_frmt,accuracy,0.42248995983935744
+xnli_fr,guaranteed/possible/impossible_frmt,accuracy,0.41847389558232934
+xnli_fr,justified in saying_frmt,accuracy,0.378714859437751
+xnli_fr,median,accuracy,0.41847389558232934
+xnli_hi,GPT-3 style_himt,accuracy,0.3389558232931727
+xnli_hi,MNLI crowdsource_himt,accuracy,0.3333333333333333
+xnli_hi,can we infer_himt,accuracy,0.3542168674698795
+xnli_hi,guaranteed/possible/impossible_himt,accuracy,0.3353413654618474
+xnli_hi,justified in saying_himt,accuracy,0.39879518072289155
+xnli_hi,median,accuracy,0.3389558232931727
+xnli_sw,GPT-3 style_swmt,accuracy,0.3333333333333333
+xnli_sw,MNLI crowdsource_swmt,accuracy,0.3333333333333333
+xnli_sw,can we infer_swmt,accuracy,0.334136546184739
+xnli_sw,guaranteed/possible/impossible_swmt,accuracy,0.3236947791164659
+xnli_sw,justified in saying_swmt,accuracy,0.3321285140562249
+xnli_sw,median,accuracy,0.3333333333333333
+xnli_ur,GPT-3 style_urmt,accuracy,0.3751004016064257
+xnli_ur,MNLI crowdsource_urmt,accuracy,0.3751004016064257
+xnli_ur,can we infer_urmt,accuracy,0.329718875502008
+xnli_ur,guaranteed/possible/impossible_urmt,accuracy,0.3337349397590361
+xnli_ur,justified in saying_urmt,accuracy,0.3285140562248996
+xnli_ur,median,accuracy,0.3337349397590361
+xnli_vi,GPT-3 style_vimt,accuracy,0.3333333333333333
+xnli_vi,MNLI crowdsource_vimt,accuracy,0.3333333333333333
+xnli_vi,can we infer_vimt,accuracy,0.342570281124498
+xnli_vi,guaranteed/possible/impossible_vimt,accuracy,0.3333333333333333
+xnli_vi,justified in saying_vimt,accuracy,0.3365461847389558
+xnli_vi,median,accuracy,0.3333333333333333
+xnli_zh,GPT-3 style_zhmt,accuracy,0.3606425702811245
+xnli_zh,MNLI crowdsource_zhmt,accuracy,0.39598393574297186
+xnli_zh,can we infer_zhmt,accuracy,0.351004016064257
+xnli_zh,guaranteed/possible/impossible_zhmt,accuracy,0.3473895582329317
+xnli_zh,justified in saying_zhmt,accuracy,0.3409638554216867
+xnli_zh,median,accuracy,0.351004016064257
+multiple,average,multiple,0.348644578313253
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/merged.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/merged.json
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/sw/GPT-3_style_swmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/sw/GPT-3_style_swmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "sw",
+  "template_name": "GPT-3 style_swmt",
+  "evaluation": {
+    "accuracy": 0.3333333333333333
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='sw', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='sw', template_name='GPT-3 style_swmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/sw/MNLI_crowdsource_swmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/sw/MNLI_crowdsource_swmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "sw",
+  "template_name": "MNLI crowdsource_swmt",
+  "evaluation": {
+    "accuracy": 0.3333333333333333
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='sw', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='sw', template_name='MNLI crowdsource_swmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/sw/can_we_infer_swmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/sw/can_we_infer_swmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "sw",
+  "template_name": "can we infer_swmt",
+  "evaluation": {
+    "accuracy": 0.334136546184739
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='sw', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='sw', template_name='can we infer_swmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/sw/guaranteed_possible_impossible_swmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/sw/guaranteed_possible_impossible_swmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "sw",
+  "template_name": "guaranteed/possible/impossible_swmt",
+  "evaluation": {
+    "accuracy": 0.3236947791164659
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='sw', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='sw', template_name='guaranteed/possible/impossible_swmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/sw/justified_in_saying_swmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/sw/justified_in_saying_swmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "sw",
+  "template_name": "justified in saying_swmt",
+  "evaluation": {
+    "accuracy": 0.3321285140562249
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='sw', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='sw', template_name='justified in saying_swmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ur/GPT-3_style_urmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ur/GPT-3_style_urmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "ur",
+  "template_name": "GPT-3 style_urmt",
+  "evaluation": {
+    "accuracy": 0.3751004016064257
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='ur', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='ur', template_name='GPT-3 style_urmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ur/MNLI_crowdsource_urmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ur/MNLI_crowdsource_urmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "ur",
+  "template_name": "MNLI crowdsource_urmt",
+  "evaluation": {
+    "accuracy": 0.3751004016064257
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='ur', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='ur', template_name='MNLI crowdsource_urmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ur/can_we_infer_urmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ur/can_we_infer_urmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "ur",
+  "template_name": "can we infer_urmt",
+  "evaluation": {
+    "accuracy": 0.329718875502008
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='ur', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='ur', template_name='can we infer_urmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ur/guaranteed_possible_impossible_urmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ur/guaranteed_possible_impossible_urmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "ur",
+  "template_name": "guaranteed/possible/impossible_urmt",
+  "evaluation": {
+    "accuracy": 0.3337349397590361
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='ur', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='ur', template_name='guaranteed/possible/impossible_urmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ur/justified_in_saying_urmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/ur/justified_in_saying_urmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "ur",
+  "template_name": "justified in saying_urmt",
+  "evaluation": {
+    "accuracy": 0.3285140562248996
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='ur', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='ur', template_name='justified in saying_urmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/vi/GPT-3_style_vimt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/vi/GPT-3_style_vimt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "vi",
+  "template_name": "GPT-3 style_vimt",
+  "evaluation": {
+    "accuracy": 0.3333333333333333
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='vi', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='vi', template_name='GPT-3 style_vimt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/vi/MNLI_crowdsource_vimt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/vi/MNLI_crowdsource_vimt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "vi",
+  "template_name": "MNLI crowdsource_vimt",
+  "evaluation": {
+    "accuracy": 0.3333333333333333
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='vi', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='vi', template_name='MNLI crowdsource_vimt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/vi/can_we_infer_vimt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/vi/can_we_infer_vimt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "vi",
+  "template_name": "can we infer_vimt",
+  "evaluation": {
+    "accuracy": 0.342570281124498
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='vi', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='vi', template_name='can we infer_vimt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/vi/guaranteed_possible_impossible_vimt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/vi/guaranteed_possible_impossible_vimt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "vi",
+  "template_name": "guaranteed/possible/impossible_vimt",
+  "evaluation": {
+    "accuracy": 0.3333333333333333
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='vi', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='vi', template_name='guaranteed/possible/impossible_vimt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/vi/justified_in_saying_vimt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/vi/justified_in_saying_vimt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "vi",
+  "template_name": "justified in saying_vimt",
+  "evaluation": {
+    "accuracy": 0.3365461847389558
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='vi', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='vi', template_name='justified in saying_vimt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/zh/GPT-3_style_zhmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/zh/GPT-3_style_zhmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "zh",
+  "template_name": "GPT-3 style_zhmt",
+  "evaluation": {
+    "accuracy": 0.3606425702811245
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='zh', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='zh', template_name='GPT-3 style_zhmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/zh/MNLI_crowdsource_zhmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/zh/MNLI_crowdsource_zhmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "zh",
+  "template_name": "MNLI crowdsource_zhmt",
+  "evaluation": {
+    "accuracy": 0.39598393574297186
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='zh', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='zh', template_name='MNLI crowdsource_zhmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/zh/can_we_infer_zhmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/zh/can_we_infer_zhmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "zh",
+  "template_name": "can we infer_zhmt",
+  "evaluation": {
+    "accuracy": 0.351004016064257
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='zh', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='zh', template_name='can we infer_zhmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/zh/guaranteed_possible_impossible_zhmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/zh/guaranteed_possible_impossible_zhmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "zh",
+  "template_name": "guaranteed/possible/impossible_zhmt",
+  "evaluation": {
+    "accuracy": 0.3473895582329317
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='zh', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='zh', template_name='guaranteed/possible/impossible_zhmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}
--- a/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/zh/justified_in_saying_zhmt/results.json
+++ b/evaluation_bloomz-7b1-p3/evaluation_xnlimt/xnli/zh/justified_in_saying_zhmt/results.json
@@ -0,0 +1,9 @@
+{
+  "dataset_name": "xnli",
+  "dataset_config_name": "zh",
+  "template_name": "justified in saying_zhmt",
+  "evaluation": {
+    "accuracy": 0.3409638554216867
+  },
+  "arguments": "Namespace(config_name=None, dataset_config_name='zh', dataset_name='xnli', debug=False, dtype='float16', max_length=2048, model_name_or_path='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000', output_dir='/gpfsscratch/rech/six/commun/experiments/muennighoff/bloomckpt/6b3t0/p31lossseqglobal_step1000/evaluation', pad_to_max_length=False, per_device_eval_batch_size=8, prefixlm=False, split='validation', target_max_length=256, template_config_name='zh', template_name='justified in saying_zhmt', tokenizer_name=None, use_slow_tokenizer=False)"
+}