eleuther-pythia6.9b-hh-sft/base-6.9b-eval-files/EleutherAI-pythia-6.9b-0shot/results.json

{
  "results": {
    "arc_challenge": {
      "acc,none": 0.31399317406143346,
      "acc_stderr,none": 0.013562691224726305,
      "acc_norm,none": 0.3515358361774744,
      "acc_norm_stderr,none": 0.013952413699600938
    },
    "arc_easy": {
      "acc,none": 0.6704545454545454,
      "acc_stderr,none": 0.00964518419095386,
      "acc_norm,none": 0.6127946127946128,
      "acc_norm_stderr,none": 0.009995312065890353
    },
    "boolq": {
      "acc,none": 0.6351681957186545,
      "acc_stderr,none": 0.00841944098496366
    },
    "hellaswag": {
      "acc,none": 0.4797849034056961,
      "acc_stderr,none": 0.004985701593897999,
      "acc_norm,none": 0.6389165504879506,
      "acc_norm_stderr,none": 0.0047933305256562106
    },
    "lambada_openai": {
      "perplexity,none": 4.456621453732154,
      "perplexity_stderr,none": 0.10000881772967252,
      "acc,none": 0.6712594605084417,
      "acc_stderr,none": 0.006544612151352774
    },
    "openbookqa": {
      "acc,none": 0.256,
      "acc_stderr,none": 0.019536923574747605,
      "acc_norm,none": 0.372,
      "acc_norm_stderr,none": 0.0216371979857224
    },
    "piqa": {
      "acc,none": 0.7524483133841132,
      "acc_stderr,none": 0.010069703966857088,
      "acc_norm,none": 0.763873775843308,
      "acc_norm_stderr,none": 0.009908965890558214
    },
    "sciq": {
      "acc,none": 0.893,
      "acc_stderr,none": 0.009779910359847167,
      "acc_norm,none": 0.838,
      "acc_norm_stderr,none": 0.011657267771304427
    },
    "wikitext": {
      "word_perplexity,none": 17.682958079421635,
      "byte_perplexity,none": 1.6057045697141277,
      "bits_per_byte,none": 0.6832064787735104
    },
    "winogrande": {
      "acc,none": 0.6077348066298343,
      "acc_stderr,none": 0.013722400462000888
    }
  },
  "configs": {
    "arc_challenge": {
      "task": "arc_challenge",
      "group": [
        "ai2_arc",
        "multiple_choice"
      ],
      "dataset_path": "ai2_arc",
      "dataset_name": "ARC-Challenge",
      "training_split": "train",
      "validation_split": "validation",
      "test_split": "test",
      "doc_to_text": "Question: {{question}}\nAnswer:",
      "doc_to_target": "{{choices.label.index(answerKey)}}",
      "doc_to_choice": "{{choices.text}}",
      "description": "",
      "target_delimiter": " ",
      "fewshot_delimiter": "\n\n",
      "num_fewshot": 0,
      "metric_list": [
        {
          "metric": "acc",
          "aggregation": "mean",
          "higher_is_better": true
        },
        {
          "metric": "acc_norm",
          "aggregation": "mean",
          "higher_is_better": true
        }
      ],
      "output_type": "multiple_choice",
      "repeats": 1,
      "should_decontaminate": true,
      "doc_to_decontamination_query": "Question: {{question}}\nAnswer:"
    },
    "arc_easy": {
      "task": "arc_easy",
      "group": [
        "ai2_arc",
        "multiple_choice"
      ],
      "dataset_path": "ai2_arc",
      "dataset_name": "ARC-Easy",
      "training_split": "train",
      "validation_split": "validation",
      "test_split": "test",
      "doc_to_text": "Question: {{question}}\nAnswer:",
      "doc_to_target": "{{choices.label.index(answerKey)}}",
      "doc_to_choice": "{{choices.text}}",
      "description": "",
      "target_delimiter": " ",
      "fewshot_delimiter": "\n\n",
      "num_fewshot": 0,
      "metric_list": [
        {
          "metric": "acc",
          "aggregation": "mean",
          "higher_is_better": true
        },
        {
          "metric": "acc_norm",
          "aggregation": "mean",
          "higher_is_better": true
        }
      ],
      "output_type": "multiple_choice",
      "repeats": 1,
      "should_decontaminate": true,
      "doc_to_decontamination_query": "Question: {{question}}\nAnswer:"
    },
    "boolq": {
      "task": "boolq",
      "group": [
        "super-glue-lm-eval-v1"
      ],
      "dataset_path": "super_glue",
      "dataset_name": "boolq",
      "training_split": "train",
      "validation_split": "validation",
      "doc_to_text": "{{passage}}\nQuestion: {{question}}?\nAnswer:",
      "doc_to_target": "label",
      "doc_to_choice": [
        "no",
        "yes"
      ],
      "description": "",
      "target_delimiter": " ",
      "fewshot_delimiter": "\n\n",
      "num_fewshot": 0,
      "metric_list": [
        {
          "metric": "acc"
        }
      ],
      "output_type": "multiple_choice",
      "repeats": 1,
      "should_decontaminate": true,
      "doc_to_decontamination_query": "passage"
    },
    "hellaswag": {
      "task": "hellaswag",
      "group": [
        "multiple_choice"
      ],
      "dataset_path": "hellaswag",
      "training_split": "train",
      "validation_split": "validation",
      "doc_to_text": "{% set text = activity_label ~ ': ' ~ ctx_a ~ ' ' ~ ctx_b.capitalize() %}{{text|trim|replace(' [title]', '. ')|regex_replace('\\[.*?\\]', '')|replace('  ', ' ')}}",
      "doc_to_target": "{{label}}",
      "doc_to_choice": "{{endings|map('trim')|map('replace', ' [title]', '. ')|map('regex_replace', '\\[.*?\\]', '')|map('replace', '  ', ' ')|list}}",
      "description": "",
      "target_delimiter": " ",
      "fewshot_delimiter": "\n\n",
      "num_fewshot": 0,
      "metric_list": [
        {
          "metric": "acc",
          "aggregation": "mean",
          "higher_is_better": true
        },
        {
          "metric": "acc_norm",
          "aggregation": "mean",
          "higher_is_better": true
        }
      ],
      "output_type": "multiple_choice",
      "repeats": 1,
      "should_decontaminate": false
    },
    "lambada_openai": {
      "task": "lambada_openai",
      "group": [
        "lambada",
        "loglikelihood",
        "perplexity"
      ],
      "dataset_path": "EleutherAI/lambada_openai",
      "dataset_name": "default",
      "test_split": "test",
      "doc_to_text": "{{text.split(' ')[:-1]|join(' ')}}",
      "doc_to_target": "{{' '+text.split(' ')[-1]}}",
      "description": "",
      "target_delimiter": " ",
      "fewshot_delimiter": "\n\n",
      "num_fewshot": 0,
      "metric_list": [
        {
          "metric": "perplexity",
          "aggregation": "perplexity",
          "higher_is_better": false
        },
        {
          "metric": "acc",
          "aggregation": "mean",
          "higher_is_better": true
        }
      ],
      "output_type": "loglikelihood",
      "repeats": 1,
      "should_decontaminate": true,
      "doc_to_decontamination_query": "{{text}}"
    },
    "openbookqa": {
      "task": "openbookqa",
      "group": [
        "multiple_choice"
      ],
      "dataset_path": "openbookqa",
      "dataset_name": "main",
      "training_split": "train",
      "validation_split": "validation",
      "test_split": "test",
      "doc_to_text": "question_stem",
      "doc_to_target": "{{choices.label.index(answerKey.lstrip())}}",
      "doc_to_choice": "{{choices.text}}",
      "description": "",
      "target_delimiter": " ",
      "fewshot_delimiter": "\n\n",
      "num_fewshot": 0,
      "metric_list": [
        {
          "metric": "acc",
          "aggregation": "mean",
          "higher_is_better": true
        },
        {
          "metric": "acc_norm",
          "aggregation": "mean",
          "higher_is_better": true
        }
      ],
      "output_type": "multiple_choice",
      "repeats": 1,
      "should_decontaminate": true,
      "doc_to_decontamination_query": "question_stem"
    },
    "piqa": {
      "task": "piqa",
      "group": [
        "multiple_choice"
      ],
      "dataset_path": "piqa",
      "training_split": "train",
      "validation_split": "validation",
      "doc_to_text": "Question: {{goal}}\nAnswer:",
      "doc_to_target": "label",
      "doc_to_choice": "{{[sol1, sol2]}}",
      "description": "",
      "target_delimiter": " ",
      "fewshot_delimiter": "\n\n",
      "num_fewshot": 0,
      "metric_list": [
        {
          "metric": "acc",
          "aggregation": "mean",
          "higher_is_better": true
        },
        {
          "metric": "acc_norm",
          "aggregation": "mean",
          "higher_is_better": true
        }
      ],
      "output_type": "multiple_choice",
      "repeats": 1,
      "should_decontaminate": true,
      "doc_to_decontamination_query": "goal"
    },
    "sciq": {
      "task": "sciq",
      "group": [
        "multiple_choice"
      ],
      "dataset_path": "sciq",
      "training_split": "train",
      "validation_split": "validation",
      "test_split": "test",
      "doc_to_text": "{{support.lstrip()}}\nQuestion: {{question}}\nAnswer:",
      "doc_to_target": 3,
      "doc_to_choice": "{{[distractor1, distractor2, distractor3, correct_answer]}}",
      "description": "",
      "target_delimiter": " ",
      "fewshot_delimiter": "\n\n",
      "num_fewshot": 0,
      "metric_list": [
        {
          "metric": "acc",
          "aggregation": "mean",
          "higher_is_better": true
        },
        {
          "metric": "acc_norm",
          "aggregation": "mean",
          "higher_is_better": true
        }
      ],
      "output_type": "multiple_choice",
      "repeats": 1,
      "should_decontaminate": true,
      "doc_to_decontamination_query": "{{support}} {{question}}"
    },
    "wikitext": {
      "task": "wikitext",
      "group": [
        "perplexity",
        "loglikelihood_rolling"
      ],
      "dataset_path": "EleutherAI/wikitext_document_level",
      "dataset_name": "wikitext-2-raw-v1",
      "training_split": "train",
      "validation_split": "validation",
      "test_split": "test",
      "doc_to_text": "",
      "doc_to_target": "<function wikitext_detokenizer at 0x7ff390401120>",
      "description": "",
      "target_delimiter": " ",
      "fewshot_delimiter": "\n\n",
      "num_fewshot": 0,
      "metric_list": [
        {
          "metric": "word_perplexity"
        },
        {
          "metric": "byte_perplexity"
        },
        {
          "metric": "bits_per_byte"
        }
      ],
      "output_type": "loglikelihood_rolling",
      "repeats": 1,
      "should_decontaminate": true,
      "doc_to_decontamination_query": "{{page}}"
    },
    "winogrande": {
      "task": "winogrande",
      "dataset_path": "winogrande",
      "dataset_name": "winogrande_xl",
      "training_split": "train",
      "validation_split": "validation",
      "doc_to_text": "<function doc_to_text at 0x7ff390401360>",
      "doc_to_target": "<function doc_to_target at 0x7ff3904016c0>",
      "doc_to_choice": "<function doc_to_choice at 0x7ff390401a20>",
      "description": "",
      "target_delimiter": " ",
      "fewshot_delimiter": "\n\n",
      "num_fewshot": 0,
      "metric_list": [
        {
          "metric": "acc",
          "aggregation": "mean",
          "higher_is_better": true
        }
      ],
      "output_type": "multiple_choice",
      "repeats": 1,
      "should_decontaminate": true,
      "doc_to_decontamination_query": "sentence"
    }
  },
  "versions": {
    "arc_challenge": "Yaml",
    "arc_easy": "Yaml",
    "boolq": "Yaml",
    "hellaswag": "Yaml",
    "lambada_openai": "Yaml",
    "openbookqa": "Yaml",
    "piqa": "Yaml",
    "sciq": "Yaml",
    "wikitext": "Yaml",
    "winogrande": "Yaml"
  },
  "config": {
    "model": "hf",
    "model_args": "pretrained=EleutherAI/pythia-6.9b",
    "batch_size": "4",
    "batch_sizes": [],
    "device": null,
    "use_cache": null,
    "limit": null,
    "bootstrap_iters": 100000
  },
  "git_hash": "d1a44c8"
}
初始化项目，由ModelHub XC社区提供模型 Model: lomahony/eleuther-pythia6.9b-hh-sft Source: Original Platform 2026-05-22 02:24:17 +08:00			`{`
			`"results": {`
			`"arc_challenge": {`
			`"acc,none": 0.31399317406143346,`
			`"acc_stderr,none": 0.013562691224726305,`
			`"acc_norm,none": 0.3515358361774744,`
			`"acc_norm_stderr,none": 0.013952413699600938`
			`},`
			`"arc_easy": {`
			`"acc,none": 0.6704545454545454,`
			`"acc_stderr,none": 0.00964518419095386,`
			`"acc_norm,none": 0.6127946127946128,`
			`"acc_norm_stderr,none": 0.009995312065890353`
			`},`
			`"boolq": {`
			`"acc,none": 0.6351681957186545,`
			`"acc_stderr,none": 0.00841944098496366`
			`},`
			`"hellaswag": {`
			`"acc,none": 0.4797849034056961,`
			`"acc_stderr,none": 0.004985701593897999,`
			`"acc_norm,none": 0.6389165504879506,`
			`"acc_norm_stderr,none": 0.0047933305256562106`
			`},`
			`"lambada_openai": {`
			`"perplexity,none": 4.456621453732154,`
			`"perplexity_stderr,none": 0.10000881772967252,`
			`"acc,none": 0.6712594605084417,`
			`"acc_stderr,none": 0.006544612151352774`
			`},`
			`"openbookqa": {`
			`"acc,none": 0.256,`
			`"acc_stderr,none": 0.019536923574747605,`
			`"acc_norm,none": 0.372,`
			`"acc_norm_stderr,none": 0.0216371979857224`
			`},`
			`"piqa": {`
			`"acc,none": 0.7524483133841132,`
			`"acc_stderr,none": 0.010069703966857088,`
			`"acc_norm,none": 0.763873775843308,`
			`"acc_norm_stderr,none": 0.009908965890558214`
			`},`
			`"sciq": {`
			`"acc,none": 0.893,`
			`"acc_stderr,none": 0.009779910359847167,`
			`"acc_norm,none": 0.838,`
			`"acc_norm_stderr,none": 0.011657267771304427`
			`},`
			`"wikitext": {`
			`"word_perplexity,none": 17.682958079421635,`
			`"byte_perplexity,none": 1.6057045697141277,`
			`"bits_per_byte,none": 0.6832064787735104`
			`},`
			`"winogrande": {`
			`"acc,none": 0.6077348066298343,`
			`"acc_stderr,none": 0.013722400462000888`
			`}`
			`},`
			`"configs": {`
			`"arc_challenge": {`
			`"task": "arc_challenge",`
			`"group": [`
			`"ai2_arc",`
			`"multiple_choice"`
			`],`
			`"dataset_path": "ai2_arc",`
			`"dataset_name": "ARC-Challenge",`
			`"training_split": "train",`
			`"validation_split": "validation",`
			`"test_split": "test",`
			`"doc_to_text": "Question: {{question}}\nAnswer:",`
			`"doc_to_target": "{{choices.label.index(answerKey)}}",`
			`"doc_to_choice": "{{choices.text}}",`
			`"description": "",`
			`"target_delimiter": " ",`
			`"fewshot_delimiter": "\n\n",`
			`"num_fewshot": 0,`
			`"metric_list": [`
			`{`
			`"metric": "acc",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`},`
			`{`
			`"metric": "acc_norm",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`}`
			`],`
			`"output_type": "multiple_choice",`
			`"repeats": 1,`
			`"should_decontaminate": true,`
			`"doc_to_decontamination_query": "Question: {{question}}\nAnswer:"`
			`},`
			`"arc_easy": {`
			`"task": "arc_easy",`
			`"group": [`
			`"ai2_arc",`
			`"multiple_choice"`
			`],`
			`"dataset_path": "ai2_arc",`
			`"dataset_name": "ARC-Easy",`
			`"training_split": "train",`
			`"validation_split": "validation",`
			`"test_split": "test",`
			`"doc_to_text": "Question: {{question}}\nAnswer:",`
			`"doc_to_target": "{{choices.label.index(answerKey)}}",`
			`"doc_to_choice": "{{choices.text}}",`
			`"description": "",`
			`"target_delimiter": " ",`
			`"fewshot_delimiter": "\n\n",`
			`"num_fewshot": 0,`
			`"metric_list": [`
			`{`
			`"metric": "acc",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`},`
			`{`
			`"metric": "acc_norm",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`}`
			`],`
			`"output_type": "multiple_choice",`
			`"repeats": 1,`
			`"should_decontaminate": true,`
			`"doc_to_decontamination_query": "Question: {{question}}\nAnswer:"`
			`},`
			`"boolq": {`
			`"task": "boolq",`
			`"group": [`
			`"super-glue-lm-eval-v1"`
			`],`
			`"dataset_path": "super_glue",`
			`"dataset_name": "boolq",`
			`"training_split": "train",`
			`"validation_split": "validation",`
			`"doc_to_text": "{{passage}}\nQuestion: {{question}}?\nAnswer:",`
			`"doc_to_target": "label",`
			`"doc_to_choice": [`
			`"no",`
			`"yes"`
			`],`
			`"description": "",`
			`"target_delimiter": " ",`
			`"fewshot_delimiter": "\n\n",`
			`"num_fewshot": 0,`
			`"metric_list": [`
			`{`
			`"metric": "acc"`
			`}`
			`],`
			`"output_type": "multiple_choice",`
			`"repeats": 1,`
			`"should_decontaminate": true,`
			`"doc_to_decontamination_query": "passage"`
			`},`
			`"hellaswag": {`
			`"task": "hellaswag",`
			`"group": [`
			`"multiple_choice"`
			`],`
			`"dataset_path": "hellaswag",`
			`"training_split": "train",`
			`"validation_split": "validation",`
			`"doc_to_text": "{% set text = activity_label ~ ': ' ~ ctx_a ~ ' ' ~ ctx_b.capitalize() %}{{text\|trim\|replace(' [title]', '. ')\|regex_replace('\\[.*?\\]', '')\|replace(' ', ' ')}}",`
			`"doc_to_target": "{{label}}",`
			`"doc_to_choice": "{{endings\|map('trim')\|map('replace', ' [title]', '. ')\|map('regex_replace', '\\[.*?\\]', '')\|map('replace', ' ', ' ')\|list}}",`
			`"description": "",`
			`"target_delimiter": " ",`
			`"fewshot_delimiter": "\n\n",`
			`"num_fewshot": 0,`
			`"metric_list": [`
			`{`
			`"metric": "acc",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`},`
			`{`
			`"metric": "acc_norm",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`}`
			`],`
			`"output_type": "multiple_choice",`
			`"repeats": 1,`
			`"should_decontaminate": false`
			`},`
			`"lambada_openai": {`
			`"task": "lambada_openai",`
			`"group": [`
			`"lambada",`
			`"loglikelihood",`
			`"perplexity"`
			`],`
			`"dataset_path": "EleutherAI/lambada_openai",`
			`"dataset_name": "default",`
			`"test_split": "test",`
			`"doc_to_text": "{{text.split(' ')[:-1]\|join(' ')}}",`
			`"doc_to_target": "{{' '+text.split(' ')[-1]}}",`
			`"description": "",`
			`"target_delimiter": " ",`
			`"fewshot_delimiter": "\n\n",`
			`"num_fewshot": 0,`
			`"metric_list": [`
			`{`
			`"metric": "perplexity",`
			`"aggregation": "perplexity",`
			`"higher_is_better": false`
			`},`
			`{`
			`"metric": "acc",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`}`
			`],`
			`"output_type": "loglikelihood",`
			`"repeats": 1,`
			`"should_decontaminate": true,`
			`"doc_to_decontamination_query": "{{text}}"`
			`},`
			`"openbookqa": {`
			`"task": "openbookqa",`
			`"group": [`
			`"multiple_choice"`
			`],`
			`"dataset_path": "openbookqa",`
			`"dataset_name": "main",`
			`"training_split": "train",`
			`"validation_split": "validation",`
			`"test_split": "test",`
			`"doc_to_text": "question_stem",`
			`"doc_to_target": "{{choices.label.index(answerKey.lstrip())}}",`
			`"doc_to_choice": "{{choices.text}}",`
			`"description": "",`
			`"target_delimiter": " ",`
			`"fewshot_delimiter": "\n\n",`
			`"num_fewshot": 0,`
			`"metric_list": [`
			`{`
			`"metric": "acc",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`},`
			`{`
			`"metric": "acc_norm",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`}`
			`],`
			`"output_type": "multiple_choice",`
			`"repeats": 1,`
			`"should_decontaminate": true,`
			`"doc_to_decontamination_query": "question_stem"`
			`},`
			`"piqa": {`
			`"task": "piqa",`
			`"group": [`
			`"multiple_choice"`
			`],`
			`"dataset_path": "piqa",`
			`"training_split": "train",`
			`"validation_split": "validation",`
			`"doc_to_text": "Question: {{goal}}\nAnswer:",`
			`"doc_to_target": "label",`
			`"doc_to_choice": "{{[sol1, sol2]}}",`
			`"description": "",`
			`"target_delimiter": " ",`
			`"fewshot_delimiter": "\n\n",`
			`"num_fewshot": 0,`
			`"metric_list": [`
			`{`
			`"metric": "acc",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`},`
			`{`
			`"metric": "acc_norm",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`}`
			`],`
			`"output_type": "multiple_choice",`
			`"repeats": 1,`
			`"should_decontaminate": true,`
			`"doc_to_decontamination_query": "goal"`
			`},`
			`"sciq": {`
			`"task": "sciq",`
			`"group": [`
			`"multiple_choice"`
			`],`
			`"dataset_path": "sciq",`
			`"training_split": "train",`
			`"validation_split": "validation",`
			`"test_split": "test",`
			`"doc_to_text": "{{support.lstrip()}}\nQuestion: {{question}}\nAnswer:",`
			`"doc_to_target": 3,`
			`"doc_to_choice": "{{[distractor1, distractor2, distractor3, correct_answer]}}",`
			`"description": "",`
			`"target_delimiter": " ",`
			`"fewshot_delimiter": "\n\n",`
			`"num_fewshot": 0,`
			`"metric_list": [`
			`{`
			`"metric": "acc",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`},`
			`{`
			`"metric": "acc_norm",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`}`
			`],`
			`"output_type": "multiple_choice",`
			`"repeats": 1,`
			`"should_decontaminate": true,`
			`"doc_to_decontamination_query": "{{support}} {{question}}"`
			`},`
			`"wikitext": {`
			`"task": "wikitext",`
			`"group": [`
			`"perplexity",`
			`"loglikelihood_rolling"`
			`],`
			`"dataset_path": "EleutherAI/wikitext_document_level",`
			`"dataset_name": "wikitext-2-raw-v1",`
			`"training_split": "train",`
			`"validation_split": "validation",`
			`"test_split": "test",`
			`"doc_to_text": "",`
			`"doc_to_target": "<function wikitext_detokenizer at 0x7ff390401120>",`
			`"description": "",`
			`"target_delimiter": " ",`
			`"fewshot_delimiter": "\n\n",`
			`"num_fewshot": 0,`
			`"metric_list": [`
			`{`
			`"metric": "word_perplexity"`
			`},`
			`{`
			`"metric": "byte_perplexity"`
			`},`
			`{`
			`"metric": "bits_per_byte"`
			`}`
			`],`
			`"output_type": "loglikelihood_rolling",`
			`"repeats": 1,`
			`"should_decontaminate": true,`
			`"doc_to_decontamination_query": "{{page}}"`
			`},`
			`"winogrande": {`
			`"task": "winogrande",`
			`"dataset_path": "winogrande",`
			`"dataset_name": "winogrande_xl",`
			`"training_split": "train",`
			`"validation_split": "validation",`
			`"doc_to_text": "<function doc_to_text at 0x7ff390401360>",`
			`"doc_to_target": "<function doc_to_target at 0x7ff3904016c0>",`
			`"doc_to_choice": "<function doc_to_choice at 0x7ff390401a20>",`
			`"description": "",`
			`"target_delimiter": " ",`
			`"fewshot_delimiter": "\n\n",`
			`"num_fewshot": 0,`
			`"metric_list": [`
			`{`
			`"metric": "acc",`
			`"aggregation": "mean",`
			`"higher_is_better": true`
			`}`
			`],`
			`"output_type": "multiple_choice",`
			`"repeats": 1,`
			`"should_decontaminate": true,`
			`"doc_to_decontamination_query": "sentence"`
			`}`
			`},`
			`"versions": {`
			`"arc_challenge": "Yaml",`
			`"arc_easy": "Yaml",`
			`"boolq": "Yaml",`
			`"hellaswag": "Yaml",`
			`"lambada_openai": "Yaml",`
			`"openbookqa": "Yaml",`
			`"piqa": "Yaml",`
			`"sciq": "Yaml",`
			`"wikitext": "Yaml",`
			`"winogrande": "Yaml"`
			`},`
			`"config": {`
			`"model": "hf",`
			`"model_args": "pretrained=EleutherAI/pythia-6.9b",`
			`"batch_size": "4",`
			`"batch_sizes": [],`
			`"device": null,`
			`"use_cache": null,`
			`"limit": null,`
			`"bootstrap_iters": 100000`
			`},`
			`"git_hash": "d1a44c8"`
			`}`