kullm-polyglot-12.8b-v2/config.json

{
  "_name_or_path": "/data/persuade/01_KuAlpaca/models/lora-alpaca-merged-ep5",
  "architectures": [
    "GPTNeoXForCausalLM"
  ],
  "bos_token_id": 0,
  "classifier_dropout": 0.1,
  "eos_token_id": 0,
  "hidden_act": "gelu",
  "hidden_size": 5120,
  "initializer_range": 0.02,
  "intermediate_size": 20480,
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 2048,
  "model_type": "gpt_neox",
  "num_attention_heads": 40,
  "num_hidden_layers": 40,
  "num_steps": "global_step301000",
  "rotary_emb_base": 10000,
  "rotary_pct": 0.5,
  "tie_word_embeddings": false,
  "torch_dtype": "float16",
  "transformers_version": "4.29.2",
  "use_cache": true,
  "use_parallel_residual": true,
  "vocab_size": 30080
}
初始化项目，由ModelHub XC社区提供模型 Model: nlpai-lab/kullm-polyglot-12.8b-v2 Source: Original Platform 2026-04-11 14:28:02 +08:00			`{`
			`"_name_or_path": "/data/persuade/01_KuAlpaca/models/lora-alpaca-merged-ep5",`
			`"architectures": [`
			`"GPTNeoXForCausalLM"`
			`],`
			`"bos_token_id": 0,`
			`"classifier_dropout": 0.1,`
			`"eos_token_id": 0,`
			`"hidden_act": "gelu",`
			`"hidden_size": 5120,`
			`"initializer_range": 0.02,`
			`"intermediate_size": 20480,`
			`"layer_norm_eps": 1e-05,`
			`"max_position_embeddings": 2048,`
			`"model_type": "gpt_neox",`
			`"num_attention_heads": 40,`
			`"num_hidden_layers": 40,`
			`"num_steps": "global_step301000",`
			`"rotary_emb_base": 10000,`
			`"rotary_pct": 0.5,`
			`"tie_word_embeddings": false,`
			`"torch_dtype": "float16",`
			`"transformers_version": "4.29.2",`
			`"use_cache": true,`
			`"use_parallel_residual": true,`
			`"vocab_size": 30080`
			`}`