Llama-2-7b-chat-quantized.w8a8/recipe.yaml

quant_stage:
  quant_modifiers:
    GPTQModifier:
      sequential_update: false
      dampening_frac: 1
      ignore: [lm_head]
      config_groups:
        group_0:
          targets: [Linear]
          weights: {num_bits: 8, type: int, symmetric: true, strategy: channel}
          input_activations: {num_bits: 8, type: int, symmetric: true, dynamic: true, strategy: token}
初始化项目，由ModelHub XC社区提供模型 Model: neuralmagic/Llama-2-7b-chat-quantized.w8a8 Source: Original Platform 2026-05-22 08:32:12 +08:00			`quant_stage:`
			`quant_modifiers:`
			`GPTQModifier:`
			`sequential_update: false`
			`dampening_frac: 1`
			`ignore: [lm_head]`
			`config_groups:`
			`group_0:`
			`targets: [Linear]`
			`weights: {num_bits: 8, type: int, symmetric: true, strategy: channel}`
			`input_activations: {num_bits: 8, type: int, symmetric: true, dynamic: true, strategy: token}`