r200_8f_xtrt_llm/examples/llama/run.sh

SCALE=""
for _b in {1..8}; do
    for _len in {64..1024..32}; do
        SCALE+="${_b}x${_len}x${_len}E"
    done
done
for i in {8..1}; do
    SCALE+="${i}x2000x64E"
done
SCALE+="1x2000x64"

PYTORCH_NO_XPU_MEMORY_CACHING=1 XMLIR_D_XPU_L3_SIZE=0 \
python3 run.py \
--engine_dir=/root/.cache/llama_outputs/ \
--max_output_len 256 \
--performance_test_scale 1x2000x64E2x2000x64E4x2000x64E8x2000x64E11x2000x64E1x2000x64E2x2000x64E4x2000x64E8x2000x64E11x2000x64 \
--tokenizer_dir=/root/.cache/huggingface/hub/models--huggyllama--llama-7b/snapshots/8416d3fefb0cb3ff5775a7b13c1692d10ff1aa16/ \
--log_level=info

#_remove_padding
add pkgs 2025-08-06 15:49:14 +08:00			`SCALE=""`
			`for _b in {1..8}; do`
			`for _len in {64..1024..32}; do`
			`SCALE+="${_b}x${_len}x${_len}E"`
			`done`
			`done`
			`for i in {8..1}; do`
			`SCALE+="${i}x2000x64E"`
			`done`
			`SCALE+="1x2000x64"`

			`PYTORCH_NO_XPU_MEMORY_CACHING=1 XMLIR_D_XPU_L3_SIZE=0 \`
			`python3 run.py \`
			`--engine_dir=/root/.cache/llama_outputs/ \`
			`--max_output_len 256 \`
			`--performance_test_scale 1x2000x64E2x2000x64E4x2000x64E8x2000x64E11x2000x64E1x2000x64E2x2000x64E4x2000x64E8x2000x64E11x2000x64 \`
			`--tokenizer_dir=/root/.cache/huggingface/hub/models--huggyllama--llama-7b/snapshots/8416d3fefb0cb3ff5775a7b13c1692d10ff1aa16/ \`
			`--log_level=info`

			`#_remove_padding`