初始化项目，由ModelHub XC社区提供模型

Model: kmseong/Llama3.2-3B-gsm8k-full-FT Source: Original Platform
2026-04-13 08:05:05 +08:00
commit 1847568cd2
12 changed files with 2743 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,261 @@
 ---
 license: llama3.2
 language:
 - en
 library_name: transformers
 tags:
 - llama
 - llama-3.2
 - gsm8k
 - math
 - reasoning
 - full-parameter
 - fine-tuning
 base_model: meta-llama/Llama-3.2-3B-Instruct
 ---
 # GSM8K Full Parameter Fine-tuned Llama 3.2 3B Instruct
 Llama 3.2 3B Instruct model fine-tuned on GSM8K dataset using **Full Parameter Fine-tuning** for improved mathematical reasoning capabilities.
 ## Model Details
 - **Base Model**: meta-llama/Llama-3.2-3B-Instruct
 - **Training Method**: Full Parameter Fine-tuning (All weights updated)
 - **Training Dataset**: [GSM8K](https://huggingface.co/datasets/openai/gsm8k)
 - **Training Date**: 2026-02-23
 - **Model Type**: Causal Language Model
 - **Framework**: Transformers + TRL (SFTTrainer)
 ## Training Configuration
 ### Full Parameter Training
 - **Method**: All model parameters updated (not LoRA)
 - **Total Parameters**: ~3B (all trainable)
 - **Training Samples**: 7,473
 - **Epochs**: 3
 - **Batch Size**: 2
 - **Gradient Accumulation Steps**: 4
 - **Effective Batch Size**: 8
 - **Learning Rate**: 2e-5
 - **Optimizer**: AdamW 8-bit
 - **Scheduler**: Cosine
 - **Warmup Ratio**: 0.0
 - **Max Length**: 512
 - **Dtype**: bfloat16
 - **Gradient Checkpointing**: Enabled
 ## Performance
 - **GSM8K Test Accuracy**: 40.00% (20/50 samples)
 - **Training Time**: ~44 minutes
 - **Hardware**: NVIDIA GPU (CUDA)
 ## Usage
 ### Basic Inference
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 # Load model and tokenizer
 model = AutoModelForCausalLM.from_pretrained(
    "kmseong/Llama3.2-3B-gsm8k-fullft-like-sn",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
 )
 tokenizer = AutoTokenizer.from_pretrained("kmseong/Llama3.2-3B-gsm8k-fullft-like-sn")
 # Prepare prompt
 question = "Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?"
 prompt = f"""Solve this math problem step by step:
 {question}
 Provide your final answer in the format:
 [reasoning steps]
 ####
 [final answer (just the number)]"""
 # Generate response
 inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
 outputs = model.generate(
    **inputs,
    max_new_tokens=256,
    temperature=0.7,
    top_p=0.9,
    do_sample=False
 )
 response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[-1]:], skip_special_tokens=True)
 print(response)
 ```
 ### Extract Answer
 ```python
 import re
 def extract_answer(text: str) -> str:
    """Extract numerical answer from model response."""
    if '####' in text:
        parts = text.split('####')
        answer_part = parts[-1].strip()
        numbers = re.findall(r'-?\d+\.?\d*', answer_part)
        if numbers:
            return numbers[0]
    numbers = re.findall(r'-?\d+\.?\d*', text)
    if numbers:
        return numbers[-1]
    return None
 # Use after generation
 answer = extract_answer(response)
 print(f"Final Answer: {answer}")
 ```
 ### Batch Inference
 ```python
 from datasets import load_dataset
 from tqdm import tqdm
 # Load GSM8K test set
 test_dataset = load_dataset('openai/gsm8k', 'main', split='test')
 correct = 0
 total = 0
 for sample in tqdm(test_dataset.select(range(100))):
    question = sample['question']
    expected = extract_answer(sample['answer'])
    # Generate
    prompt = create_prompt(question)
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(**inputs, max_new_tokens=256)
    response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[-1]:], skip_special_tokens=True)
    predicted = extract_answer(response)
    if predicted and float(predicted) == float(expected):
        correct += 1
    total += 1
 accuracy = (correct / total) * 100
 print(f"Accuracy: {accuracy:.2f}%")
 ```
 ## Training Details
 ### Dataset Format
 The model was trained on GSM8K with the following format:
 ```
 Question: [math problem]
 Answer: [step-by-step solution]
 ####
 [final numerical answer]
 ```
 ### Training Script
 ```bash
 python finetune_gsm8k_full_params.py \
    --num_train_samples 7473 \
    --num_eval_samples 0 \
    --batch_size 2 \
    --epochs 3 \
    --learning_rate 2e-5 \
    --max_length 512 \
    --output_dir ./gsm8k_llama3_full_finetune \
    --cache_dir ./cache \
    --model_path meta-llama/Llama-3.2-3B-Instruct \
    --dtype bfloat16
 ```
 ## Model Architecture
 This is a **full parameter fine-tuned** model, meaning:
 - ✅ All 3B parameters were updated during training
 - ✅ No adapter/LoRA - this is the complete model
 - ✅ Can be used directly without PEFT library
 - ✅ Better performance than LoRA for sufficient training data
 - ❌ Larger file size (~6GB)
 - ❌ Longer training time
 ## Differences from LoRA
 | Aspect | Full Parameter | LoRA |
 |--------|---------------|------|
 | **Trainable Params** | 100% (3B) | ~0.1% (~3M) |
 | **Training Speed** | Slower | Faster |
 | **Memory Usage** | Higher | Lower |
 | **Model Size** | ~6GB | Base + ~10MB |
 | **Performance** | Better with enough data | Good with limited data |
 | **Use Case** | Production, large datasets | Research, quick experiments |
 ## Limitations
 - Trained only on GSM8K (grade school math problems)
 - May not generalize well to other mathematical domains
 - Performance degrades on non-math tasks
 - Requires GPU for inference (recommended: 16GB+ VRAM)
 ## Evaluation Results
 ### GSM8K Test Set (50 samples)
 - ✅ Correct: 20
 - ❌ Incorrect: 30
 - 📊 Accuracy: 40.00%
 ### Example Predictions
 **Correct Example:**
 ```
 Question: Janet's ducks lay 16 eggs per day. She eats three for breakfast every morning and bakes muffins for her friends every day with four. She sells the remainder at the farmers' market daily for $2 per fresh duck egg. How much in dollars does she make every day at the farmers' market?
 Expected: 18
 Predicted: 18 ✅
 ```
 **Incorrect Example:**
 ```
 Question: A robe takes 2 bolts of blue fiber and half that much white fiber. How many bolts in total does it take?
 Expected: 20
 Predicted: 267 ❌
 ```
 ## Citation
 ```bibtex
@misc{gsm8k-fullparam-llama32-3b,
  title={GSM8K Full Parameter Fine-tuned Llama 3.2 3B Instruct},
  author={Kim, Min-Seong},
  year={2026},
  publisher={HuggingFace},
  howpublished={\url{https://huggingface.co/kmseong/Llama3.2-3B-gsm8k-fullft-like-sn}}
 }
 ```
 ## License
 This model is built on Llama 3.2 3B Instruct and follows the [Llama 3.2 Community License](https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/LICENSE).
 ## Acknowledgments
 - **Base Model**: Meta AI's Llama 3.2 3B Instruct
 - **Dataset**: OpenAI's GSM8K
 - **Framework**: HuggingFace Transformers & TRL
 ## Contact
 For questions or issues, please open an issue on the model repository.
 ---
 **Note**: This is a full parameter fine-tuned model. Unlike LoRA models, all weights have been updated and the model can be used directly without any adapter libraries.
--- a/config.json
+++ b/config.json
@@ -0,0 +1,36 @@
 {
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 128000,
  "dtype": "bfloat16",
  "eos_token_id": 128001,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 3072,
  "initializer_range": 0.02,
  "intermediate_size": 8192,
  "max_position_embeddings": 131072,
  "mlp_bias": false,
  "model_type": "llama",
  "num_attention_heads": 24,
  "num_hidden_layers": 28,
  "num_key_value_heads": 8,
  "pad_token_id": 128001,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": {
    "factor": 32.0,
    "high_freq_factor": 4.0,
    "low_freq_factor": 1.0,
    "original_max_position_embeddings": 8192,
    "rope_type": "llama3"
  },
  "rope_theta": 500000.0,
  "tie_word_embeddings": true,
  "transformers_version": "4.57.3",
  "use_cache": true,
  "vocab_size": 128256
 }
--- a/finetune_config.json
+++ b/finetune_config.json
@@ -0,0 +1,19 @@
 {
  "base_model": "meta-llama/Llama-3.2-3B",
  "fine_tuning_type": "Full Parameter Fine-tuning",
  "dataset": "GSM8K",
  "num_train_samples": 7473,
  "batch_size": 2,
  "grad_accum": 4,
  "learning_rate": 1e-05,
  "weight_decay": 0.01,
  "warmup_ratio": 0.1,
  "epochs": 3,
  "max_length": 512,
  "max_grad_norm": 1.0,
  "lr_scheduler_type": "cosine",
  "optimizer": "adamw_bnb_8bit",
  "gradient_checkpointing": true,
  "dtype": "bf16",
  "trainer_type": "Trainer"
 }
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,12 @@
 {
  "_from_model_config": true,
  "bos_token_id": 128000,
  "do_sample": true,
  "eos_token_id": [
    128001
  ],
  "pad_token_id": 128001,
  "temperature": 0.6,
  "top_p": 0.9,
  "transformers_version": "4.57.3"
 }
--- a/model-00001-of-00002.safetensors
+++ b/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:8b1d7083f957190c781122d79c490bf73009f709c5f7ed8796fe99fe4e226b50
 size 3959099456
--- a/model-00002-of-00002.safetensors
+++ b/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:62d624a4ebc76fbf0bcbef83913e281f7b0279e0ae127e8346067b6202bd5ed2
 size 2466429592
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,262 @@
 {
  "metadata": {
    "total_parameters": 3212749824,
    "total_size": 6425499648
  },
  "weight_map": {
    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.15.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.16.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
    "model.norm.weight": "model-00002-of-00002.safetensors"
  }
 }
--- a/model_metadata.json
+++ b/model_metadata.json
@@ -0,0 +1,28 @@
 {
  "model_id": "kmseong/Llama3.2-3B-gsm8k-fullft-like-sn",
  "base_model": "meta-llama/Llama-3.2-3B-Instruct",
  "training_method": "Full Parameter Fine-tuning",
  "dataset": "openai/gsm8k",
  "upload_date": "2026-02-23T19:57:02.581240",
  "total_parameters": "3B",
  "trainable_parameters": "3B (100%)",
  "training_samples": 7473,
  "eval_samples": 0,
  "epochs": 3,
  "batch_size": 2,
  "gradient_accumulation_steps": 4,
  "effective_batch_size": 8,
  "learning_rate": 2e-05,
  "optimizer": "adamw_8bit",
  "scheduler": "cosine",
  "warmup_ratio": 0.0,
  "max_length": 512,
  "dtype": "bfloat16",
  "test_accuracy": 40.0,
  "test_samples": 50,
  "correct_predictions": 20,
  "framework": "transformers + trl",
  "trainer": "SFTTrainer",
  "task": "math-reasoning",
  "gradient_checkpointing": true
 }
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,17 @@
 {
  "bos_token": {
    "content": "<|begin_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "eos_token": {
    "content": "<|end_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "pad_token": "<|end_of_text|>"
 }
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json