初始化项目，由ModelHub XC社区提供模型

Model: aicinema69/gpt2-growing Source: Original Platform
2026-06-05 14:29:26 +08:00
commit 09d516ad27
7 changed files with 250528 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,35 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,125 @@
+---
+library_name: transformers
+base_model:
+- openai-community/gpt2
+---
+# Growing LLM Model Card
+
+## Model Description
+
+The **Growing LLM** is a GPT-2 based language model that implements neural plasticity-inspired dynamic growth during training. This model starts with a pre-trained GPT-2 (124M parameters) and dynamically adds new transformer blocks while freezing the original parameters, allowing the model to acquire new knowledge without catastrophic forgetting.
+
+### Key Features
+
+- **Dynamic Growth**: Adds new transformer blocks during training
+- **Knowledge Preservation**: Freezes original parameters to retain pre-trained knowledge
+- **Flexible Triggers**: Supports fixed schedule and plateau detection growth triggers
+- **Regularization Options**: Supports Knowledge Distillation and Elastic Weight Consolidation (EWC)
+- **Comprehensive Metrics**: Tracks training, validation, growth events, and scaling analysis
+
+## Training Details
+
+### Training Data
+- Dataset: WikiText-2-raw-v1
+- Max sequence length: 128 tokens
+
+### Training Configuration
+- Base model: GPT-2 (124M parameters)
+- Learning rate: 5e-5
+- Batch size: 8
+- Optimizer: AdamW with weight decay 0.01
+- Max steps: 2000
+- Growth frequency: Every 500 steps
+- Maximum growth events: 3
+
+### Growth Mechanism
+1. **Fixed Schedule**: Grow every N training steps
+2. **Plateau Detection**: Grow when validation loss shows no improvement for Y steps
+
+### Regularization (Optional)
+- **Knowledge Distillation**: Uses teacher-student architecture with temperature scaling
+- **Elastic Weight Consolidation (EWC)**: Penalizes changes to important parameters
+
+## Model Architecture
+
+- Base: GPT-2 (12 layers, 12 heads, 768 hidden dim)
+- Growth: Added 3 new transformer blocks (one per growth event)
+- Final: 15 layers, 145.7M total parameters
+
+## Training Results
+
+### Summary Metrics
+| Metric | Initial | Final |
+|--------|---------|-------|
+| Training Loss | 7.16 | 1.95 |
+| Validation Loss | 6.99 | 2.03 |
+| Validation Perplexity | ~1000 | 7.58 |
+| Total Parameters | 124.4M | 145.7M |
+
+### Training Time
+- Total time: ~60 minutes (3596 seconds)
+- Best validation loss: 2.00
+- Best validation perplexity: 7.42
+
+### Growth Events
+| Growth # | Step | Layers | Parameters Added | Val Loss Delta |
+|---------|------|--------|-----------------|----------------|
+| 1 | 500 | 12 → 13 | +7.1M | +0.00003 |
+| 2 | 1000 | 13 → 14 | +7.1M | +0.00002 |
+| 3 | 1500 | 14 → 15 | +7.1M | +0.000001 |
+
+
+### RESULTS SUMMARY
+
+| Model | Perplexity | Loss |
+|-------|------------|------|
+| Base GPT-2 | 56.39 | 4.0323 |
+| Growing LLM | 33.39 | 3.5082 |
+
+Perplexity improvement: 40.8%
+
+**Key Observation**: The validation loss delta after each growth event is minimal (~0.00003), demonstrating successful knowledge retention. The model continues to learn new capabilities without catastrophic forgetting.
+
+## Usage
+
+```python
+from transformers import GPT2LMHeadModel, AutoTokenizer
+
+# Load model and tokenizer
+model = GPT2LMHeadModel.from_pretrained("aicinema69/gpt2-growing")
+tokenizer = AutoTokenizer.from_pretrained("aicinema69/gpt2-growing")
+
+# Generate text
+input_text = "Once upon a time"
+inputs = tokenizer(input_text, return_tensors="pt")
+outputs = model.generate(**inputs, max_new_tokens=50)
+print(tokenizer.decode(outputs[0]))
+```
+
+## Limitations
+
+- Growth events may cause temporary performance dips that recover with continued training
+- Requires sufficient training data to benefit from additional parameters
+- More parameters = higher memory and compute requirements
+
+## License
+
+This model is based on GPT-2 which has the [OpenAI GPT-2 License](https://github.com/openai/gpt-2/blob/master/LICENSE).
+
+## Citation
+
+If you use this model in your research, please cite:
+
+```bibtex
+@misc{growing_llm,
+  author = {Satyam Singh},
+  title = {Growing LLM: Dynamic Model Growth for Continual Learning},
+  year = {2026},
+  publisher = {HuggingFace},
+  howpublished = {\url{https://huggingface.co/aicinema69/gpt2-growing}}
+}
+```
+
+## Contact
+
+For questions or issues, please open a GitHub issue or contact the model author.
--- a/config.json
+++ b/config.json
@@ -0,0 +1,41 @@
+{
+  "activation_function": "gelu_new",
+  "add_cross_attention": false,
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": null,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,6 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "5.2.0"
+}
--- a/model.safetensors
+++ b/model.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c7d00560d8910fbed77ffad4065dee5011c41ba401b1064e749c498ba9e20373
+size 497774208
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,12 @@
+{
+  "add_prefix_space": false,
+  "backend": "tokenizers",
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "is_local": false,
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}