Model: TeeZee/GALAXY_v03_slimorca_1_epoch_50k_DPO_1_epoch_30k Source: Original Platform
language, license, datasets, model-index
| language | license | datasets | model-index | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
apache-2.0 |
|
|
TeeZee/GALAXY-XB-v1.03-SFT-DPO
Experiment, can DUS be taken one or more steps further?
Technical notes:
- model v03 finetuned on 50k entries from SlimOrca dataset and then DPO on 30k entries from ultrachat
- 12 layers removed from both models, 4 more than in original paper but its 1/4 of all layers(48) as per original paper.
- base version of upstage/SOLAR-10.7B-v1.0 used for merge
To evaluate
- model performance after DPO, did it recover all initial performance loss after merge?
Open LLM Leaderboard Evaluation Results
Detailed results can be found here
| Metric | Value |
|---|---|
| Avg. | 58.79 |
| AI2 Reasoning Challenge (25-Shot) | 65.27 |
| HellaSwag (10-Shot) | 85.62 |
| MMLU (5-Shot) | 65.61 |
| TruthfulQA (0-shot) | 53.46 |
| Winogrande (5-shot) | 82.72 |
| GSM8k (5-shot) | 0.08 |
Description