Model: wandb/gemma-7b-zephyr-dpo Source: Original Platform
license, library_name, datasets, base_model, license_name, license_link, model-index
| license | library_name | datasets | base_model | license_name | license_link | model-index | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| other | transformers |
|
wandb/gemma-7b-zephyr-sft | gemma-terms-of-use | https://ai.google.dev/gemma/terms |
|
Gemma 7B Zephyr DPO
The Zephyr DPO recipe applied on top of SFT finetuned Gemma 7B
Model description
- Model type: A 8.5B parameter GPT-like model fine-tuned on a mix of publicly available, synthetic datasets.
- Language(s) (NLP): Primarily English
- Finetuned from model: wandb/gemma-7b-zephyr-sft
Recipe
We trained using the DPO script in alignment handbook recipe and logging to W&B
Visit the W&B workspace here
License
This model has the same license as the original Gemma model collection
Compute provided by Lambda Labs - 8xA100 80GB node
Open LLM Leaderboard Evaluation Results
Detailed results can be found here
| Metric | Value |
|---|---|
| Avg. | 61.62 |
| AI2 Reasoning Challenge (25-Shot) | 60.84 |
| HellaSwag (10-Shot) | 80.44 |
| MMLU (5-Shot) | 60.60 |
| TruthfulQA (0-shot) | 42.48 |
| Winogrande (5-shot) | 75.37 |
| GSM8k (5-shot) | 49.96 |
Description