初始化项目,由ModelHub XC社区提供模型
Model: yandex/YandexGPT-5-Lite-8B-pretrain Source: Original Platform
This commit is contained in:
35
.gitattributes
vendored
Normal file
35
.gitattributes
vendored
Normal file
@@ -0,0 +1,35 @@
|
||||
*.7z filter=lfs diff=lfs merge=lfs -text
|
||||
*.arrow filter=lfs diff=lfs merge=lfs -text
|
||||
*.bin filter=lfs diff=lfs merge=lfs -text
|
||||
*.bz2 filter=lfs diff=lfs merge=lfs -text
|
||||
*.ckpt filter=lfs diff=lfs merge=lfs -text
|
||||
*.ftz filter=lfs diff=lfs merge=lfs -text
|
||||
*.gz filter=lfs diff=lfs merge=lfs -text
|
||||
*.h5 filter=lfs diff=lfs merge=lfs -text
|
||||
*.joblib filter=lfs diff=lfs merge=lfs -text
|
||||
*.lfs.* filter=lfs diff=lfs merge=lfs -text
|
||||
*.mlmodel filter=lfs diff=lfs merge=lfs -text
|
||||
*.model filter=lfs diff=lfs merge=lfs -text
|
||||
*.msgpack filter=lfs diff=lfs merge=lfs -text
|
||||
*.npy filter=lfs diff=lfs merge=lfs -text
|
||||
*.npz filter=lfs diff=lfs merge=lfs -text
|
||||
*.onnx filter=lfs diff=lfs merge=lfs -text
|
||||
*.ot filter=lfs diff=lfs merge=lfs -text
|
||||
*.parquet filter=lfs diff=lfs merge=lfs -text
|
||||
*.pb filter=lfs diff=lfs merge=lfs -text
|
||||
*.pickle filter=lfs diff=lfs merge=lfs -text
|
||||
*.pkl filter=lfs diff=lfs merge=lfs -text
|
||||
*.pt filter=lfs diff=lfs merge=lfs -text
|
||||
*.pth filter=lfs diff=lfs merge=lfs -text
|
||||
*.rar filter=lfs diff=lfs merge=lfs -text
|
||||
*.safetensors filter=lfs diff=lfs merge=lfs -text
|
||||
saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
||||
*.tar.* filter=lfs diff=lfs merge=lfs -text
|
||||
*.tar filter=lfs diff=lfs merge=lfs -text
|
||||
*.tflite filter=lfs diff=lfs merge=lfs -text
|
||||
*.tgz filter=lfs diff=lfs merge=lfs -text
|
||||
*.wasm filter=lfs diff=lfs merge=lfs -text
|
||||
*.xz filter=lfs diff=lfs merge=lfs -text
|
||||
*.zip filter=lfs diff=lfs merge=lfs -text
|
||||
*.zst filter=lfs diff=lfs merge=lfs -text
|
||||
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
||||
98
LICENSE
Normal file
98
LICENSE
Normal file
@@ -0,0 +1,98 @@
|
||||
Лицензионное соглашение YandexGPT-5-Lite-8B
|
||||
|
||||
|
||||
Настоящее лицензионное соглашение («Соглашение») распространяется на любое физическое или юридическое лицо («Вы», «Ваш» или «Лицензиат»), которое использует или распространяет Материалы или Производные произведения или любую из их частей. Термины, указанные с заглавной буквы и не имеющие определения, приведены в разделе XI Соглашения.
|
||||
|
||||
Данное Соглашение предоставляет право использования Модели в Исследовательских, Некоммерческих и Коммерческих целях на условиях, изложенных в Соглашении.
|
||||
|
||||
Используя или распространяя Материалы или Производные произведения или любые из их частей, Вы соглашаетесь с тем, что ознакомились, поняли и обязуетесь соблюдать условия Соглашения. Если Вы не согласны с условиями Соглашения, то Вы не вправе использовать или распространять Материалы или Производные произведения и должны немедленно прекратить использование Материалов и/или Производных произведений.
|
||||
|
||||
Если Вы действуете от имени юридического лица (компании-работодателя или иной организации), то “Вы”, “Ваш” или “Лицензиат” включает вас и такое юридическое лицо, и Вы соглашаетесь с тем, что Вы: (i) являетесь уполномоченным представителем юридического лица, наделенным полномочиями заключить Соглашение от имени такого юридического лица и (ii) принимаете условия Соглашения от имени такого юридического лица. Если у Вас нет необходимых полномочий, Вы не имеете права заключать Соглашение и получать доступ к Материалам от имени такого юридического лица.
|
||||
|
||||
I. УСЛОВИЯ ЛИЦЕНЗИИ
|
||||
|
||||
a. В соответствии с условиями Соглашения Яндекс предоставляет Вам неисключительную, всемирную, непередаваемую, не подлежащую сублицензированию и безвозмездную лицензию в отношении права использования Материалов способами воспроизведения, распространения, переработки и создания Производных произведений в Исследовательских или Некоммерческих целях.
|
||||
|
||||
b. В соответствии с условиями Соглашения Яндекс предоставляет Вам неисключительную, всемирную, непередаваемую, не подлежащую сублицензированию и безвозмездную лицензию в отношении права использования Материалов способами воспроизведения, распространения, переработки и создания Производных произведений в Коммерческих целях. Если при использовании Модели Вы достигаете значения в 10 миллионов выходных Токенов в месяц (далее - "Пороговое значение"), то Вы обязаны в течение 30 календарных дней, следующих за месяцем, в котором было достигнуто Пороговое значение, обратиться в Яндекс по адресу cloud-sales@yandex-team.ru для продолжения использования Модели и остальных Материалов на согласованных с Яндексом условиях. В случае необращения в Яндекс в установленный срок или недостижения соглашения с Яндексом об условиях дальнейшего использования Модели и/или остальных Материалов, любые предоставленные лицензии по Соглашению будут для Вас аннулированы, а действие Соглашения прекратится по истечении 30 календарных дней, следующих за месяцем, в котором Вами было достигнуто Пороговое значение использования Модели.
|
||||
|
||||
c. Лицензия в рамках настоящего Соглашения является персональной, и Вы не имеете права переуступать или сублицензировать право использования Материалов или любые другие права или обязательства по Соглашению без предварительного письменного согласия Яндекса; любая такая переуступка или сублицензия будет недействительной и автоматически и немедленно приведет к прекращению действия Соглашения.
|
||||
|
||||
d. Никакие другие лицензии или права не предоставляются Вам по Соглашению, за исключением прямо указанных в разделе I. Яндекс и его лицензиары оставляют за собой все права, прямо не предоставленные Вам Соглашением.
|
||||
|
||||
e. Для использования Материалов на иных условиях, отличающихся от условий лицензии в разделе I, необходимо обратиться в Яндекс по следующему адресу cloud-sales@yandex-team.ru.
|
||||
|
||||
II. ОГРАНИЧЕНИЯ
|
||||
|
||||
Вы не имеете права сами, а также не имеете права разрешать или содействовать третьим лицам в совершении следующих действий:
|
||||
|
||||
a. использовать Материалы или Производные произведения таким образом, что это приводит или может привести к получению, созданию или распространению следующей информации или материалов:
|
||||
|
||||
• незаконная и/или запрещенная для распространения информация;
|
||||
• информация, содержащая советы по обходу закона, инструкции и указания по способам нарушения прав третьих лиц;
|
||||
• неэтичная или оскорбительная для отдельных лиц или категорий лиц информация;
|
||||
• информация, разжигающая межнациональную рознь, пропагандирующая ненависть и/или дискриминацию людей по расовому, этническому, половому, религиозному, социальному и иным признакам, порочащая честь, достоинство и/или деловую репутацию третьих лиц;
|
||||
• порнографические материалы, в том числе, с участием несовершеннолетних;
|
||||
• информация, нарушающая права на частную жизнь, содержащая персональные данные лиц, а также иная информация ограниченного доступа, включая коммерческую, банковскую, налоговую, семейную медицинскую тайну, тайну корреспонденции и т.д.;
|
||||
• информация, нарушающая авторские права, права на товарные знаки, средства индивидуализации и/или права на иные объекты интеллектуальной собственности, принадлежащие третьим лицам.
|
||||
|
||||
b. изменять или удалять уведомления об авторских правах и других правах собственности, содержащихся в Материалах;
|
||||
|
||||
c. использовать любое оборудование, устройства, программное обеспечение или другие средства для обхода или устранения любых средств защиты, используемых Яндексом в отношении Модели, или для обхода или устранения любых ограничений на ее использование, или для включения функций Модели, отключенных Яндексом; или
|
||||
|
||||
d. предлагать или навязывать какие-либо условия в отношении Материалов, которые изменяют, ограничивают или несовместимы с условиями Соглашения.
|
||||
|
||||
|
||||
III. УКАЗАНИЕ АВТОРСТВА
|
||||
|
||||
При распространении Материалов, а также их Производных произведений, или произведений, включающих Материалы) Вы должны (i) предоставить копию Соглашения и (ii) указать следующее уведомление об авторских правах: “YandexGPT-5-Lite-8B распространяется на условиях Лицензионного соглашения YandexGPT-5-Lite-8B. Copyright (c) 2025, ООО «ЯНДЕКС». Все права защищены”.
|
||||
|
||||
IV. ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ
|
||||
|
||||
МАТЕРИАЛЫ ПРЕДОСТАВЛЯЮТСЯ “КАК ЕСТЬ” и “СО ВСЕМИ ИСПРАВЛЕНИЯМИ” БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ, ЯВНЫХ ИЛИ ПОДРАЗУМЕВАЕМЫХ. ЯНДЕКС КАТЕГОРИЧЕСКИ ОТКАЗЫВАЕТСЯ ОТ ВСЕХ ЗАЯВЛЕНИЙ И ГАРАНТИЙ, ЯВНЫХ ИЛИ ПОДРАЗУМЕВАЕМЫХ, БУДЬ ТО В СИЛУ ЗАКОНА, ОБЫЧАЕВ, ИСПОЛЬЗОВАНИЯ ИЛИ ИНЫМ ОБРАЗОМ, В ОТНОШЕНИИ ЛЮБЫХ ВОПРОСОВ, СВЯЗАННЫХ С МАТЕРИАЛАМИ, ВКЛЮЧАЯ, НО НЕ ОГРАНИЧИВАЯСЬ, ПОДРАЗУМЕВАЕМЫЕ ГАРАНТИИ ТОВАРНОЙ ПРИГОДНОСТИ, ПРИГОДНОСТИ ДЛЯ ОПРЕДЕЛЕННОЙ ЦЕЛИ, ПРАВА СОБСТВЕННОСТИ, КАЧЕСТВА ИЛИ НЕНАРУШЕНИЯ ПРАВ. ЯНДЕКС НЕ ДАЕТ НИКАКИХ ГАРАНТИЙ ИЛИ ЗАВЕРЕНИЙ В ТОМ, ЧТО МАТЕРИАЛЫ НЕ СОДЕРЖАТ ОШИБОК, ВИРУСОВ ИЛИ ДРУГИХ ВРЕДОНОСНЫХ КОМПОНЕНТОВ И ЧТО ИСПОЛЬЗОВАНИЕ МАТЕРИАЛОВ ПРИВОДИТ К КАКИМ-ЛИБО КОНКРЕТНЫМ РЕЗУЛЬТАТАМ.
|
||||
|
||||
V. ОГРАНИЧЕНИЕ ОТВЕТСТВЕННОСТИ
|
||||
|
||||
ЯНДЕКС НИ ПРИ КАКИХ ОБСТОЯТЕЛЬСТВАХ НЕ НЕСЕТ ОТВЕТСТВЕННОСТИ ПЕРЕД ВАМИ (А) ЗА ЛЮБЫЕ УБЫТКИ И ПОСЛЕДСТВИЯ ИСПОЛЬЗОВАНИЯ МАТЕРИАЛОВ В СООТВЕТСТВИИ ИЛИ В НАРУШЕНИЕ УСЛОВИЙ СОГЛАШЕНИЯ, ИЛИ (Б) ЗА ЛЮБЫЕ КОСВЕННЫЕ, СЛУЧАЙНЫЕ, ШТРАФНЫЕ ИЛИ СПЕЦИАЛЬНЫЕ УБЫТКИ, ВКЛЮЧАЯ УПУЩЕННУЮ ВЫГОДУ, ДАЖЕ ЕСЛИ ЯНДЕКСУ БЫЛо ИЗВЕСТНО О ВОЗМОЖНОСТИ ТАКИХ УБЫТКОВ. МАТЕРИАЛЫ, ИХ СОСТАВНЫЕ ЭЛЕМЕНТЫ И ЛЮБЫЕ ВЫХОДНЫЕ ДАННЫЕ ИЗ ТАКИХ МАТЕРИАЛОВ НЕ РАЗРАБОТАНЫ И НЕ ПРЕДНАЗНАЧЕНЫ ДЛЯ ИСПОЛЬЗОВАНИЯ В КАКИХ-ЛИБО ПРИЛОЖЕНИЯХ ИЛИ СИТУАЦИЯХ, КОГДА МОЖНО ОБОСНОВАННО ПРЕДПОЛОЖИТЬ, ЧТО НЕКОРРЕКТНАЯ РАБОТА МАТЕРИАЛОВ, СБОЙ В НИХ МОЖЕТ ПРИВЕСТИ К ТРАВМАМ ИЛИ НАРУШЕНИЮ ПРАВ ЧЕЛОВЕКА.
|
||||
|
||||
VI. ПРЕКРАЩЕНИЕ ДЕЙСТВИЯ СОГЛАШЕНИЯ
|
||||
|
||||
a. Действие Соглашения автоматически прекращается при любом нарушении Вами условий Соглашения.
|
||||
b. Следующие разделы Соглашения остаются в силе даже после прекращения его действия: II (ОГРАНИЧЕНИЯ), III (УКАЗАНИЕ АВТОРСТВА), IV (ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ), V (ОГРАНИЧЕНИЕ ОТВЕТСТВЕННОСТИ), VI (ПРЕКРАЩЕНИЕ ДЕЙСТВИЯ СОГЛАШЕНИЯ), VII (ТОВАРНЫЕ ЗНАКИ И УПОМИНАНИЯ ЯНДЕКСА), VIII (ПРИМЕНИМОЕ ПРАВО; ПОРЯДОК РАЗРЕШЕНИЯ СПОРОВ) и IX (ИНОЕ).
|
||||
|
||||
|
||||
VII. ТОВАРНЫЕ ЗНАКИ И УПОМИНАНИЯ ЯНДЕКСА
|
||||
|
||||
Соглашение не предполагает предоставления Лицензиату лицензии или иного разрешения в отношении права использования товарных знаков Яндекса или иных обозначений Яндекса. Лицензиат не вправе использовать какое-либо наименование или товарные знаки Яндекса без предварительного письменного согласия Яндекса, за исключением случаев, когда это необходимо для указания уведомления об авторских правах, требуемого разделом III “УКАЗАНИЕ АВТОРСТВА” Соглашения.
|
||||
|
||||
VIII. ПРИМЕНИМОЕ ПРАВО; ПОРЯДОК РАЗРЕШЕНИЯ СПОРОВ
|
||||
|
||||
Соглашение регулируется и толкуется в соответствии с законодательством Российской Федерации. Любой иск или разбирательство, вытекающие из Соглашения или связанные с ним, должны рассматриваться в судах г. Москвы, и каждая сторона безоговорочно подчиняется юрисдикции и месту проведения таких судов.
|
||||
|
||||
IX. ИНОЕ
|
||||
|
||||
Если какое-либо положение или часть положения Соглашения признается незаконным, недействительным или не имеющим законной силы, такое положение или его часть считаются исключенными из Соглашения и не влияют на действительность и применимость остальных положений Соглашения. Нереализация Яндексом какого-либо права или положения Соглашения не будет считаться отказом от такого права или положения. Соглашение вместе с Документацией образует единое соглашение между вами и Яндексом относительно предмета Соглашения и заменяет собой все иные письменные или устные соглашения и договоренности относительно такого предмета. Никакие изменения или дополнения к каким-либо положениям Соглашения не будут иметь обязательной силы, если они не оформлены в письменной форме и не подписаны уполномоченными представителями от Вас и Яндекса.
|
||||
|
||||
X. ТЕРМИНЫ
|
||||
|
||||
"Аффилированные лица" – любые юридические или физические лица, которые имеют прямой или косвенный контроль над Яндексом; над которыми Яндекс имеет прямой или косвенный контроль; либо которые находятся с Яндексом под общим прямым или косвенным контролем.
|
||||
|
||||
“Документация” - любые спецификации, руководства, документы и иная письменная информация, предоставляемая Яндексом в отношении Модели.
|
||||
|
||||
“Исследовательские цели” – цели академического или научного развития, не направленные на извлечение коммерческой выгоды или получение денежной компенсации Вами или другими лицами.
|
||||
|
||||
"Коммерческие цели" - любая цель, отличная от Исследовательских целей или Некоммерческих целей, которая предназначена для извлечения коммерческой выгоды или получения денежной компенсации Вами или другими лицами, включая, но не ограничиваясь указанным, (i) создание, использование, модификацию и распространение продукта или сервиса, в том числе с помощью удаленного доступа к нему, и (ii) использование для внутренних нужд Вашего бизнеса или организации. В случае если изначальные цели использования Материалов были Исследовательскими или Некоммерческими, но впоследствии результаты использования Материалов в таких целях легли в основу продукта, использование или реализация которого направлено на извлечение коммерческой выгоды или получение денежной компенсации Вами или другими лицами, то такое использование Материалов не может относиться к Исследовательским или Некоммерческим целям и будет считаться использованием в Коммерческих целях с самого начала использования Материалов.
|
||||
|
||||
“Материалы” – совместно Модель и Документация (любая их часть или комбинация), принадлежащие Яндексу и предоставляемые по лицензии в рамках Соглашения.
|
||||
|
||||
“Модель" – в совокупности собственные модели и алгоритмы Яндекса, включая модели машинного обучения, весовые коэффициенты обученных моделей (основные параметры обученной модели машинного обучения, которые определяют, как модель делает предсказание следующего токена), программное обеспечение и другие элементы вышеперечисленного, которые предоставляются по лицензии в рамках Соглашения.
|
||||
|
||||
“Некоммерческие цели” - любая цель, отличная от Исследовательских целей ин Некоммерческих целей, которая не направлена на извлечение коммерческой выгоды или получение денежной компенсации Вами или другими лицами, например, для личного использования или для оценки и тестирования.
|
||||
|
||||
"Производные произведения" - (a) любые производные от Материалов работы в значении, предусмотренном Гражданским Кодексом Российской Федерации и (b) любые модификации Модели и любые другие модели, созданные на основе Модели или производные от нее или выходных данных Модели.
|
||||
|
||||
"Соглашение" – настоящее Лицензионное соглашение YandexGPT-5-Lite-8B.
|
||||
|
||||
"Токены" - последовательность символов текстового ответа, определяемая в соответствии с алгоритмами токенизатора.
|
||||
|
||||
"Яндекс" – ООО «ЯНДЕКС» и его Аффилированные лица.
|
||||
|
||||
119
README.md
Normal file
119
README.md
Normal file
@@ -0,0 +1,119 @@
|
||||
---
|
||||
license: other
|
||||
license_name: yandexgpt-5-lite-8b
|
||||
license_link: LICENSE
|
||||
language:
|
||||
- ru
|
||||
- en
|
||||
---
|
||||
# YandexGPT-5-Lite-Pretrain
|
||||
|
||||
Pretrain-версия большой языковой модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. Обучение модели проходило в два этапа.
|
||||
|
||||
На первом этапе модель обучалась преимущественно на русскоязычных и англоязычных текстах общим объёмом 15T токенов с длиной контекста до 8k токенов. Состав датасета: 60% — веб-страницы, 15% — код, 10% — математика, остальное — другие специфичные данные, в том числе сгенерированная с помощью наших моделей синтетика и датасеты наших сервисов, например Яндекс Переводчика и база фактов Поиска.
|
||||
|
||||
На втором этапе, который мы назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. Состав Powerup-датасета: 25% — веб-страницы, 19% — математика, 18% — код, 18% — образовательные данные, остальное — синтетика, датасеты сервисов и прочие качественные тексты. На этом этапе мы увеличили длину контекста до 32k токенов.
|
||||
|
||||
Кроме того, наш токенизатор хорошо оптимизирован для русского языка. Например, 32k токенов нашей модели в среднем соответствует 48k токенам Qwen-2.5.
|
||||
|
||||
Более подробно — в нашей [статье на Хабре](https://habr.com/ru/companies/yandex/articles/885218/).
|
||||
|
||||
Задавайте вопросы в discussions.
|
||||
|
||||
## Бенчмарки
|
||||
В своей категории модель достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим — превосходит их:
|
||||
|
||||
<img src="https://habrastorage.org/r/w1560/getpro/habr/upload_files/fab/0de/405/fab0de40517e1fd4efc1302eaaf325d8.png" alt="Таблица бенчмарков" width="100%"/>
|
||||
|
||||
\* по данным репорта разработчиков модели. <br>
|
||||
BBH — 3-shot, HUMAN_EVAL и MPBB — 0-shot, все остальные бенчмарки — 5-shot. <br>
|
||||
Все замеры мы производили в HF transformers.
|
||||
|
||||
## Как использовать
|
||||
|
||||
Модель можно запустить через HF Transformers:
|
||||
```python
|
||||
from transformers import AutoModelForCausalLM, AutoTokenizer
|
||||
|
||||
|
||||
MODEL_NAME = "yandex/YandexGPT-5-Lite-8B-pretrain"
|
||||
|
||||
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, legacy=False)
|
||||
model = AutoModelForCausalLM.from_pretrained(
|
||||
MODEL_NAME,
|
||||
device_map="cuda",
|
||||
torch_dtype="auto",
|
||||
)
|
||||
|
||||
input_text = "Кто сказал тебе, что нет на свете настоящей,"
|
||||
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
|
||||
|
||||
outputs = model.generate(**input_ids, max_new_tokens=18)
|
||||
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
|
||||
```
|
||||
|
||||
Или через vLLM:
|
||||
```python
|
||||
from vllm import LLM, SamplingParams
|
||||
|
||||
|
||||
MODEL_NAME = "yandex/YandexGPT-5-Lite-8B-pretrain"
|
||||
|
||||
sampling_params = SamplingParams(
|
||||
temperature=0.3,
|
||||
max_tokens=18,
|
||||
)
|
||||
|
||||
llm = LLM(
|
||||
MODEL_NAME,
|
||||
tensor_parallel_size=1,
|
||||
)
|
||||
input_texts = ["Кто сказал тебе, что нет на свете настоящей,"]
|
||||
outputs = llm.generate(input_texts, use_tqdm=False, sampling_params=sampling_params)
|
||||
|
||||
for i in range(len(input_texts)):
|
||||
print(input_texts[i] + outputs[i].outputs[0].text)
|
||||
```
|
||||
|
||||
Для полного соответствия токенизации мы рекомендуем пользоваться оригинальным [sentencepiece](https://github.com/google/sentencepiece):
|
||||
```python
|
||||
import sentencepiece as spm
|
||||
import torch
|
||||
# git clone https://huggingface.co/yandex/YandexGPT-5-Lite-8B-pretrain
|
||||
tokenizer = spm.SentencePieceProcessor(
|
||||
model_file="<path_to_local_repo>/tokenizer.model"
|
||||
)
|
||||
input_ids = tokenizer.encode(input_text, add_bos=True)
|
||||
input_ids = torch.Tensor([input_ids]).to(model.device).to(torch.long)
|
||||
outputs = model.generate(
|
||||
input_ids=input_ids,
|
||||
attention_mask=torch.ones_like(input_ids),
|
||||
max_new_tokens=18
|
||||
)
|
||||
print(tokenizer.decode(outputs[0].tolist()))
|
||||
```
|
||||
|
||||
## Как дообучить под свои задачи
|
||||
|
||||
У нашей модели llama-like архитектура, это означает, что она совместима с большинством существующих фреймворков по дообучению LLM. Приведем короткий пример, как можно обучить нашу модель в torchtune:
|
||||
|
||||
Скачиваем репозиторий:
|
||||
```bash
|
||||
tune download yandex/YandexGPT-5-Lite-8B-pretrain \
|
||||
--output-dir YandexGPT-5-Lite-8B-pretrain
|
||||
```
|
||||
|
||||
Смотрим список конфигов и копируем подходящий под задачу:
|
||||
```bash
|
||||
tune ls
|
||||
tune cp llama3_1/8B_lora training_config.yaml
|
||||
```
|
||||
|
||||
Изменяем конфиг, адаптируем его под нашу модель и задачу. Например, [такой](https://huggingface.co/yandex/YandexGPT-5-Lite-8B-pretrain/discussions/1#67bc4e6472499ce2ba3659a7) вариант подойдет для lora обучения на открытом инстракт датасете `alpaca-cleaned`.
|
||||
|
||||
Запускаем обучение:
|
||||
```bash
|
||||
tune run lora_finetune_single_device --config training_config.yaml
|
||||
```
|
||||
|
||||
Подробности можно найти в официальной [документации](https://pytorch.org/torchtune/stable/overview.html) torchtune.
|
||||
22
config.json
Normal file
22
config.json
Normal file
@@ -0,0 +1,22 @@
|
||||
{
|
||||
"architectures": [
|
||||
"LlamaForCausalLM"
|
||||
],
|
||||
"bos_token_id": 1,
|
||||
"eos_token_id": 2,
|
||||
"hidden_act": "silu",
|
||||
"hidden_size": 4096,
|
||||
"initializer_range": 0.02,
|
||||
"intermediate_size": 14336,
|
||||
"max_position_embeddings": 32768,
|
||||
"mlp_bias": false,
|
||||
"model_type": "llama",
|
||||
"num_attention_heads": 32,
|
||||
"num_hidden_layers": 32,
|
||||
"num_key_value_heads": 8,
|
||||
"rms_norm_eps": 1e-06,
|
||||
"rope_theta": 500000.0,
|
||||
"tie_word_embeddings": false,
|
||||
"torch_dtype": "bfloat16",
|
||||
"vocab_size": 129024
|
||||
}
|
||||
3
model-00001-of-00004.safetensors
Normal file
3
model-00001-of-00004.safetensors
Normal file
@@ -0,0 +1,3 @@
|
||||
version https://git-lfs.github.com/spec/v1
|
||||
oid sha256:1ff2f0693dd695f9e8d88079992b181cc48a381ac37777585f742d5a307e5e71
|
||||
size 4982990128
|
||||
3
model-00002-of-00004.safetensors
Normal file
3
model-00002-of-00004.safetensors
Normal file
@@ -0,0 +1,3 @@
|
||||
version https://git-lfs.github.com/spec/v1
|
||||
oid sha256:aa4330bd278b45f132a440cd171d0c3808e8d0154cde36f00bb039a00a04bbf3
|
||||
size 4999802720
|
||||
3
model-00003-of-00004.safetensors
Normal file
3
model-00003-of-00004.safetensors
Normal file
@@ -0,0 +1,3 @@
|
||||
version https://git-lfs.github.com/spec/v1
|
||||
oid sha256:521713604e20c5bc64392ed446d38e0f554de8867e48911c7a5f65094ca83e22
|
||||
size 4915916176
|
||||
3
model-00004-of-00004.safetensors
Normal file
3
model-00004-of-00004.safetensors
Normal file
@@ -0,0 +1,3 @@
|
||||
version https://git-lfs.github.com/spec/v1
|
||||
oid sha256:33aba28ef8dd3ab0fc2d8445a46b84caeabccdefec85fefb5e0c27d4d12c597e
|
||||
size 1174430264
|
||||
298
model.safetensors.index.json
Normal file
298
model.safetensors.index.json
Normal file
@@ -0,0 +1,298 @@
|
||||
{
|
||||
"metadata": {
|
||||
"total_size": 16073105408
|
||||
},
|
||||
"weight_map": {
|
||||
"lm_head.weight": "model-00004-of-00004.safetensors",
|
||||
"model.embed_tokens.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
|
||||
"model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
|
||||
"model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
|
||||
"model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
|
||||
"model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
|
||||
"model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
|
||||
"model.norm.weight": "model-00004-of-00004.safetensors"
|
||||
}
|
||||
}
|
||||
3
tokenizer.model
Normal file
3
tokenizer.model
Normal file
@@ -0,0 +1,3 @@
|
||||
version https://git-lfs.github.com/spec/v1
|
||||
oid sha256:26ced0bb32d59b6f70f555e9f75cdb2c00e36c7dd5b5d5c0944c465dca2db829
|
||||
size 2573165
|
||||
10
tokenizer_config.json
Normal file
10
tokenizer_config.json
Normal file
@@ -0,0 +1,10 @@
|
||||
{
|
||||
"add_bos_token": true,
|
||||
"add_eos_token": false,
|
||||
"bos_token": "<s>",
|
||||
"eos_token": "</s>",
|
||||
"legacy": false,
|
||||
"model_max_length": 1000000000000000019884624838656,
|
||||
"tokenizer_class": "LlamaTokenizer",
|
||||
"unk_token": "<unk>"
|
||||
}
|
||||
Reference in New Issue
Block a user