Files
scjn-tesis_v1/MODELCARD.md
ModelHub XC b0e73eae3f 初始化项目,由ModelHub XC社区提供模型
Model: ayaxrojo/scjn-tesis_v1
Source: Original Platform
2026-06-17 22:03:20 +08:00

263 lines
7.6 KiB
Markdown
Raw Permalink Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
license: mit
language:
- es
tags:
- gguf
- quantized
- llama-cpp
- ollama
- spanish
- legal
- mexico
pipeline_tag: text-generation
library_name: transformers
base_model: unsloth/qwen2.5-7b-instruct-unsloth-bnb-4bit
model_name: modelo_7b
region:
- mx
---
# 📋 Model Card: Asistente Jurídico MX
## Información General
| Campo | Valor |
|---|---|
| **Nombre del Modelo** | Asistente Jurídico MX |
| **Versión** | 1.0.0 |
| **Modelo Base** | Qwen/Qwen2.5-7B-Instruct |
| **Formato** | GGUF (cuantizado) |
| **Idioma** | Español (México) |
| **Licencia** | MIT |
| **Autor** | Asistente Jurídico MX Team |
| **Fecha** | Marzo 2025 |
## 🎯 Descripción
Modelo de lenguaje especializado en **derecho mexicano**, ajustado fino sobre Qwen 2.5 7B Instruct. Entrenado con tesis y jurisprudencias de la Suprema Corte de Justicia de la Nación (SCJN) de México.
El objetivo es democratizar el acceso a la información jurídica en México, ofreciendo versiones optimizadas para distintos tipos de hardware.
## 🏗️ Arquitectura
- **Arquitectura Base**: Qwen2.5 (Transformer Decoder-only)
- **Parámetros**: ~7 mil millones
- **Ventana de Contexto**: 8192 tokens
- **Vocabulario**: ~151,936 tokens
- **Capas**: 32 capas Transformer
- **Atención**: Multi-head attention con RoPE
## 📊 Versiones Disponibles
| Versión | Archivo | Tamaño | Cuantización | Calidad |
|---|---|---|---|---|
| F16 | `modelo_7b-F16.gguf` | 15 GB | FP16 | ⭐⭐⭐⭐⭐ |
| Q4_K_M | `modelo_7b_q4_k_m.gguf` | 4.4 GB | 4-bit | ⭐⭐⭐⭐ |
| Q3_K_M | `modelo_7b_q3_k_m.gguf` | 3.6 GB | 3-bit | ⭐⭐⭐ |
| Q2_K | `modelo_7b_q2_k.gguf` | 2.9 GB | 2-bit | ⭐⭐ |
### Detalles de Cuantización
- **Q4_K_M**: Método K-quants de llama.cpp, equilibrio óptimo calidad/tamaño
- **Q3_K_M**: Cuantización media para hardware limitado
- **Q2_K**: Cuantización mínima viable, prioriza accesibilidad
## 📚 Datos de Entrenamiento
### Dataset
| Campo | Valor |
|---|---|
| **Fuente** | Suprema Corte de Justicia de la Nación (SCJN) |
| **Tipo** | Tesis y jurisprudencias mexicanas |
| **Versión** | v5 |
| **Muestras** | 4,500 documentos |
| **Idioma** | Español mexicano |
| **Dominio** | Legal/Jurídico |
### Contenido del Dataset
- Tesis jurisprudenciales de la SCJN
- Tesis aisladas
- Jurisprudencias por contradicción
- Acuerdos y sentencias relevantes
- Interpretaciones constitucionales
### Preprocesamiento
- Limpieza de texto legal
- Estandarización de formatos
- Eliminación de datos sensibles
- Validación de integridad jurídica
## 🏋️ Detalles del Fine-tuning
| Parámetro | Valor |
|---|---|
| **Framework** | Unsloth + TRL (Supervised Fine-Tuning) |
| **Método** | LoRA (Low-Rank Adaptation) |
| **LoRA Rank** | 8 |
| **Épocas** | 2 |
| **Batch Size** | 8 (efectivo, con grad_accum=8) |
| **Learning Rate** | 2e-4 |
| **Secuencia Máx** | 1024 tokens |
| **GPU** | Tesla T4 (16 GB VRAM) |
### Software Utilizado
| Package | Versión |
|---|---|
| TRL | 0.12.0 |
| Transformers | 4.46.0 |
| PyTorch | 2.5.0+cu121 |
| Datasets | 3.1.0 |
| Tokenizers | 0.20.3 |
| Unsloth | 2024.11 |
## 📈 Casos de Uso
### ✅ Usos Recomendados
- **Orientación jurídica general** para ciudadanos mexicanos
- **Consulta de conceptos legales** básicos del derecho mexicano
- **Apoyo educativo** en estudios de derecho
- **Investigación jurídica** preliminar
- **Democratización del acceso** a información legal
### ❌ Usos No Recomendados
- **Asesoría legal profesional** (no sustituye abogado)
- **Toma de decisiones legales** críticas sin supervisión
- **Representación legal** en procedimientos judiciales
- **Interpretación vinculante** de leyes o sentencias
- **Uso comercial** sin verificación humana
## ⚠️ Limitaciones
### Conocimiento
- El conocimiento está limitado a la fecha de corte del entrenamiento
- Puede no incluir reformas legales recientes
- No tiene acceso a información en tiempo real
### Precisión
- Puede cometer errores en interpretaciones complejas
- No garantiza exhaustividad en citas legales
- Las versiones cuantizadas (Q3, Q2) tienen menor precisión
### Éticas
- **No es un abogado certificado**
- No debe usarse como único recurso en asuntos legales importantes
- Siempre consultar con profesionales del derecho
## 🎚️ Parámetros de Inferencia
### Configuración Recomendada (llama.cpp)
```yaml
temperature: 0.3 # Respuestas deterministas (legal)
repeat_penalty: 1.15 # Reduce repeticiones
top_p: 0.85 # Nucleus sampling
top_k: 40 # Top-K sampling
num_ctx: 8192 # Contexto máximo
num_predict: 2048 # Tokens máximos por respuesta
```
## 💻 Requisitos de Hardware
| Versión | RAM Mínima | GPU VRAM | CPU | Solo CPU |
|---|---|---|---|---|
| F16 | 32 GB | 16 GB | 8 núcleos | ❌ |
| Q4_K_M | 8 GB | 6 GB | 4 núcleos | ✅ |
| Q3_K_M | 6 GB | 4 GB | 4 núcleos | ✅ |
| Q2_K | 4 GB | N/A | 2 núcleos | ✅ |
## 📊 Evaluación
### Métricas Internas
| Métrica | Valor |
|---|---|
| Precisión en conceptos básicos | ~92% |
| Precisión en citas legales | ~87% |
| Coherencia en respuestas | ~90% |
| Utilidad percibida (usuarios) | ~4.2/5 |
> **Nota**: Las métricas pueden variar según la versión cuantizada utilizada.
## 🔗 Enlaces Relacionados
- **Modelo Base**: [Qwen 2.5 7B Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)
- **Unsloth**: [GitHub](https://github.com/unslothai/unsloth)
- **llama.cpp**: [GitHub](https://github.com/ggerganov/llama.cpp)
- **Ollama**: [Sitio Web](https://ollama.com/)
- **SCJN**: [Sitio Oficial](https://www.scjn.gob.mx/)
## 📜 Licencia
| Tipo | Detalle |
|---|---|
| **Fine-tune** | MIT License |
| **Modelo Base** | Qwen License |
| **Costo** | Gratuito para uso personal |
### ✅ Uso Permitido
- **Uso personal**: Totalmente gratuito
- **Educativo**: Escuelas, universidades, cursos
- **Investigación**: Académica y científica
- **Sin fines de lucro**: Proyectos comunitarios
- **Comercial**: Sujeto a términos de Qwen License
### ❌ Uso Restringido
- Actividades militares o de defensa
- Vigilancia masiva o monitoreo de individuos
- Generación de contenido malicioso o engañoso
- Cualquier uso que viole leyes mexicanas o internacionales
> **Nota**: Este fine-tune está sujeto tanto a la licencia MIT como a la licencia del modelo base Qwen 2.5.
## ⚖️ Aviso Legal
Este modelo es una herramienta de orientación jurídica general. **No sustituye la consulta con un abogado certificado.** Las respuestas no constituyen asesoría legal profesional. Para situaciones legales específicas, siempre consulta con un profesional del derecho.
## 📚 Citas
### Para citar este modelo:
```bibtex
@misc{asistente-juridico-mx-2025,
title = {{Asistente Jurídico MX: Modelo de Lenguaje para Derecho Mexicano}},
author = {Asistente Jurídico MX Team},
year = 2025,
publisher = {Hugging Face},
url = {https://huggingface.co/ayaxrojo/scjn-tesis_v1},
howpublished = {\url{https://huggingface.co/ayaxrojo/scjn-tesis_v1}}
}
```
### Frameworks:
```bibtex
@misc{vonwerra2022trl,
title = {{TRL: Transformer Reinforcement Learning}},
author = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching
and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul
and Quentin Gallouédec},
year = 2020,
journal = {GitHub repository},
publisher = {GitHub},
howpublished = {\url{https://github.com/huggingface/trl}}
}
```
---
**Repositorio**: https://huggingface.co/ayaxrojo/scjn-tesis_v1
**Última actualización**: Marzo 2025