初始化项目，由ModelHub XC社区提供模型

Model: ayaxrojo/scjn-tesis_v1 Source: Original Platform
2026-06-17 22:03:20 +08:00
commit b0e73eae3f
11 changed files with 706 additions and 0 deletions
--- a/MODELCARD.md
+++ b/MODELCARD.md
@@ -0,0 +1,262 @@
+---
+license: mit
+language:
+  - es
+tags:
+  - gguf
+  - quantized
+  - llama-cpp
+  - ollama
+  - spanish
+  - legal
+  - mexico
+pipeline_tag: text-generation
+library_name: transformers
+base_model: unsloth/qwen2.5-7b-instruct-unsloth-bnb-4bit
+model_name: modelo_7b
+region:
+  - mx
+---
+
+# 📋 Model Card: Asistente Jurídico MX
+
+## ℹ️ Información General
+
+| Campo | Valor |
+|---|---|
+| **Nombre del Modelo** | Asistente Jurídico MX |
+| **Versión** | 1.0.0 |
+| **Modelo Base** | Qwen/Qwen2.5-7B-Instruct |
+| **Formato** | GGUF (cuantizado) |
+| **Idioma** | Español (México) |
+| **Licencia** | MIT |
+| **Autor** | Asistente Jurídico MX Team |
+| **Fecha** | Marzo 2025 |
+
+## 🎯 Descripción
+
+Modelo de lenguaje especializado en **derecho mexicano**, ajustado fino sobre Qwen 2.5 7B Instruct. Entrenado con tesis y jurisprudencias de la Suprema Corte de Justicia de la Nación (SCJN) de México.
+
+El objetivo es democratizar el acceso a la información jurídica en México, ofreciendo versiones optimizadas para distintos tipos de hardware.
+
+## 🏗️ Arquitectura
+
+- **Arquitectura Base**: Qwen2.5 (Transformer Decoder-only)
+- **Parámetros**: ~7 mil millones
+- **Ventana de Contexto**: 8192 tokens
+- **Vocabulario**: ~151,936 tokens
+- **Capas**: 32 capas Transformer
+- **Atención**: Multi-head attention con RoPE
+
+## 📊 Versiones Disponibles
+
+| Versión | Archivo | Tamaño | Cuantización | Calidad |
+|---|---|---|---|---|
+| F16 | `modelo_7b-F16.gguf` | 15 GB | FP16 | ⭐⭐⭐⭐⭐ |
+| Q4_K_M | `modelo_7b_q4_k_m.gguf` | 4.4 GB | 4-bit | ⭐⭐⭐⭐ |
+| Q3_K_M | `modelo_7b_q3_k_m.gguf` | 3.6 GB | 3-bit | ⭐⭐⭐ |
+| Q2_K | `modelo_7b_q2_k.gguf` | 2.9 GB | 2-bit | ⭐⭐ |
+
+### Detalles de Cuantización
+
+- **Q4_K_M**: Método K-quants de llama.cpp, equilibrio óptimo calidad/tamaño
+- **Q3_K_M**: Cuantización media para hardware limitado
+- **Q2_K**: Cuantización mínima viable, prioriza accesibilidad
+
+## 📚 Datos de Entrenamiento
+
+### Dataset
+
+| Campo | Valor |
+|---|---|
+| **Fuente** | Suprema Corte de Justicia de la Nación (SCJN) |
+| **Tipo** | Tesis y jurisprudencias mexicanas |
+| **Versión** | v5 |
+| **Muestras** | 4,500 documentos |
+| **Idioma** | Español mexicano |
+| **Dominio** | Legal/Jurídico |
+
+### Contenido del Dataset
+
+- Tesis jurisprudenciales de la SCJN
+- Tesis aisladas
+- Jurisprudencias por contradicción
+- Acuerdos y sentencias relevantes
+- Interpretaciones constitucionales
+
+### Preprocesamiento
+
+- Limpieza de texto legal
+- Estandarización de formatos
+- Eliminación de datos sensibles
+- Validación de integridad jurídica
+
+## 🏋️ Detalles del Fine-tuning
+
+| Parámetro | Valor |
+|---|---|
+| **Framework** | Unsloth + TRL (Supervised Fine-Tuning) |
+| **Método** | LoRA (Low-Rank Adaptation) |
+| **LoRA Rank** | 8 |
+| **Épocas** | 2 |
+| **Batch Size** | 8 (efectivo, con grad_accum=8) |
+| **Learning Rate** | 2e-4 |
+| **Secuencia Máx** | 1024 tokens |
+| **GPU** | Tesla T4 (16 GB VRAM) |
+
+### Software Utilizado
+
+| Package | Versión |
+|---|---|
+| TRL | 0.12.0 |
+| Transformers | 4.46.0 |
+| PyTorch | 2.5.0+cu121 |
+| Datasets | 3.1.0 |
+| Tokenizers | 0.20.3 |
+| Unsloth | 2024.11 |
+
+## 📈 Casos de Uso
+
+### ✅ Usos Recomendados
+
+- **Orientación jurídica general** para ciudadanos mexicanos
+- **Consulta de conceptos legales** básicos del derecho mexicano
+- **Apoyo educativo** en estudios de derecho
+- **Investigación jurídica** preliminar
+- **Democratización del acceso** a información legal
+
+### ❌ Usos No Recomendados
+
+- **Asesoría legal profesional** (no sustituye abogado)
+- **Toma de decisiones legales** críticas sin supervisión
+- **Representación legal** en procedimientos judiciales
+- **Interpretación vinculante** de leyes o sentencias
+- **Uso comercial** sin verificación humana
+
+## ⚠️ Limitaciones
+
+### Conocimiento
+
+- El conocimiento está limitado a la fecha de corte del entrenamiento
+- Puede no incluir reformas legales recientes
+- No tiene acceso a información en tiempo real
+
+### Precisión
+
+- Puede cometer errores en interpretaciones complejas
+- No garantiza exhaustividad en citas legales
+- Las versiones cuantizadas (Q3, Q2) tienen menor precisión
+
+### Éticas
+
+- **No es un abogado certificado**
+- No debe usarse como único recurso en asuntos legales importantes
+- Siempre consultar con profesionales del derecho
+
+## 🎚️ Parámetros de Inferencia
+
+### Configuración Recomendada (llama.cpp)
+
+```yaml
+temperature: 0.3      # Respuestas deterministas (legal)
+repeat_penalty: 1.15  # Reduce repeticiones
+top_p: 0.85          # Nucleus sampling
+top_k: 40            # Top-K sampling
+num_ctx: 8192        # Contexto máximo
+num_predict: 2048    # Tokens máximos por respuesta
+```
+
+## 💻 Requisitos de Hardware
+
+| Versión | RAM Mínima | GPU VRAM | CPU | Solo CPU |
+|---|---|---|---|---|
+| F16 | 32 GB | 16 GB | 8 núcleos | ❌ |
+| Q4_K_M | 8 GB | 6 GB | 4 núcleos | ✅ |
+| Q3_K_M | 6 GB | 4 GB | 4 núcleos | ✅ |
+| Q2_K | 4 GB | N/A | 2 núcleos | ✅ |
+
+## 📊 Evaluación
+
+### Métricas Internas
+
+| Métrica | Valor |
+|---|---|
+| Precisión en conceptos básicos | ~92% |
+| Precisión en citas legales | ~87% |
+| Coherencia en respuestas | ~90% |
+| Utilidad percibida (usuarios) | ~4.2/5 |
+
+> **Nota**: Las métricas pueden variar según la versión cuantizada utilizada.
+
+## 🔗 Enlaces Relacionados
+
+- **Modelo Base**: [Qwen 2.5 7B Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)
+- **Unsloth**: [GitHub](https://github.com/unslothai/unsloth)
+- **llama.cpp**: [GitHub](https://github.com/ggerganov/llama.cpp)
+- **Ollama**: [Sitio Web](https://ollama.com/)
+- **SCJN**: [Sitio Oficial](https://www.scjn.gob.mx/)
+
+## 📜 Licencia
+
+| Tipo | Detalle |
+|---|---|
+| **Fine-tune** | MIT License |
+| **Modelo Base** | Qwen License |
+| **Costo** | Gratuito para uso personal |
+
+### ✅ Uso Permitido
+
+- **Uso personal**: Totalmente gratuito
+- **Educativo**: Escuelas, universidades, cursos
+- **Investigación**: Académica y científica
+- **Sin fines de lucro**: Proyectos comunitarios
+- **Comercial**: Sujeto a términos de Qwen License
+
+### ❌ Uso Restringido
+
+- Actividades militares o de defensa
+- Vigilancia masiva o monitoreo de individuos
+- Generación de contenido malicioso o engañoso
+- Cualquier uso que viole leyes mexicanas o internacionales
+
+> **Nota**: Este fine-tune está sujeto tanto a la licencia MIT como a la licencia del modelo base Qwen 2.5.
+
+## ⚖️ Aviso Legal
+
+Este modelo es una herramienta de orientación jurídica general. **No sustituye la consulta con un abogado certificado.** Las respuestas no constituyen asesoría legal profesional. Para situaciones legales específicas, siempre consulta con un profesional del derecho.
+
+## 📚 Citas
+
+### Para citar este modelo:
+
+```bibtex
+@misc{asistente-juridico-mx-2025,
+    title        = {{Asistente Jurídico MX: Modelo de Lenguaje para Derecho Mexicano}},
+    author       = {Asistente Jurídico MX Team},
+    year         = 2025,
+    publisher    = {Hugging Face},
+    url          = {https://huggingface.co/ayaxrojo/scjn-tesis_v1},
+    howpublished = {\url{https://huggingface.co/ayaxrojo/scjn-tesis_v1}}
+}
+```
+
+### Frameworks:
+
+```bibtex
+@misc{vonwerra2022trl,
+    title        = {{TRL: Transformer Reinforcement Learning}},
+    author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching
+                    and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul
+                    and Quentin Gallouédec},
+    year         = 2020,
+    journal      = {GitHub repository},
+    publisher    = {GitHub},
+    howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```
+
+---
+
+**Repositorio**: https://huggingface.co/ayaxrojo/scjn-tesis_v1
+
+**Última actualización**: Marzo 2025