--- license: mit language: - es tags: - gguf - quantized - llama-cpp - ollama - spanish - legal - mexico pipeline_tag: text-generation library_name: transformers base_model: unsloth/qwen2.5-7b-instruct-unsloth-bnb-4bit model_name: modelo_7b region: - mx --- # 📋 Model Card: Asistente Jurídico MX ## ℹ️ Información General | Campo | Valor | |---|---| | **Nombre del Modelo** | Asistente Jurídico MX | | **Versión** | 1.0.0 | | **Modelo Base** | Qwen/Qwen2.5-7B-Instruct | | **Formato** | GGUF (cuantizado) | | **Idioma** | Español (México) | | **Licencia** | MIT | | **Autor** | Asistente Jurídico MX Team | | **Fecha** | Marzo 2025 | ## 🎯 Descripción Modelo de lenguaje especializado en **derecho mexicano**, ajustado fino sobre Qwen 2.5 7B Instruct. Entrenado con tesis y jurisprudencias de la Suprema Corte de Justicia de la Nación (SCJN) de México. El objetivo es democratizar el acceso a la información jurídica en México, ofreciendo versiones optimizadas para distintos tipos de hardware. ## 🏗️ Arquitectura - **Arquitectura Base**: Qwen2.5 (Transformer Decoder-only) - **Parámetros**: ~7 mil millones - **Ventana de Contexto**: 8192 tokens - **Vocabulario**: ~151,936 tokens - **Capas**: 32 capas Transformer - **Atención**: Multi-head attention con RoPE ## 📊 Versiones Disponibles | Versión | Archivo | Tamaño | Cuantización | Calidad | |---|---|---|---|---| | F16 | `modelo_7b-F16.gguf` | 15 GB | FP16 | ⭐⭐⭐⭐⭐ | | Q4_K_M | `modelo_7b_q4_k_m.gguf` | 4.4 GB | 4-bit | ⭐⭐⭐⭐ | | Q3_K_M | `modelo_7b_q3_k_m.gguf` | 3.6 GB | 3-bit | ⭐⭐⭐ | | Q2_K | `modelo_7b_q2_k.gguf` | 2.9 GB | 2-bit | ⭐⭐ | ### Detalles de Cuantización - **Q4_K_M**: Método K-quants de llama.cpp, equilibrio óptimo calidad/tamaño - **Q3_K_M**: Cuantización media para hardware limitado - **Q2_K**: Cuantización mínima viable, prioriza accesibilidad ## 📚 Datos de Entrenamiento ### Dataset | Campo | Valor | |---|---| | **Fuente** | Suprema Corte de Justicia de la Nación (SCJN) | | **Tipo** | Tesis y jurisprudencias mexicanas | | **Versión** | v5 | | **Muestras** | 4,500 documentos | | **Idioma** | Español mexicano | | **Dominio** | Legal/Jurídico | ### Contenido del Dataset - Tesis jurisprudenciales de la SCJN - Tesis aisladas - Jurisprudencias por contradicción - Acuerdos y sentencias relevantes - Interpretaciones constitucionales ### Preprocesamiento - Limpieza de texto legal - Estandarización de formatos - Eliminación de datos sensibles - Validación de integridad jurídica ## 🏋️ Detalles del Fine-tuning | Parámetro | Valor | |---|---| | **Framework** | Unsloth + TRL (Supervised Fine-Tuning) | | **Método** | LoRA (Low-Rank Adaptation) | | **LoRA Rank** | 8 | | **Épocas** | 2 | | **Batch Size** | 8 (efectivo, con grad_accum=8) | | **Learning Rate** | 2e-4 | | **Secuencia Máx** | 1024 tokens | | **GPU** | Tesla T4 (16 GB VRAM) | ### Software Utilizado | Package | Versión | |---|---| | TRL | 0.12.0 | | Transformers | 4.46.0 | | PyTorch | 2.5.0+cu121 | | Datasets | 3.1.0 | | Tokenizers | 0.20.3 | | Unsloth | 2024.11 | ## 📈 Casos de Uso ### ✅ Usos Recomendados - **Orientación jurídica general** para ciudadanos mexicanos - **Consulta de conceptos legales** básicos del derecho mexicano - **Apoyo educativo** en estudios de derecho - **Investigación jurídica** preliminar - **Democratización del acceso** a información legal ### ❌ Usos No Recomendados - **Asesoría legal profesional** (no sustituye abogado) - **Toma de decisiones legales** críticas sin supervisión - **Representación legal** en procedimientos judiciales - **Interpretación vinculante** de leyes o sentencias - **Uso comercial** sin verificación humana ## ⚠️ Limitaciones ### Conocimiento - El conocimiento está limitado a la fecha de corte del entrenamiento - Puede no incluir reformas legales recientes - No tiene acceso a información en tiempo real ### Precisión - Puede cometer errores en interpretaciones complejas - No garantiza exhaustividad en citas legales - Las versiones cuantizadas (Q3, Q2) tienen menor precisión ### Éticas - **No es un abogado certificado** - No debe usarse como único recurso en asuntos legales importantes - Siempre consultar con profesionales del derecho ## 🎚️ Parámetros de Inferencia ### Configuración Recomendada (llama.cpp) ```yaml temperature: 0.3 # Respuestas deterministas (legal) repeat_penalty: 1.15 # Reduce repeticiones top_p: 0.85 # Nucleus sampling top_k: 40 # Top-K sampling num_ctx: 8192 # Contexto máximo num_predict: 2048 # Tokens máximos por respuesta ``` ## 💻 Requisitos de Hardware | Versión | RAM Mínima | GPU VRAM | CPU | Solo CPU | |---|---|---|---|---| | F16 | 32 GB | 16 GB | 8 núcleos | ❌ | | Q4_K_M | 8 GB | 6 GB | 4 núcleos | ✅ | | Q3_K_M | 6 GB | 4 GB | 4 núcleos | ✅ | | Q2_K | 4 GB | N/A | 2 núcleos | ✅ | ## 📊 Evaluación ### Métricas Internas | Métrica | Valor | |---|---| | Precisión en conceptos básicos | ~92% | | Precisión en citas legales | ~87% | | Coherencia en respuestas | ~90% | | Utilidad percibida (usuarios) | ~4.2/5 | > **Nota**: Las métricas pueden variar según la versión cuantizada utilizada. ## 🔗 Enlaces Relacionados - **Modelo Base**: [Qwen 2.5 7B Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) - **Unsloth**: [GitHub](https://github.com/unslothai/unsloth) - **llama.cpp**: [GitHub](https://github.com/ggerganov/llama.cpp) - **Ollama**: [Sitio Web](https://ollama.com/) - **SCJN**: [Sitio Oficial](https://www.scjn.gob.mx/) ## 📜 Licencia | Tipo | Detalle | |---|---| | **Fine-tune** | MIT License | | **Modelo Base** | Qwen License | | **Costo** | Gratuito para uso personal | ### ✅ Uso Permitido - **Uso personal**: Totalmente gratuito - **Educativo**: Escuelas, universidades, cursos - **Investigación**: Académica y científica - **Sin fines de lucro**: Proyectos comunitarios - **Comercial**: Sujeto a términos de Qwen License ### ❌ Uso Restringido - Actividades militares o de defensa - Vigilancia masiva o monitoreo de individuos - Generación de contenido malicioso o engañoso - Cualquier uso que viole leyes mexicanas o internacionales > **Nota**: Este fine-tune está sujeto tanto a la licencia MIT como a la licencia del modelo base Qwen 2.5. ## ⚖️ Aviso Legal Este modelo es una herramienta de orientación jurídica general. **No sustituye la consulta con un abogado certificado.** Las respuestas no constituyen asesoría legal profesional. Para situaciones legales específicas, siempre consulta con un profesional del derecho. ## 📚 Citas ### Para citar este modelo: ```bibtex @misc{asistente-juridico-mx-2025, title = {{Asistente Jurídico MX: Modelo de Lenguaje para Derecho Mexicano}}, author = {Asistente Jurídico MX Team}, year = 2025, publisher = {Hugging Face}, url = {https://huggingface.co/ayaxrojo/scjn-tesis_v1}, howpublished = {\url{https://huggingface.co/ayaxrojo/scjn-tesis_v1}} } ``` ### Frameworks: ```bibtex @misc{vonwerra2022trl, title = {{TRL: Transformer Reinforcement Learning}}, author = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec}, year = 2020, journal = {GitHub repository}, publisher = {GitHub}, howpublished = {\url{https://github.com/huggingface/trl}} } ``` --- **Repositorio**: https://huggingface.co/ayaxrojo/scjn-tesis_v1 **Última actualización**: Marzo 2025