Files
scjn-tesis_v1/MODELCARD.md
ModelHub XC b0e73eae3f 初始化项目,由ModelHub XC社区提供模型
Model: ayaxrojo/scjn-tesis_v1
Source: Original Platform
2026-06-17 22:03:20 +08:00

7.6 KiB
Raw Blame History

license, language, tags, pipeline_tag, library_name, base_model, model_name, region
license language tags pipeline_tag library_name base_model model_name region
mit
es
gguf
quantized
llama-cpp
ollama
spanish
legal
mexico
text-generation transformers unsloth/qwen2.5-7b-instruct-unsloth-bnb-4bit modelo_7b
mx

📋 Model Card: Asistente Jurídico MX

Información General

Campo Valor
Nombre del Modelo Asistente Jurídico MX
Versión 1.0.0
Modelo Base Qwen/Qwen2.5-7B-Instruct
Formato GGUF (cuantizado)
Idioma Español (México)
Licencia MIT
Autor Asistente Jurídico MX Team
Fecha Marzo 2025

🎯 Descripción

Modelo de lenguaje especializado en derecho mexicano, ajustado fino sobre Qwen 2.5 7B Instruct. Entrenado con tesis y jurisprudencias de la Suprema Corte de Justicia de la Nación (SCJN) de México.

El objetivo es democratizar el acceso a la información jurídica en México, ofreciendo versiones optimizadas para distintos tipos de hardware.

🏗️ Arquitectura

  • Arquitectura Base: Qwen2.5 (Transformer Decoder-only)
  • Parámetros: ~7 mil millones
  • Ventana de Contexto: 8192 tokens
  • Vocabulario: ~151,936 tokens
  • Capas: 32 capas Transformer
  • Atención: Multi-head attention con RoPE

📊 Versiones Disponibles

Versión Archivo Tamaño Cuantización Calidad
F16 modelo_7b-F16.gguf 15 GB FP16
Q4_K_M modelo_7b_q4_k_m.gguf 4.4 GB 4-bit
Q3_K_M modelo_7b_q3_k_m.gguf 3.6 GB 3-bit
Q2_K modelo_7b_q2_k.gguf 2.9 GB 2-bit

Detalles de Cuantización

  • Q4_K_M: Método K-quants de llama.cpp, equilibrio óptimo calidad/tamaño
  • Q3_K_M: Cuantización media para hardware limitado
  • Q2_K: Cuantización mínima viable, prioriza accesibilidad

📚 Datos de Entrenamiento

Dataset

Campo Valor
Fuente Suprema Corte de Justicia de la Nación (SCJN)
Tipo Tesis y jurisprudencias mexicanas
Versión v5
Muestras 4,500 documentos
Idioma Español mexicano
Dominio Legal/Jurídico

Contenido del Dataset

  • Tesis jurisprudenciales de la SCJN
  • Tesis aisladas
  • Jurisprudencias por contradicción
  • Acuerdos y sentencias relevantes
  • Interpretaciones constitucionales

Preprocesamiento

  • Limpieza de texto legal
  • Estandarización de formatos
  • Eliminación de datos sensibles
  • Validación de integridad jurídica

🏋️ Detalles del Fine-tuning

Parámetro Valor
Framework Unsloth + TRL (Supervised Fine-Tuning)
Método LoRA (Low-Rank Adaptation)
LoRA Rank 8
Épocas 2
Batch Size 8 (efectivo, con grad_accum=8)
Learning Rate 2e-4
Secuencia Máx 1024 tokens
GPU Tesla T4 (16 GB VRAM)

Software Utilizado

Package Versión
TRL 0.12.0
Transformers 4.46.0
PyTorch 2.5.0+cu121
Datasets 3.1.0
Tokenizers 0.20.3
Unsloth 2024.11

📈 Casos de Uso

Usos Recomendados

  • Orientación jurídica general para ciudadanos mexicanos
  • Consulta de conceptos legales básicos del derecho mexicano
  • Apoyo educativo en estudios de derecho
  • Investigación jurídica preliminar
  • Democratización del acceso a información legal

Usos No Recomendados

  • Asesoría legal profesional (no sustituye abogado)
  • Toma de decisiones legales críticas sin supervisión
  • Representación legal en procedimientos judiciales
  • Interpretación vinculante de leyes o sentencias
  • Uso comercial sin verificación humana

⚠️ Limitaciones

Conocimiento

  • El conocimiento está limitado a la fecha de corte del entrenamiento
  • Puede no incluir reformas legales recientes
  • No tiene acceso a información en tiempo real

Precisión

  • Puede cometer errores en interpretaciones complejas
  • No garantiza exhaustividad en citas legales
  • Las versiones cuantizadas (Q3, Q2) tienen menor precisión

Éticas

  • No es un abogado certificado
  • No debe usarse como único recurso en asuntos legales importantes
  • Siempre consultar con profesionales del derecho

🎚️ Parámetros de Inferencia

Configuración Recomendada (llama.cpp)

temperature: 0.3      # Respuestas deterministas (legal)
repeat_penalty: 1.15  # Reduce repeticiones
top_p: 0.85          # Nucleus sampling
top_k: 40            # Top-K sampling
num_ctx: 8192        # Contexto máximo
num_predict: 2048    # Tokens máximos por respuesta

💻 Requisitos de Hardware

Versión RAM Mínima GPU VRAM CPU Solo CPU
F16 32 GB 16 GB 8 núcleos
Q4_K_M 8 GB 6 GB 4 núcleos
Q3_K_M 6 GB 4 GB 4 núcleos
Q2_K 4 GB N/A 2 núcleos

📊 Evaluación

Métricas Internas

Métrica Valor
Precisión en conceptos básicos ~92%
Precisión en citas legales ~87%
Coherencia en respuestas ~90%
Utilidad percibida (usuarios) ~4.2/5

Nota: Las métricas pueden variar según la versión cuantizada utilizada.

🔗 Enlaces Relacionados

📜 Licencia

Tipo Detalle
Fine-tune MIT License
Modelo Base Qwen License
Costo Gratuito para uso personal

Uso Permitido

  • Uso personal: Totalmente gratuito
  • Educativo: Escuelas, universidades, cursos
  • Investigación: Académica y científica
  • Sin fines de lucro: Proyectos comunitarios
  • Comercial: Sujeto a términos de Qwen License

Uso Restringido

  • Actividades militares o de defensa
  • Vigilancia masiva o monitoreo de individuos
  • Generación de contenido malicioso o engañoso
  • Cualquier uso que viole leyes mexicanas o internacionales

Nota: Este fine-tune está sujeto tanto a la licencia MIT como a la licencia del modelo base Qwen 2.5.

Este modelo es una herramienta de orientación jurídica general. No sustituye la consulta con un abogado certificado. Las respuestas no constituyen asesoría legal profesional. Para situaciones legales específicas, siempre consulta con un profesional del derecho.

📚 Citas

Para citar este modelo:

@misc{asistente-juridico-mx-2025,
    title        = {{Asistente Jurídico MX: Modelo de Lenguaje para Derecho Mexicano}},
    author       = {Asistente Jurídico MX Team},
    year         = 2025,
    publisher    = {Hugging Face},
    url          = {https://huggingface.co/ayaxrojo/scjn-tesis_v1},
    howpublished = {\url{https://huggingface.co/ayaxrojo/scjn-tesis_v1}}
}

Frameworks:

@misc{vonwerra2022trl,
    title        = {{TRL: Transformer Reinforcement Learning}},
    author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching
                    and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul
                    and Quentin Gallouédec},
    year         = 2020,
    journal      = {GitHub repository},
    publisher    = {GitHub},
    howpublished = {\url{https://github.com/huggingface/trl}}
}

Repositorio: https://huggingface.co/ayaxrojo/scjn-tesis_v1

Última actualización: Marzo 2025