Alt0
23 de febrero de 2026

Evaluación sistemática de IURI sobre casos reales

Resultados del piloto: IURI cubre el 87% de los puntos jurídicos de un abogado experto, no fabrica normas ni jurisprudencia, y produce documentos con razonamiento consistente en el 100% de los casos.

87% cobertura de puntos jurídicos
100% inferencias válidas
0 normas o jurisprudencia fabricadas
6.2min tiempo promedio
60 casos reales evaluados
IURI es una herramienta de asistencia profesional. El documento generado es un borrador de alta cobertura argumentativa que el abogado revisa, ajusta y firma. El objetivo no es reemplazar el criterio profesional sino asistirlo.

Evaluamos la capacidad de IURI —el multiagente de redacción de documentos legales de Alt0— para generar escritos jurídicos completos a partir de solicitudes de abogados. La evaluación se realizó sobre casos judiciales reales del Patrocinio Jurídico Gratuito de la UBA, utilizando un marco de evaluación automatizado de 19 dimensiones. Las pruebas consistieron en un solo turno de generación: petición y respuesta.

¿Por qué es difícil evaluar IA legal?

Evaluar un documento legal no es como evaluar una traducción o un resumen. No existe una fuente de verdad única: frente a los mismos hechos, dos abogados competentes pueden producir escritos igualmente válidos con estructura, argumentos y estilo distintos. La contradicción argumentativa es, con frecuencia, parte central de la discusión jurídica.

Las métricas textuales tradicionales (ROUGE, BERTScore) son inadecuadas para contenidos jurídicos porque miden similitud de palabras, no conformidad ni pertinencia normativa. Necesitábamos un enfoque diferente.

Contra qué evaluamos

Casos reales del Patrocinio Jurídico Gratuito de la UBA

Construimos un conjunto de datos a partir de 131 casos documentados en dos publicaciones académicas del Patrocinio Jurídico Gratuito de la Facultad de Derecho de la UBA (Prácticas profesionales sobre casos reales, ediciones 2015 y 2016-17). Estos no son casos hipotéticos: fueron litigados ante tribunales argentinos por equipos de estudiantes avanzados bajo supervisión docente, y tienen resolución conocida.

La premisa: si un abogado real argumentó ciertos puntos, citó ciertas normas y obtuvo un resultado favorable, entonces un generador competente debería cubrir esos mismos elementos ante hechos equivalentes.

Componente Qué contiene De dónde proviene
Puntos jurídicos clave 3 a 15 argumentos concretos y verificables que un documento ideal debería cubrir Estrategia desplegada por el abogado real
Normas aplicables Leyes, artículos, tratados internacionales pertinentes al caso Identificadas en la estrategia y resolución
Resultado esperado El objetivo procesal del documento (qué se busca obtener del tribunal) Resolución obtenida en la causa real

Composición del conjunto de evaluación

60 casos seleccionados de un corpus de 131, abarcando 5 ramas del derecho con el menor solapamiento temático posible.

57% Familia
17% Civil y Comercial
13% Const./Amparo
10% Penal
3% Laboral

Resultados

Evaluación en un solo turno de generación, sin reintento

Cobertura de contenido jurídico

¿IURI incluye lo que un abogado experto incluyó en su estrategia real?

Métrica Resultado Interpretación
Cobertura de puntos jurídicos 86.8% De cada 10 argumentos que el abogado real usó, IURI cubre ~9
Citación de normas (explícita) 31.2% Normas citadas con artículo y ley explícitos
Citación de normas (amplia) 56.7% Incluyendo referencias conceptuales implícitas
Alineación de petitorio 85% El petitorio apunta al resultado esperado en la mayoría de los casos
Estructura documental 61.7% Presencia de las secciones estándar del escrito

IURI demuestra alta cobertura de los argumentos sustantivos (86.8%) y buena alineación del petitorio (85%) en una única generación. La citación formal de normas es un área sensible: los documentos invocan los conceptos jurídicos correctos pero no siempre incluyen la cita formal artículo-ley, coherente con el diseño de IURI de no incluir referencias que no tenga como evidencia verificada.

Confiabilidad

¿Se puede confiar en lo que dice el documento? Criterio estricto: un único dato inconsistente marca el caso como "no cumple".

Categoría Tasa de cumplimiento Detalle
Inferencias 100% Todas las conclusiones se derivan de las premisas del documento
Ausencia de normas fabricadas 100% Cero normas inventadas en todos los casos
Precisión factual 87% Documentos sin imprecisiones; ciertos casos con uso impreciso de fuentes verificadas

Calidad estructural

¿El documento es internamente consistente y fluido?

Categoría Tasa de cumplimiento Detalle
Coherencia 79% Documentos con datos fácticos internamente consistentes
Cohesión 77% Documentos con secciones argumentativas bien integradas al flujo del documento

Los resultados más sólidos están en confiabilidad: IURI no inventa normas, no fabrica jurisprudencia, y sus conclusiones siguen sus premisas. Las áreas de mejora están en la consistencia interna de datos y en la integración del flujo argumentativo entre secciones —aspectos que el abogado ajusta naturalmente durante la revisión del borrador.

6,180 palabras promedio
6.2 min tiempo de generación
7.8 fuentes verificadas por documento

Fortalezas de la arquitectura

Tres ventajas estructurales del diseño multi-agente de IURI

Cero normas fabricadas

IURI ancla sus citas normativas en fuentes autoritativas que efectivamente leyó durante la etapa de investigación, no en el conocimiento paramétrico del modelo.

Cero jurisprudencia fabricada

Toda la jurisprudencia referenciada proviene de fuentes verificables con carátula, tribunal, fecha y texto completo.

Razonamiento consistente

El 100% de los documentos presenta inferencias válidas: las conclusiones se derivan de las premisas establecidas. No hay saltos argumentativos ni contradicciones manifiestas.

Flujo iterativo

Los resultados anteriores corresponden a un único turno. El flujo de uso real contempla turnos sucesivos.

1

Mejoras argumentativas

El abogado solicita reforzar argumentación, incorporar jurisprudencia adicional o reformular secciones. IURI analiza qué secciones modificar, busca jurisprudencia focalizada si es necesario, y modifica solo las secciones pertinentes preservando el resto.

2

Correcciones puntuales

El abogado selecciona un fragmento y da una instrucción de corrección: corregir un nombre, reformular un párrafo, cambiar el tono. La corrección se aplica directamente, sin búsqueda jurídica adicional ni regeneración del documento completo.

3

Consultas sobre el caso

El abogado formula preguntas sobre jurisprudencia o normativa sin modificar el documento. IURI investiga y responde conversacionalmente, permitiendo al abogado evaluar si solicita una modificación.

Cada turno sucesivo es más rápido que la generación inicial. Esta dinámica iterativa permite que los resultados de cobertura y calidad mejoren progresivamente hasta alcanzar el estándar que el abogado necesita para firmar el escrito.

Probá IURI gratis y comprobalo vos mismo.

Para los que quieren más

Detalles técnicos

Expandí cada sección para ver la información completa.

Cada documento generado por IURI se evaluó mediante un método automatizado de dos sub-evaluaciones, cada una con un modelo de IA distinto y un objetivo específico:

Sub-evaluación 1 — Extracción factual

El evaluador recibe la matriz de evaluación y el documento generado, y verifica punto por punto: ¿cada argumento jurídico clave está presente? (completo/parcial/ausente), ¿cada norma aplicable está citada? (explícita/implícita/ausente), ¿el petitorio se alinea con el resultado esperado? Esta sub-evaluación mide cobertura (recall).

Sub-evaluación 2 — Verificación supervisada

El evaluador analiza el documento completo y ejecuta verificaciones "cumple/no cumple" con evidencia concreta en cinco categorías:

Categoría Qué detecta
CoherenciaDatos fácticos contradictorios dentro del documento
CohesiónSecciones desconectadas entre sí
InferenciasConclusiones que contradicen las premisas del propio documento
Normas fabricadasLeyes o artículos inventados citados como reales
Precisión factualJurisprudencia fabricada o hechos no verificados

Protección contra falsos positivos

La arquitectura de IURI incluye una etapa de investigación donde busca jurisprudencia real en bases de datos autoritativas. El evaluador de Sub-evaluación 2 recibe el contenido completo de cada fuente consultada, lo que le permite distinguir citas válidas de fabricaciones. Sin este mecanismo, toda cita no verificable con conocimiento del evaluador sería marcada como alucinación.

# Dimensión Tipo Fuente
1Cobertura de puntos jurídicos0-1Sub-eval 1 vs matriz
2Citación de normas (explícita)0-1Sub-eval 1 vs matriz
3Citación de normas (amplia)0-1Sub-eval 1 vs matriz
4Alineación de petitorio0-3Sub-eval 1 vs matriz
5Estructura documental0-1Sub-eval 1 vs convención
6-7Coherencia (cumple + conteo)sí/no + nSub-eval 2
8-9Cohesión (cumple + conteo)sí/no + nSub-eval 2
10-11Inferencias (cumple + conteo)sí/no + nSub-eval 2
12-13Normas fabricadas (cumple + conteo)sí/no + nSub-eval 2
14-17Precisión factual (cumple + desglose)sí/no + nSub-eval 2
18Extensión (palabras)enteroAutomática
19Tiempo de generaciónmsAutomática

Las dimensiones 1-5 están ancladas en la matriz experta: el evaluador solo hace mapeo semántico, no juzga corrección. Las dimensiones 6-17 son verificaciones del evaluador LLM contra la matriz. Ambos grupos son complementarios: el primero mide cobertura contra la fuente de verdad; el segundo verifica consistencia interna y detecta alucinaciones.

Precisión factual (87% de cumplimiento)

Los casos con errores presentan un patrón común: IURI accede a fuentes reales y verificadas, pero no siempre las aplica con la precisión contextual que requiere el caso concreto. Los errores no son fabricaciones, sino aplicaciones imprecisas de fuentes legítimas. La arquitectura incluye mecanismos de filtrado y ponderación de relevancia que se refinan continuamente.

Cohesión (77% de cumplimiento)

Principal área de mejora. El patrón dominante es la incorporación de contenido de fuentes verificadas que, si bien es jurídicamente correcto, no siempre es pertinente al caso concreto. IURI prioriza cobertura sobre concisión, produciendo borradores exhaustivos que el abogado puede recortar. La arquitectura incluye mecanismos de verificación de pertinencia e instrucciones de dependencia entre secciones.

Coherencia (79% de cumplimiento)

En un 21% de los casos, el evaluador detectó datos internamente inconsistentes (por ejemplo, variaciones en la denominación del rol procesal de una parte). La arquitectura incorpora un registro centralizado de datos de las partes que cada sección recibe como contexto obligatorio.

Contexto comparativo: alucinación en generadores de propósito general

Para dimensionar el comportamiento de IURI en materia de alucinaciones, se realizó un breve experimento comparativo (n=20) contra dos LLMs de propósito general líderes del mercado utilizando el mismo subconjunto de casos y marco de evaluación. Los resultados revelan una tensión estructural entre cobertura normativa y confiabilidad: el generador con mayor tasa de citación normativa (89.8%) fue también el que presentó mayor número de alucinaciones en la totalidad de los casos evaluados —fabricando jurisprudencia con carátulas, números de sala y fechas verosímiles, y citando artículos inexistentes. Este es el escenario de mayor riesgo para una aplicación legal: citas falsas con formato profesional que un abogado podría no detectar en una revisión rápida.

El segundo generador empleado de línea de base adoptó una estrategia conservadora, dejando datos vacantes (espacios vacíos) explícitos ante datos inciertos. IURI, por diseño, se ubica en este segundo paradigma: su arquitectura multi-agente separa búsqueda de generación, de modo que el redactor solo puede citar lo que el investigador efectivamente encontró en fuentes autoritativas. Las imprecisiones detectadas en IURI (§4.1) corresponden a aplicaciones contextualmente imprecisas de fuentes reales —no a fabricaciones— y son corregibles mediante mejoras en los índices de búsqueda sin modificar la arquitectura del generador.

Tamaño de muestra: Este piloto de 60 casos es la primera etapa de una evaluación progresiva sobre el conjunto de datos completo y sobre nuevos casos que se están diseñando con expertos legales. Las métricas fueron producidas de manera automática.
Evaluador LLM: Las métricas de calidad interna dependen del criterio de un modelo de IA como evaluador.
Sesgo del corpus: Los casos provienen del Patrocinio Jurídico Gratuito de la UBA, que atiende a personas en situación de vulnerabilidad. Esto sesga la muestra hacia derecho de familia, amparos y derechos sociales, con menor representación de derecho comercial o societario.

Fuentes y construcción del conjunto de datos

El conjunto de datos se construyó a partir de dos publicaciones académicas del Patrocinio Jurídico Gratuito de la Facultad de Derecho de la UBA: Prácticas profesionales sobre casos reales (1ra edición, 2015; 2da edición, 2016-17). El corpus total comprende 131 casos, de los cuales 60 conforman este conjunto de evaluación.

Cada caso fue procesado en dos etapas: extracción determinística (Python, regex) para campos estructurados, y transformación semántica para generar pares solicitud-matriz. Los textos originales se preservan íntegros para trazabilidad.

Arquitectura del marco de evaluación

El marco separa generación de evaluación. Fase A (Generación): IURI recibe la solicitud y produce el documento completo incluyendo búsqueda autónoma de jurisprudencia. Fase B (Evaluación): dos sub-evaluaciones independientes con modelos distintos. El modelo evaluador es distinto del modelo principal para evitar sesgo de auto-evaluación.

Controles de calidad del evaluador

  • Separación de modelos: el modelo evaluador es distinto del modelo principal de IURI.
  • Evaluación ciega: el evaluador recibe el documento sin saber qué generador lo produjo.
  • Revisión manual: toda alucinación reportada fue verificada manualmente contra las fuentes.
  • Fuentes completas: el evaluador recibe el texto íntegro de cada fuente consultada.

Marco teórico

El marco se alinea con la taxonomía de Hu et al. (2026), Evaluation of Large Language Models in Legal Applications: Challenges, Methods, and Future Directions, que identifica tres dimensiones: Output Accuracy, Legal Reasoning y Trustworthiness.

Dimensión (Hu et al.) Nuestras métricas
Output AccuracyCobertura de puntos jurídicos, citación de normas, alineación de petitorio
Legal ReasoningCoherencia, cohesión, inferencias
TrustworthinessNormas fabricadas, precisión factual (alucinaciones)