Resultados del piloto: IURI cubre el 87% de los puntos jurídicos de un abogado experto, no fabrica normas ni jurisprudencia, y produce documentos con razonamiento consistente en el 100% de los casos.
IURI es una herramienta de asistencia profesional. El documento generado es un borrador de alta cobertura argumentativa que el abogado revisa, ajusta y firma. El objetivo no es reemplazar el criterio profesional sino asistirlo.
Evaluamos la capacidad de IURI —el multiagente de redacción de documentos legales de Alt0— para generar escritos jurídicos completos a partir de solicitudes de abogados. La evaluación se realizó sobre casos judiciales reales del Patrocinio Jurídico Gratuito de la UBA, utilizando un marco de evaluación automatizado de 19 dimensiones. Las pruebas consistieron en un solo turno de generación: petición y respuesta.
Evaluar un documento legal no es como evaluar una traducción o un resumen. No existe una fuente de verdad única: frente a los mismos hechos, dos abogados competentes pueden producir escritos igualmente válidos con estructura, argumentos y estilo distintos. La contradicción argumentativa es, con frecuencia, parte central de la discusión jurídica.
Las métricas textuales tradicionales (ROUGE, BERTScore) son inadecuadas para contenidos jurídicos porque miden similitud de palabras, no conformidad ni pertinencia normativa. Necesitábamos un enfoque diferente.
Casos reales del Patrocinio Jurídico Gratuito de la UBA
Construimos un conjunto de datos a partir de 131 casos documentados en dos publicaciones académicas del Patrocinio Jurídico Gratuito de la Facultad de Derecho de la UBA (Prácticas profesionales sobre casos reales, ediciones 2015 y 2016-17). Estos no son casos hipotéticos: fueron litigados ante tribunales argentinos por equipos de estudiantes avanzados bajo supervisión docente, y tienen resolución conocida.
La premisa: si un abogado real argumentó ciertos puntos, citó ciertas normas y obtuvo un resultado favorable, entonces un generador competente debería cubrir esos mismos elementos ante hechos equivalentes.
| Componente | Qué contiene | De dónde proviene |
|---|---|---|
| Puntos jurídicos clave | 3 a 15 argumentos concretos y verificables que un documento ideal debería cubrir | Estrategia desplegada por el abogado real |
| Normas aplicables | Leyes, artículos, tratados internacionales pertinentes al caso | Identificadas en la estrategia y resolución |
| Resultado esperado | El objetivo procesal del documento (qué se busca obtener del tribunal) | Resolución obtenida en la causa real |
60 casos seleccionados de un corpus de 131, abarcando 5 ramas del derecho con el menor solapamiento temático posible.
Evaluación en un solo turno de generación, sin reintento
¿IURI incluye lo que un abogado experto incluyó en su estrategia real?
| Métrica | Resultado | Interpretación |
|---|---|---|
| Cobertura de puntos jurídicos | 86.8% | De cada 10 argumentos que el abogado real usó, IURI cubre ~9 |
| Citación de normas (explícita) | 31.2% | Normas citadas con artículo y ley explícitos |
| Citación de normas (amplia) | 56.7% | Incluyendo referencias conceptuales implícitas |
| Alineación de petitorio | 85% | El petitorio apunta al resultado esperado en la mayoría de los casos |
| Estructura documental | 61.7% | Presencia de las secciones estándar del escrito |
IURI demuestra alta cobertura de los argumentos sustantivos (86.8%) y buena alineación del petitorio (85%) en una única generación. La citación formal de normas es un área sensible: los documentos invocan los conceptos jurídicos correctos pero no siempre incluyen la cita formal artículo-ley, coherente con el diseño de IURI de no incluir referencias que no tenga como evidencia verificada.
¿Se puede confiar en lo que dice el documento? Criterio estricto: un único dato inconsistente marca el caso como "no cumple".
| Categoría | Tasa de cumplimiento | Detalle |
|---|---|---|
| Inferencias | 100% | Todas las conclusiones se derivan de las premisas del documento |
| Ausencia de normas fabricadas | 100% | Cero normas inventadas en todos los casos |
| Precisión factual | 87% | Documentos sin imprecisiones; ciertos casos con uso impreciso de fuentes verificadas |
¿El documento es internamente consistente y fluido?
| Categoría | Tasa de cumplimiento | Detalle |
|---|---|---|
| Coherencia | 79% | Documentos con datos fácticos internamente consistentes |
| Cohesión | 77% | Documentos con secciones argumentativas bien integradas al flujo del documento |
Los resultados más sólidos están en confiabilidad: IURI no inventa normas, no fabrica jurisprudencia, y sus conclusiones siguen sus premisas. Las áreas de mejora están en la consistencia interna de datos y en la integración del flujo argumentativo entre secciones —aspectos que el abogado ajusta naturalmente durante la revisión del borrador.
Tres ventajas estructurales del diseño multi-agente de IURI
IURI ancla sus citas normativas en fuentes autoritativas que efectivamente leyó durante la etapa de investigación, no en el conocimiento paramétrico del modelo.
Toda la jurisprudencia referenciada proviene de fuentes verificables con carátula, tribunal, fecha y texto completo.
El 100% de los documentos presenta inferencias válidas: las conclusiones se derivan de las premisas establecidas. No hay saltos argumentativos ni contradicciones manifiestas.
Los resultados anteriores corresponden a un único turno. El flujo de uso real contempla turnos sucesivos.
El abogado solicita reforzar argumentación, incorporar jurisprudencia adicional o reformular secciones. IURI analiza qué secciones modificar, busca jurisprudencia focalizada si es necesario, y modifica solo las secciones pertinentes preservando el resto.
El abogado selecciona un fragmento y da una instrucción de corrección: corregir un nombre, reformular un párrafo, cambiar el tono. La corrección se aplica directamente, sin búsqueda jurídica adicional ni regeneración del documento completo.
El abogado formula preguntas sobre jurisprudencia o normativa sin modificar el documento. IURI investiga y responde conversacionalmente, permitiendo al abogado evaluar si solicita una modificación.
Cada turno sucesivo es más rápido que la generación inicial. Esta dinámica iterativa permite que los resultados de cobertura y calidad mejoren progresivamente hasta alcanzar el estándar que el abogado necesita para firmar el escrito.
Probá IURI gratis y comprobalo vos mismo.
Expandí cada sección para ver la información completa.
Cada documento generado por IURI se evaluó mediante un método automatizado de dos sub-evaluaciones, cada una con un modelo de IA distinto y un objetivo específico:
Sub-evaluación 1 — Extracción factual
El evaluador recibe la matriz de evaluación y el documento generado, y verifica punto por punto: ¿cada argumento jurídico clave está presente? (completo/parcial/ausente), ¿cada norma aplicable está citada? (explícita/implícita/ausente), ¿el petitorio se alinea con el resultado esperado? Esta sub-evaluación mide cobertura (recall).
Sub-evaluación 2 — Verificación supervisada
El evaluador analiza el documento completo y ejecuta verificaciones "cumple/no cumple" con evidencia concreta en cinco categorías:
| Categoría | Qué detecta |
|---|---|
| Coherencia | Datos fácticos contradictorios dentro del documento |
| Cohesión | Secciones desconectadas entre sí |
| Inferencias | Conclusiones que contradicen las premisas del propio documento |
| Normas fabricadas | Leyes o artículos inventados citados como reales |
| Precisión factual | Jurisprudencia fabricada o hechos no verificados |
Protección contra falsos positivos
La arquitectura de IURI incluye una etapa de investigación donde busca jurisprudencia real en bases de datos autoritativas. El evaluador de Sub-evaluación 2 recibe el contenido completo de cada fuente consultada, lo que le permite distinguir citas válidas de fabricaciones. Sin este mecanismo, toda cita no verificable con conocimiento del evaluador sería marcada como alucinación.
| # | Dimensión | Tipo | Fuente |
|---|---|---|---|
| 1 | Cobertura de puntos jurídicos | 0-1 | Sub-eval 1 vs matriz |
| 2 | Citación de normas (explícita) | 0-1 | Sub-eval 1 vs matriz |
| 3 | Citación de normas (amplia) | 0-1 | Sub-eval 1 vs matriz |
| 4 | Alineación de petitorio | 0-3 | Sub-eval 1 vs matriz |
| 5 | Estructura documental | 0-1 | Sub-eval 1 vs convención |
| 6-7 | Coherencia (cumple + conteo) | sí/no + n | Sub-eval 2 |
| 8-9 | Cohesión (cumple + conteo) | sí/no + n | Sub-eval 2 |
| 10-11 | Inferencias (cumple + conteo) | sí/no + n | Sub-eval 2 |
| 12-13 | Normas fabricadas (cumple + conteo) | sí/no + n | Sub-eval 2 |
| 14-17 | Precisión factual (cumple + desglose) | sí/no + n | Sub-eval 2 |
| 18 | Extensión (palabras) | entero | Automática |
| 19 | Tiempo de generación | ms | Automática |
Las dimensiones 1-5 están ancladas en la matriz experta: el evaluador solo hace mapeo semántico, no juzga corrección. Las dimensiones 6-17 son verificaciones del evaluador LLM contra la matriz. Ambos grupos son complementarios: el primero mide cobertura contra la fuente de verdad; el segundo verifica consistencia interna y detecta alucinaciones.
Los casos con errores presentan un patrón común: IURI accede a fuentes reales y verificadas, pero no siempre las aplica con la precisión contextual que requiere el caso concreto. Los errores no son fabricaciones, sino aplicaciones imprecisas de fuentes legítimas. La arquitectura incluye mecanismos de filtrado y ponderación de relevancia que se refinan continuamente.
Principal área de mejora. El patrón dominante es la incorporación de contenido de fuentes verificadas que, si bien es jurídicamente correcto, no siempre es pertinente al caso concreto. IURI prioriza cobertura sobre concisión, produciendo borradores exhaustivos que el abogado puede recortar. La arquitectura incluye mecanismos de verificación de pertinencia e instrucciones de dependencia entre secciones.
En un 21% de los casos, el evaluador detectó datos internamente inconsistentes (por ejemplo, variaciones en la denominación del rol procesal de una parte). La arquitectura incorpora un registro centralizado de datos de las partes que cada sección recibe como contexto obligatorio.
Para dimensionar el comportamiento de IURI en materia de alucinaciones, se realizó un breve experimento comparativo (n=20) contra dos LLMs de propósito general líderes del mercado utilizando el mismo subconjunto de casos y marco de evaluación. Los resultados revelan una tensión estructural entre cobertura normativa y confiabilidad: el generador con mayor tasa de citación normativa (89.8%) fue también el que presentó mayor número de alucinaciones en la totalidad de los casos evaluados —fabricando jurisprudencia con carátulas, números de sala y fechas verosímiles, y citando artículos inexistentes. Este es el escenario de mayor riesgo para una aplicación legal: citas falsas con formato profesional que un abogado podría no detectar en una revisión rápida.
El segundo generador empleado de línea de base adoptó una estrategia conservadora, dejando datos vacantes (espacios vacíos) explícitos ante datos inciertos. IURI, por diseño, se ubica en este segundo paradigma: su arquitectura multi-agente separa búsqueda de generación, de modo que el redactor solo puede citar lo que el investigador efectivamente encontró en fuentes autoritativas. Las imprecisiones detectadas en IURI (§4.1) corresponden a aplicaciones contextualmente imprecisas de fuentes reales —no a fabricaciones— y son corregibles mediante mejoras en los índices de búsqueda sin modificar la arquitectura del generador.
El conjunto de datos se construyó a partir de dos publicaciones académicas del Patrocinio Jurídico Gratuito de la Facultad de Derecho de la UBA: Prácticas profesionales sobre casos reales (1ra edición, 2015; 2da edición, 2016-17). El corpus total comprende 131 casos, de los cuales 60 conforman este conjunto de evaluación.
Cada caso fue procesado en dos etapas: extracción determinística (Python, regex) para campos estructurados, y transformación semántica para generar pares solicitud-matriz. Los textos originales se preservan íntegros para trazabilidad.
El marco separa generación de evaluación. Fase A (Generación): IURI recibe la solicitud y produce el documento completo incluyendo búsqueda autónoma de jurisprudencia. Fase B (Evaluación): dos sub-evaluaciones independientes con modelos distintos. El modelo evaluador es distinto del modelo principal para evitar sesgo de auto-evaluación.
El marco se alinea con la taxonomía de Hu et al. (2026), Evaluation of Large Language Models in Legal Applications: Challenges, Methods, and Future Directions, que identifica tres dimensiones: Output Accuracy, Legal Reasoning y Trustworthiness.
| Dimensión (Hu et al.) | Nuestras métricas |
|---|---|
| Output Accuracy | Cobertura de puntos jurídicos, citación de normas, alineación de petitorio |
| Legal Reasoning | Coherencia, cohesión, inferencias |
| Trustworthiness | Normas fabricadas, precisión factual (alucinaciones) |