← Todos los artículos

PrezEval: Evaluación comparativa de agentes de IA en diapositivas profesionales

6 de abril de 2026 · 7 min de lectura

Objetivo

¿Qué tan bien puede un agente de IA reproducir diapositivas de consultoría profesional a partir de una guía visual?

Después de construir Verso, hemos llegado a la convicción de que nuestro enfoque produce resultados muy superiores a los demás.

Pero pongámosle números a eso.

PrezEval es un benchmark que mide exactamente esto. Dado un imagen de diapositiva objetivo y la presentación fuente original (con el diseño correcto preseleccionado), un agente debe editar la diapositiva para que coincida lo más posible con el objetivo. Luego, un modelo de visión-lenguaje puntúa el resultado comparando estructura, contenido, jerarquía y estilo.

Esta tarea es engañosamente difícil. Las diapositivas de consultoría reales son artefactos densos y precisos: una leyenda de gráfico mal alineada, una etiqueta de eje faltante, o un color incorrecto en una celda de mapa de calor se cuentan como fallos. El benchmark no solo prueba si un agente puede escribir texto en una diapositiva, sino si puede manejar gráficos, tablas, formas personalizadas, diseños de múltiples columnas y estilo específico de marca, todo al mismo tiempo.

Construcción del benchmark

Material fuente

Seleccionamos cuidadosamente 61 diapositivas de 10 presentaciones profesionales que abarcan las principales firmas de consultoría y asesoría: McKinsey, Bain, BCG, PwC, EY y Deloitte, así como los despachos de abogados Cleary Gottlieb y Mattos Filho. Estos son documentos del mundo real que cubren temas que van desde economía de la salud hasta transiciones energéticas y regulación de privacidad del consumidor.

Las diapositivas fueron seleccionadas para maximizar la complejidad visual y la diversidad de elementos. Esto es lo que contiene el benchmark:

ElementoDiapositivasProporción
Gráficos (barras, líneas, circular, combo…)3354%
Diseños de múltiples columnas2439%
Logotipos e iconos17*28%
Tablas1423%
Diseños de texto denso1321%
Diagramas complejos / líneas de tiempo813%
Mapas58%
Formas compuestas personalizadas35%

*Contando únicamente iconos ilustrativos sustanciales, no logotipos de empresas (que aparecen en ~45 diapositivas).

Lo que lo hace difícil

Configuración de las tareas

Para cada una de las 61 tareas, el agente recibe:

El agente edita entonces la diapositiva mediante llamadas a herramientas, y el resultado final se renderiza como PNG y es puntuado por un evaluador de modelo de visión-lenguaje. El evaluador califica cada resultado en una escala entera de 1 a 5, ya que las investigaciones muestran que una escala entera compacta maximiza la alineación humano-LLM en configuraciones de LLM-como-juez. Luego convertimos las calificaciones a una puntuación de 0-100% para facilitar la lectura.

Resultados

Comparamos tres configuraciones:

ConfiguraciónPuntuaciónTiempoPasosTareas
Verso Medium49,6%207,7s8,861/61
Verso Fast38,9%157,5s9,561/61
Claude for Powerpoint36,5%176,5s11,661/61

Verso Medium obtiene la puntuación más alta con un 49,6%: la mayoría de las reproducciones capturan la estructura y el contenido correctos, pero presentan diferencias notables en estilo o posicionamiento.

Verso Fast sacrifica precisión por velocidad, completando las tareas un 24% más rápido con una puntuación de 38,9%. Curiosamente, utiliza más pasos en promedio (9,5 frente a 8,8), lo que sugiere que el modelo más pequeño realiza más acciones exploratorias.

Claude for Powerpoint obtiene un 36,5% a pesar de utilizar el mayor número de pasos (11,6) y significativamente más capacidad de cómputo.

Desglose de puntuación por tipo de contenido

El desglose de las puntuaciones según el contenido de cada diapositiva revela patrones claros:

Tipo de contenidoVerso MediumClaude for PPT
Texto denso66,8%48,3%
Diapositivas sin gráfico63,5%44,8%
Tablas48,3%38,3%
Diagramas47,3%25,0%
Gráficos38,0%29,5%
Mapas12,5%12,5%
Total49,5%36,5%

Las diapositivas con mucho texto son la categoría más fácil, mientras que los mapas son la más difícil (igual de malos para ambos agentes). Los gráficos, que representan el 54% del benchmark, reducen significativamente la puntuación general.

Dónde Verso destaca

Verso obtiene sistemáticamente buenas puntuaciones en diapositivas de texto estructurado: texto legal formateado, diseños de múltiples secciones con cuadros de colores, páginas estilo índice de contenidos y diseños de iconos en múltiples columnas. En estos casos, tanto Verso Medium como Verso Fast logran puntuaciones casi perfectas (75-100%), mientras que Claude for Powerpoint suele quedar significativamente por detrás.

Lo que sigue siendo difícil

Aproximadamente el 20% del benchmark está esencialmente sin resolver: los tres agentes obtienen un 25% o menos. Los modos de fallo más comunes son:

Dónde Verso aún tiene margen de mejora

En aproximadamente 15 tareas, las variantes de Verso siguen teniendo dificultades (puntuando 25% o menos). Estas tienden a ser diapositivas con grandes cuadrículas estructuradas, logotipos de marca incrustados en gráficos o elementos decorativos. Esto sugiere oportunidades específicas para mejorar el manejo de Verso en estos patrones.

Todos los resultados, incluidas las imágenes generadas frente a las de referencia por tarea y las críticas del evaluador, están disponibles en el repositorio de PrezEval.