← Tous les articles

PrezEval : évaluer les agents IA sur des slides professionnelles

6 avril 2026 · 8 min de lecture

Objectif

Dans quelle mesure un agent IA est-il capable de reproduire des slides de conseil professionnel à partir d’une guidance visuelle ?

Après avoir développé Verso, nous sommes convaincus que notre approche produit des résultats nettement supérieurs à ceux des autres solutions.

Mais mettons des chiffres dessus.

PrezEval est un benchmark qui mesure exactement cela. Étant donné une image de slide cible et la présentation source d’origine (avec la mise en page correcte présélectionnée), un agent doit modifier la slide pour qu’elle corresponde le plus fidèlement possible à la cible. Un modèle de langage multimodal évalue ensuite le résultat en comparant la structure, le contenu, la hiérarchie et le style.

Cette tâche est trompeusement difficile. Les slides de conseil réelles sont des artefacts denses et précis : une légende de graphique mal alignée, un intitulé d’axe manquant ou une couleur incorrecte dans une cellule de heatmap sont autant d’échecs. Le benchmark ne teste pas seulement si un agent peut écrire du texte sur une slide, mais s’il est capable de gérer des graphiques, des tableaux, des formes personnalisées, des mises en page multi-colonnes et un style aux couleurs de la marque, le tout simultanément.

Construction du benchmark

Matériau source

Nous avons sélectionné 61 slides issues de 10 présentations professionnelles couvrant les grands cabinets de conseil et d’audit : McKinsey, Bain, BCG, PwC, EY et Deloitte, ainsi que les cabinets juridiques Cleary Gottlieb et Mattos Filho. Il s’agit de présentations réelles traitant de sujets allant de l’économie de la santé aux transitions énergétiques, en passant par la réglementation sur la confidentialité des données.

Les slides ont été sélectionnées pour maximiser la complexité visuelle et la diversité des éléments. Voici ce que contient le benchmark :

ÉlémentSlidesPart
Graphiques (barres, lignes, camembert…)3354 %
Mises en page multi-colonnes2439 %
Logos et icônes17*28 %
Tableaux1423 %
Mises en page à texte dense1321 %
Diagrammes complexes / chronologies813 %
Cartes58 %
Formes composites personnalisées35 %

*Ne comptant que les icônes illustratives substantielles, sans les logos d’entreprise (présents sur environ 45 slides).

Ce qui le rend difficile

Paramétrage des tâches

Pour chacune des 61 tâches, l’agent reçoit :

L’agent modifie ensuite la slide via des appels d’outils, et le résultat final est rendu en PNG puis évalué par un modèle de langage multimodal. L’évaluateur note chaque résultat sur une échelle entière de 1 à 5, car des recherches montrent qu’une échelle entière compacte maximise l’alignement humain-LLM dans les configurations LLM-as-a-judge. Nous convertissons ensuite les notes en score de 0 à 100 % pour plus de lisibilité.

Résultats

Nous avons comparé trois configurations :

ConfigurationScoreTempsÉtapesTâches
Verso Medium49,6 %207,7 s8,861/61
Verso Fast38,9 %157,5 s9,561/61
Claude for Powerpoint36,5 %176,5 s11,661/61

Verso Medium obtient le score le plus élevé avec 49,6 % : la plupart des reproductions capturent la bonne structure et le bon contenu, mais présentent des différences notables dans le style ou le positionnement.

Verso Fast sacrifie la précision au profit de la vitesse, en complétant les tâches 24 % plus rapidement tout en atteignant un score de 38,9 %. Fait intéressant, il utilise davantage d’étapes en moyenne (9,5 contre 8,8), ce qui suggère que le modèle plus léger effectue davantage d’actions exploratoires.

Claude for Powerpoint obtient un score de 36,5 % malgré l’utilisation du plus grand nombre d’étapes (11,6) et d’une puissance de calcul significativement supérieure.

Décomposition des scores par type de contenu

La décomposition des scores selon le contenu des slides révèle des tendances claires :

Type de contenuVerso MediumClaude for PPT
Texte dense66,8 %48,3 %
Slides sans graphique63,5 %44,8 %
Tableaux48,3 %38,3 %
Diagrammes47,3 %25,0 %
Graphiques38,0 %29,5 %
Cartes12,5 %12,5 %
Global49,5 %36,5 %

Les slides à forte densité textuelle constituent la catégorie la plus facile, tandis que les cartes sont les plus difficiles (également mauvaises pour les deux agents). Les graphiques, qui représentent 54 % du benchmark, tirent considérablement le score global vers le bas.

Là où Verso excelle

Verso obtient systématiquement de bons scores sur les slides à texte structuré : texte juridique mis en forme, mises en page multi-sections avec encadrés colorés, pages de type table des matières et mises en page multi-colonnes avec icônes. Sur ces éléments, Verso Medium et Verso Fast obtiennent tous deux des scores quasi parfaits (75–100 %), tandis que Claude for Powerpoint reste généralement bien en deçà.

Ce qui reste difficile

Environ 20 % du benchmark est pour ainsi dire non résolu : les trois agents y obtiennent un score de 25 % ou moins. Les modes d’échec récurrents sont :

Là où Verso a encore des marges de progression

Sur une quinzaine de tâches, les variantes Verso peinent encore (score de 25 % ou moins). Il s’agit généralement de slides comportant de grandes grilles structurées, des logos de marque intégrés dans des graphiques ou des éléments décoratifs. Cela suggère des axes d’amélioration spécifiques pour la gestion de ces types de contenu par Verso.

Tous les résultats, y compris les images générées et de référence par tâche ainsi que les critiques de l’évaluateur, sont disponibles dans le dépôt PrezEval.