Objectif
Dans quelle mesure un agent IA est-il capable de reproduire des slides de conseil professionnel à partir d’une guidance visuelle ?
Après avoir développé Verso, nous sommes convaincus que notre approche produit des résultats nettement supérieurs à ceux des autres solutions.
Mais mettons des chiffres dessus.
PrezEval est un benchmark qui mesure exactement cela. Étant donné une image de slide cible et la présentation source d’origine (avec la mise en page correcte présélectionnée), un agent doit modifier la slide pour qu’elle corresponde le plus fidèlement possible à la cible. Un modèle de langage multimodal évalue ensuite le résultat en comparant la structure, le contenu, la hiérarchie et le style.
Cette tâche est trompeusement difficile. Les slides de conseil réelles sont des artefacts denses et précis : une légende de graphique mal alignée, un intitulé d’axe manquant ou une couleur incorrecte dans une cellule de heatmap sont autant d’échecs. Le benchmark ne teste pas seulement si un agent peut écrire du texte sur une slide, mais s’il est capable de gérer des graphiques, des tableaux, des formes personnalisées, des mises en page multi-colonnes et un style aux couleurs de la marque, le tout simultanément.
Construction du benchmark
Matériau source
Nous avons sélectionné 61 slides issues de 10 présentations professionnelles couvrant les grands cabinets de conseil et d’audit : McKinsey, Bain, BCG, PwC, EY et Deloitte, ainsi que les cabinets juridiques Cleary Gottlieb et Mattos Filho. Il s’agit de présentations réelles traitant de sujets allant de l’économie de la santé aux transitions énergétiques, en passant par la réglementation sur la confidentialité des données.
Les slides ont été sélectionnées pour maximiser la complexité visuelle et la diversité des éléments. Voici ce que contient le benchmark :
| Élément | Slides | Part |
|---|---|---|
| Graphiques (barres, lignes, camembert…) | 33 | 54 % |
| Mises en page multi-colonnes | 24 | 39 % |
| Logos et icônes | 17* | 28 % |
| Tableaux | 14 | 23 % |
| Mises en page à texte dense | 13 | 21 % |
| Diagrammes complexes / chronologies | 8 | 13 % |
| Cartes | 5 | 8 % |
| Formes composites personnalisées | 3 | 5 % |
*Ne comptant que les icônes illustratives substantielles, sans les logos d’entreprise (présents sur environ 45 slides).
Ce qui le rend difficile
- Diversité des styles. Chaque cabinet source possède sa propre identité visuelle : palettes de couleurs, choix de polices, conventions de mise en page. L’agent ne peut pas s’appuyer sur un seul modèle : il doit s’adapter à 10 systèmes de design différents répartis sur 21 mises en page de slides distinctes.
- Les graphiques dominent. Plus de la moitié des slides contiennent au moins un graphique : barres empilées, graphiques combinés à double axe, matrices de heatmap, graphiques en aires. Reproduire un graphique implique d’obtenir correctement les valeurs de données, les intitulés d’axes, les légendes, les couleurs et le positionnement.
- Les mises en page sont complexes. 39 % des slides utilisent des mises en page multi-colonnes où le contenu doit être placé avec précision. Une slide McKinsey peut comporter un graphique à barres à gauche, une liste à puces à droite et une barre de notes de bas de page en dessous — le tout dans un modèle aux couleurs de la marque.
- Les formes personnalisées repoussent les limites. Quelques slides contiennent des formes construites à partir de primitives géométriques : un entonnoir se réduisant de 43 000 à 13 000 candidats, un flux de processus en forme de cône, un levier comparant des niveaux de prix. Ces éléments exigent de l’agent qu’il compose plusieurs formes de base en un visuel cohérent.
Paramétrage des tâches
Pour chacune des 61 tâches, l’agent reçoit :
- Le fichier source
.pptxavec la mise en page de slide correcte présélectionnée (ce qui reproduit le contexte réel où l’utilisateur commence par charger le modèle pptx de son entreprise) - Une capture d’écran de la slide cible à reproduire
- L’instruction : « Recréez la slide représentée dans l’image ci-jointe : reproduisez-la à l’identique. »
L’agent modifie ensuite la slide via des appels d’outils, et le résultat final est rendu en PNG puis évalué par un modèle de langage multimodal. L’évaluateur note chaque résultat sur une échelle entière de 1 à 5, car des recherches montrent qu’une échelle entière compacte maximise l’alignement humain-LLM dans les configurations LLM-as-a-judge. Nous convertissons ensuite les notes en score de 0 à 100 % pour plus de lisibilité.
Résultats
Nous avons comparé trois configurations :
| Configuration | Score | Temps | Étapes | Tâches |
|---|---|---|---|---|
| Verso Medium | 49,6 % | 207,7 s | 8,8 | 61/61 |
| Verso Fast | 38,9 % | 157,5 s | 9,5 | 61/61 |
| Claude for Powerpoint | 36,5 % | 176,5 s | 11,6 | 61/61 |
Verso Medium obtient le score le plus élevé avec 49,6 % : la plupart des reproductions capturent la bonne structure et le bon contenu, mais présentent des différences notables dans le style ou le positionnement.
Verso Fast sacrifie la précision au profit de la vitesse, en complétant les tâches 24 % plus rapidement tout en atteignant un score de 38,9 %. Fait intéressant, il utilise davantage d’étapes en moyenne (9,5 contre 8,8), ce qui suggère que le modèle plus léger effectue davantage d’actions exploratoires.
Claude for Powerpoint obtient un score de 36,5 % malgré l’utilisation du plus grand nombre d’étapes (11,6) et d’une puissance de calcul significativement supérieure.
Décomposition des scores par type de contenu
La décomposition des scores selon le contenu des slides révèle des tendances claires :
| Type de contenu | Verso Medium | Claude for PPT |
|---|---|---|
| Texte dense | 66,8 % | 48,3 % |
| Slides sans graphique | 63,5 % | 44,8 % |
| Tableaux | 48,3 % | 38,3 % |
| Diagrammes | 47,3 % | 25,0 % |
| Graphiques | 38,0 % | 29,5 % |
| Cartes | 12,5 % | 12,5 % |
| Global | 49,5 % | 36,5 % |
Les slides à forte densité textuelle constituent la catégorie la plus facile, tandis que les cartes sont les plus difficiles (également mauvaises pour les deux agents). Les graphiques, qui représentent 54 % du benchmark, tirent considérablement le score global vers le bas.
Là où Verso excelle
Verso obtient systématiquement de bons scores sur les slides à texte structuré : texte juridique mis en forme, mises en page multi-sections avec encadrés colorés, pages de type table des matières et mises en page multi-colonnes avec icônes. Sur ces éléments, Verso Medium et Verso Fast obtiennent tous deux des scores quasi parfaits (75–100 %), tandis que Claude for Powerpoint reste généralement bien en deçà.
Ce qui reste difficile
Environ 20 % du benchmark est pour ainsi dire non résolu : les trois agents y obtiennent un score de 25 % ou moins. Les modes d’échec récurrents sont :
- Cartes géographiques. Les agents peinent à produire des visualisations cartographiques précises. Ils peuvent substituer la carte par une forme sans rapport, la restituer à la mauvaise échelle ou perdre le codage couleur par État. Verso tente bien de produire des cartes, mais les résultats sont systématiquement médiocres : une carte des États-Unis peut apparaître réduite avec des détails manquants, ou une carte du monde peut être remplacée par un diagramme circulaire.
- Graphiques complexes à données denses. Les graphiques combinés (barres + courbes sur double axe), les tableaux de bord multi-panneaux et les matrices de heatmap mettent systématiquement tous les agents en échec. Parmi les erreurs fréquentes : des graphiques entiers manquants, des intitulés d’axes supprimés et des valeurs de données absentes.
- Formes composites personnalisées. Les entonnoirs construits à partir de trapèzes, les graphiques en quadrants avec des séparateurs courbes et des constructions similaires exigent un empilage et un alignement précis que les agents ne parviennent pas encore à réaliser de manière fiable.
Là où Verso a encore des marges de progression
Sur une quinzaine de tâches, les variantes Verso peinent encore (score de 25 % ou moins). Il s’agit généralement de slides comportant de grandes grilles structurées, des logos de marque intégrés dans des graphiques ou des éléments décoratifs. Cela suggère des axes d’amélioration spécifiques pour la gestion de ces types de contenu par Verso.
Tous les résultats, y compris les images générées et de référence par tâche ainsi que les critiques de l’évaluateur, sont disponibles dans le dépôt PrezEval.