← Alle Artikel

PrezEval: KI-Agenten auf professionellen Folien benchmarken

6. April 2026 · 6 Min. Lesezeit

Ziel

Wie gut kann ein KI-Agent professionelle Beratungsfolien anhand visueller Vorgaben reproduzieren?

Nach der Entwicklung von Verso sind wir zu der Überzeugung gelangt, dass unser Ansatz deutlich bessere Ergebnisse liefert als andere.

Aber lassen wir Zahlen für sich sprechen.

PrezEval ist ein Benchmark, der genau das misst. Gegeben ein Zielfolienbild und die originale Quellpräsentation (mit dem bereits vorausgewählten korrekten Layout) muss ein Agent die Folie so bearbeiten, dass sie dem Ziel so genau wie möglich entspricht. Ein Vision-Language-Modell bewertet das Ergebnis anschließend anhand von Struktur, Inhalt, Hierarchie und Gestaltung.

Diese Aufgabe ist täuschend schwer. Echte Beratungsfolien sind dichte, präzise Artefakte: Eine falsch ausgerichtete Diagrammlegende, ein fehlender Achsenbeschriftung oder eine falsche Farbe in einer Heatmap-Zelle zählen allesamt als Fehler. Der Benchmark prüft nicht nur, ob ein Agent Text auf einer Folie platzieren kann, sondern ob er gleichzeitig Diagramme, Tabellen, benutzerdefinierte Formen, mehrspaltiger Layouts und markenspezifische Gestaltung beherrscht.

Aufbau des Benchmarks

Quellmaterial

Wir haben 61 Folien aus 10 professionellen Präsentationsdecks zusammengestellt, die von führenden Beratungs- und Wirtschaftsprüfungsunternehmen stammen: McKinsey, Bain, BCG, PwC, EY und Deloitte sowie von den Anwaltskanzleien Cleary Gottlieb und Mattos Filho. Es handelt sich um reale Decks zu Themen von Gesundheitsökonomie über Energiewende bis hin zu Verbraucherdatenschutz.

Die Folien wurden ausgewählt, um maximale visuelle Komplexität und Elementvielfalt abzudecken. Folgendes enthält der Benchmark:

ElementFolienAnteil
Diagramme (Balken, Linie, Kreis, Kombi…)3354%
Mehrspaltige Layouts2439%
Logos und Icons17*28%
Tabellen1423%
Textdichte Layouts1321%
Komplexe Diagramme / Timelines813%
Karten58%
Benutzerdefinierte zusammengesetzte Formen35%

*Nur wesentliche illustrative Icons werden gezählt, nicht Unternehmenslogos (die auf ~45 Folien erscheinen).

Was es so schwierig macht

Aufgaben-Setup

Für jede der 61 Aufgaben erhält der Agent:

Der Agent bearbeitet die Folie anschließend über Tool-Aufrufe, und das finale Ergebnis wird als PNG gerendert und von einem Vision-Language-Modell-Evaluator bewertet. Der Evaluator bewertet jedes Ergebnis auf einer ganzzahligen Skala von 1 bis 5, da Forschungsergebnisse zeigen, dass eine kompakte ganzzahlige Skala die Übereinstimmung zwischen Mensch und LLM bei LLM-as-a-judge-Setups maximiert. Die Bewertungen werden dann zur besseren Lesbarkeit in eine 0-100%-Skala umgerechnet.

Ergebnisse

Wir haben drei Konfigurationen verglichen:

KonfigurationPunkteZeitSchritteAufgaben
Verso Medium49,6%207,7s8,861/61
Verso Fast38,9%157,5s9,561/61
Claude for Powerpoint36,5%176,5s11,661/61

Verso Medium erzielt mit 49,6% die höchste Punktzahl: Die meisten Reproduktionen erfassen die richtige Struktur und den richtigen Inhalt, weisen jedoch spürbare Unterschiede in Gestaltung oder Positionierung auf.

Verso Fast tauscht Genauigkeit gegen Geschwindigkeit: Es erledigt Aufgaben 24% schneller und erreicht dabei 38,9%. Interessanterweise benötigt es im Durchschnitt mehr Schritte (9,5 vs. 8,8), was darauf hindeutet, dass das kleinere Modell mehr explorative Aktionen ausführt.

Claude for Powerpoint erzielt 36,5%, obwohl es die meisten Schritte (11,6) und deutlich mehr Rechenleistung einsetzt.

Punkteverteilung nach Inhaltstyp

Die Aufschlüsselung der Punkte nach Folieninhalt zeigt klare Muster:

InhaltstypVerso MediumClaude for PPT
Textdichte Folien66,8%48,3%
Folien ohne Diagram63,5%44,8%
Tabellen48,3%38,3%
Diagramme47,3%25,0%
Charts38,0%29,5%
Karten12,5%12,5%
Gesamt49,5%36,5%

Textlastige Folien sind die einfachste Kategorie, während Karten am schwersten sind (gleich schlecht für beide Agenten). Diagramme, die 54% des Benchmarks ausmachen, drücken die Gesamtpunktzahl erheblich nach unten.

Wo Verso glänzt

Verso erzielt konstant gute Ergebnisse bei strukturierten Textfolien: formatierter Rechtstext, mehrgliedrige Layouts mit farbigen Kästen, Inhaltsverzeichnis-Seiten und mehrspaltige Icon-Layouts. Hier erzielen sowohl Verso Medium als auch Verso Fast nahezu perfekte Punktzahlen (75-100%), während Claude for Powerpoint typischerweise deutlich zurückliegt.

Was weiterhin schwierig bleibt

Etwa 20% des Benchmarks sind im Wesentlichen ungelöst: Alle drei Agenten erzielen 25% oder weniger. Die häufigsten Fehlertypen:

Wo Verso noch Verbesserungspotenzial hat

Bei etwa 15 Aufgaben haben Verso-Varianten noch Schwierigkeiten (Punktzahl 25% oder darunter). Diese Folien weisen in der Regel große strukturierte Raster, in Diagramme eingebettete Markenlogos oder dekorative Elemente auf. Das deutet auf konkrete Möglichkeiten hin, Versos Umgang mit diesen Mustern zu verbessern.

Alle Ergebnisse, einschließlich der je Aufgabe generierten und referenzierten Bilder sowie der Evaluator-Kritiken, sind im PrezEval-Repository verfügbar.