Wenn GenAI im Unternehmen produktiv wird, entsteht schnell ein wiederkehrendes Problem: Diskussionen über Qualität bleiben subjektiv. „Fühlt sich gut an“ oder „hat gestern besser geklappt“ sind keine belastbaren Kriterien. Abhilfe schaffen Evaluationsdaten: ein kuratiertes Set aus Aufgaben, Eingaben und erwarteten Ergebnissen, das die reale Nutzung abbildet und Veränderungen nachvollziehbar macht.
Der zentrale Hebel dabei ist nicht ein einzelner Benchmark, sondern ein System aus Testsätzen, eindeutigen Labels und einem stabilen Referenzbestand. Richtig aufgebaut, ermöglicht das: regressionssichere Releases, zielgerichtete Prompt- oder RAG-Anpassungen und klare Abnahmen vor Rollouts.
Warum Evaluationsdaten im Unternehmensalltag entscheidend sind
Qualität wird erst mit Vergleichbarkeit steuerbar
Modelle, Prompts, Retrieval-Logik und Datenquellen ändern sich. Ohne feste Vergleichsgrundlage lässt sich kaum unterscheiden, ob eine Verbesserung real ist oder nur ein Einzelfall. Ein Gold-Set (stabiler Referenzbestand) schafft die Grundlage für wiederholbare Tests: gleiche Aufgaben, gleiche Bewertung, nachvollziehbare Abweichungen.
Das gilt nicht nur für Textqualität. Auch Sicherheits- und Compliance-Anforderungen profitieren: Beispielsweise lässt sich prüfen, ob eine Antwort vertrauliche Inhalte reproduziert, ob der Ton eingehalten wird oder ob strukturierte Ausgaben weiterhin valide sind.
Evaluationsdaten verbinden Fachlichkeit, Technik und Risiko
In der Praxis kommen drei Perspektiven zusammen:
- Fachbereich: Was ist inhaltlich korrekt, vollständig und nützlich?
- Tech/Produkt: Welche Änderungen am System wirken messbar?
- Risiko/Compliance: Welche Ausgaben sind unzulässig oder kritisch?
Evaluationsdaten zwingen diese Perspektiven in ein gemeinsames Vokabular. Dadurch entstehen weniger Endlosdiskussionen und mehr Entscheidungen mit Begründung.
Welche Arten von Testsätzen gebraucht werden
Realistische Nutzung statt „schöner“ Beispiele
Der häufigste Fehler: Testsätze bestehen aus idealisierten Prompts, die intern gut aussehen, aber nicht dem Alltag entsprechen. Nutzende schreiben unvollständig, verkürzen, hängen Dateien an, vermischen Sprachen oder geben widersprüchliche Anforderungen. Ein guter Testsatz enthält genau diese Reibung.
Praktische Quellen für echte Aufgaben (ohne sensible Inhalte zu kopieren): Ticket-Titel als Muster, anonymisierte Chat-Verläufe, wiederkehrende E-Mail-Typen, Standardformulare, interne Vorlagen und typische FAQ-Fragen. Entscheidend ist, die Struktur zu übernehmen, nicht die personenbezogenen Daten.
Abdeckung entlang von Risiken und Wert
Bewährt hat sich eine Mischung aus:
- Kernaufgaben: häufig, geschäftskritisch, hoher Nutzen (z. B. Zusammenfassung, Klassifikation, Antwortentwürfe).
- Randfälle: selten, aber fehleranfällig (z. B. widersprüchliche Eingaben, unvollständige Kontextdaten).
- Missbrauch/Stress: Prompts, die Grenzen austesten (z. B. „Ignoriere Regeln“, versteckte Anweisungen in Dokumenttexten).
Für die sichere Auslegung solcher Stressfälle ist eine klare Trennung zwischen erlaubten und nicht erlaubten Daten wichtig.
Labels definieren: Bewertbar, konsistent, anschlussfähig
Von „gut/schlecht“ zu überprüfbaren Kriterien
Labels sind nur dann hilfreich, wenn sie präzise genug sind, dass unterschiedliche Personen ähnlich bewerten. Statt pauschal „gut“ zu vergeben, sollten Kriterien getrennt werden. Typische Dimensionen:
- Fachliche Korrektheit (enthält keine falschen Behauptungen)
- Vollständigkeit (beantwortet alle Teilfragen)
- Nachvollziehbarkeit (begründet Schritte, nennt Annahmen)
- Formattreue (z. B. Tabelle/JSON/Gliederung wie gefordert)
- Risiko/Sicherheit (keine unzulässigen Inhalte, keine vertraulichen Daten)
Entscheidend ist die Definition von „Pass/Fail“ je Dimension. Ein Label „Korrektheit: 3/5“ hilft nur, wenn klar ist, was 3 bedeutet. Für den Alltag sind binäre Labels (erfüllt/nicht erfüllt) oft stabiler; Skalen können ergänzen, wenn Reviewer trainiert sind.
Beispiel: Label-Set für Zusammenfassungen
Eine interne Zusammenfassung von Meeting-Notizen kann so bewertet werden:
- Kernaussagen enthalten (ja/nein)
- To-dos mit Verantwortlichen (ja/nein)
- Offene Fragen ausgewiesen (ja/nein)
- Keine neue Information erfunden (ja/nein)
- Ton neutral und sachlich (ja/nein)
Dieses Label-Set ist bewusst nah an der Nutzung. Es lässt sich auch für automatische Checks erweitern (z. B. ob To-dos als Liste vorhanden sind), ohne die fachliche Bewertung zu ersetzen.
Gold-Set, Silver-Set, Shadow-Set: ein praktikables Schichtenmodell
Stabilität ohne Stillstand
Ein einziges Set wird entweder zu klein oder zu unübersichtlich. In der Praxis funktioniert eine Schichtung:
| Set | Zweck | Änderungsrate | Beispielumfang |
|---|---|---|---|
| Gold-Set | Release-Entscheidungen, Regressionstests | selten | klein, aber aussagekräftig |
| Silver-Set | Iteration, Prompt-/Retrieval-Tuning | regelmäßig | mittelgroß, vielfältig |
| Shadow-Set | Live-nahe Stichproben aus Betrieb (anonymisiert) | laufend | variabel |
Der Vorteil: Das Gold-Set bleibt stabil genug, um Fortschritt zu messen, während Silver- und Shadow-Sets den Alltag abbilden. Änderungen am System können so erst breit getestet werden, bevor sie gegen das Gold-Set „bestehen“ müssen.
Regeln, wann ein Fall ins Gold-Set gehört
Gold-Fälle sollten nicht „beliebig“ sein. Sinnvolle Kriterien:
- hohe Häufigkeit oder hoher Business Impact
- in der Vergangenheit wiederholt fehleranfällig
- repräsentativ für mehrere ähnliche Anfragen
- klar bewertbar (Labels lassen wenig Interpretationsspielraum)
Gerade für produktive Systeme ist außerdem wichtig, Änderungen nachvollziehbar zu machen (welcher Fall wurde wann warum aufgenommen).
Datenerhebung und Aufbereitung ohne Compliance-Fallen
Sensible Inhalte minimieren, Struktur behalten
Evaluationsdaten sind ein Datensatz wie jeder andere: Sie müssen zu internen Regeln passen. Häufig ist es möglich, reale Fälle zu nutzen, wenn personenbezogene Daten entfernt und Inhalte abstrahiert werden. Statt „Herr Müller, Vertrag XY“ wird „Kunde A, Vertrag 1“. Wichtig ist, dass typische Stolperstellen erhalten bleiben (z. B. unklare Begriffe, verkürzte Sätze, Anhänge).
Technisch sollte ein Fall immer aus klaren Feldern bestehen: Aufgabe, Eingabetext, optionaler Kontext (z. B. Dokumentauszug), erwartetes Ausgabeformat, Labels und Hinweise für Reviewer. Das erleichtert spätere Automatisierung und verhindert, dass sich Bewertung in Freitext-Kommentaren verliert.
Versionierung für Datensätze statt nur für Modelle
Auch Evaluationsdaten entwickeln sich. Ohne Versionierung ist später unklar, ob eine Verbesserung am Modell liegt oder am Testset. Deshalb sollten Sets eine Versionsnummer, Änderungslogik und Freigabe besitzen.
Bewertung organisieren: Review-Rollen, Streitfälle, Konsistenz
Mehr-Augen-Prinzip für die kritischen Beispiele
Für einen Teil der Fälle reicht eine Bewertung durch eine Person. Für geschäftskritische oder riskante Aufgaben sollte ein Mehr-Augen-Prinzip gelten: zwei unabhängige Bewertungen, danach Abgleich. Nicht, um Perfektion zu erzwingen, sondern um Label-Definitionen zu schärfen.
Streitfälle sind dabei wertvoll: Sie zeigen, wo Kriterien unklar sind. Diese Fälle gehören häufig nicht sofort ins Gold-Set, sondern zuerst ins Silver-Set, bis die Regeln nachgeschärft wurden.
Einheitliche Ausgabeformate erleichtern Review
Wenn Ausgaben sehr frei formuliert sind, steigt die Interpretationslast beim Review. Strukturierte Anforderungen (z. B. feste Felder, Tabellen) sind leichter zu prüfen. Wer Ausgabeformate systematisch standardisiert, reduziert Bewertungsaufwand und erhöht Automatisierbarkeit.
Typische Fehlerbilder und wie Testsätze sie sichtbar machen
„Richtig klingend“ ist nicht gleich korrekt
Sprachmodelle erzeugen oft plausible Texte. Ohne Evaluationsfälle mit eindeutigen Prüfkriterien rutschen sachliche Fehler durch. Deshalb sollten Testsätze gezielt enthalten:
- Fachbegriffe, die häufig verwechselt werden
- Aufgaben mit klaren Soll-Antworten (z. B. definierte Prozessschritte)
- Grenzfälle, in denen „nicht genügend Informationen“ die beste Antwort ist
So wird sichtbar, ob das System korrekt „ablehnen“ kann und wann es stattdessen improvisiert.
RAG-spezifische Ausreißer
Bei Retrieval-gestützten Systemen treten zusätzliche Fehler auf: falsche Dokumentauszüge, veraltete Versionen, oder Antworten ohne Bezug zum gelieferten Kontext. Evaluationsdaten sollten deshalb Felder enthalten, die Kontext und erwartete Quellenpassagen trennen (auch wenn die Bewertung später manuell erfolgt). Das senkt das Risiko, dass ein System zufällig „richtig“ antwortet, obwohl der Kontext falsch war.
Praxisbox: ein schlanker Start in fünf Arbeitstagen
- 20–30 reale Aufgaben sammeln und in ein einheitliches Fall-Template überführen (anonymisiert, strukturgleich).
- Pro Aufgabe 3–6 Labels definieren, die als erfüllt/nicht erfüllt bewertbar sind; unklare Kriterien sofort vereinfachen.
- 10 Fälle als erstes Gold-Set markieren (hoher Impact, klar bewertbar), Rest als Silver-Set.
- Zwei Reviewer bewerten das Gold-Set unabhängig; Unterschiede führen zu präziseren Label-Definitionen.
- Nach jeder relevanten Änderung (Prompt, Retrieval, Modellwechsel) Gold-Set erneut laufen lassen und Ergebnisse dokumentieren.
Fragen aus der Praxis, die vorab geklärt sein sollten
Wie groß muss ein Gold-Set sein?
Ein Gold-Set muss nicht groß sein, sondern repräsentativ. Entscheidend ist, dass es die wichtigsten Aufgaben und Fehlerklassen abdeckt und stabil bleibt. Ein zu großes Set erhöht Pflege- und Review-Aufwand und führt dazu, dass es faktisch nicht mehr regelmäßig genutzt wird.
Kann Bewertung teilweise automatisiert werden?
Teilweise ja: Formattreue, Längenlimits, Pflichtfelder oder einfache Inhaltschecks lassen sich automatisieren. Fachliche Korrektheit, Vollständigkeit und Risiko-Interpretation brauchen in vielen Domänen weiterhin menschliche Reviews. Automatisierung sollte als Filter dienen (Offensichtliches abfangen), nicht als Ersatz für fachliche Abnahme.
Wie werden neue Fehler aus dem Betrieb integriert?
Neue Fehler sollten zuerst in einem Shadow- oder Silver-Set landen, inklusive kurzer Notiz, welches Risiko oder welcher Schaden entstanden ist. Erst wenn die Bewertung eindeutig definiert und reproduzierbar ist, lohnt die Aufnahme ins Gold-Set. So bleibt das Gold-Set stabil und aussagekräftig.
Welche Rolle spielen Systemprompts und Guardrails?
Evaluationsdaten zeigen, ob Regeln tatsächlich wirken. Sie ersetzen keine Leitplanken, aber sie machen deren Effekt messbar. Wenn Richtlinien über Systemprompts oder Sicherheitsregeln umgesetzt werden, sollten passende Stressfälle im Testsatz enthalten sein, damit Änderungen nicht unbemerkt Schutzwirkung verlieren.
