Wir bewerten KI-Leistung ohne stabilen Maßstab und machen dadurch zwei gegensätzliche Fehler gleichzeitig.
- Zu nachsichtig: Falschaussagen rutschen durch, weil sich niemand verantwortlich fühlt und das Tempo die Prüfung verdrängt.
- Zu streng: Wir vergleichen die erste Fassung der KI mit der fertigen Arbeit eines Menschen und verweigern ihr den zweiten Versuch, den wir Kollegen selbstverständlich zugestehen.
- Drei Kalibrierungsfragen: Würde ich das bei einem Menschen prüfen? Einen zweiten Versuch zugestehen? Vergleichbare Zustände vergleichen?
Die Frage ist nicht, wie gut KI ist, sondern nach welchem Maßstab wir das fragen.
Eine KI erfindet in einem Recherchebericht eine Quelle, die es nicht gibt. Du bemerkst es beim Drüberlesen, löschst die Zeile und arbeitest weiter. Kein großes Thema, kein Hinterfragen, weiter im Text. Hätte ein neuer Mitarbeiter dir dieselbe erfundene Quelle in einen Bericht geschrieben, der so zum Kunden gegangen wäre, hättest du danach ein ernstes Gespräch geführt.
Genauso oft kippt es in die andere Richtung. Dieselbe KI schreibt einen Entwurf, der gut ist, aber nicht ganz sitzt. Ein Abschnitt zu allgemein, der Schluss schwächer als der Rest. Dein Urteil steht schnell fest: „KI kann das halt nicht wirklich." Hätte ein Texter dir genau diesen Entwurf geschickt, hättest du zwei, drei Sätze Feedback gegeben und auf die nächste Fassung gewartet. Beim Menschen ein normaler Zwischenstand. Bei der KI ein Beweis.
Zwei Situationen, zwei gegensätzliche Reaktionen. Einmal verzeihen wir der KI mehr, als wir es einem Menschen je würden. Einmal verzeihen wir ihr weniger. Dahinter steckt dasselbe Problem: Wir haben keinen stabilen Maßstab für KI-Leistung. Mal sind wir zu nachsichtig, mal zu streng, je nach Stimmung und Publikum. Und beide Fehler kosten uns etwas.
Dass KI Quellen erfindet, ist bekannt, und über Halluzinationen als steuerbares Risiko habe ich an anderer Stelle geschrieben. Hier geht es nicht um die Fehler selbst. Es geht um unsere Reaktion darauf, und warum sie so wenig mit der tatsächlichen Leistung zu tun hat.
Was wir der KI durchgehen lassen
Wer täglich mit Sprachmodellen arbeitet, kennt die Situation aus dem ersten Beispiel. Die KI behauptet etwas Falsches, du bemerkst es, korrigierst es still und machst weiter. Bei einem Dienstleister, dessen Zuarbeit in ein Kundendokument fließt, liefe das anders. Da gäbe es eine Rückfrage, vielleicht eine Konsequenz. Bei der KI bleibt es beim stillen Korrigieren. Dafür gibt es drei Gründe.
Niemand fühlt sich verantwortlich. Wenn eine KI danebenliegt, steht keine Person dahinter, mit der man das bespricht. Kein Gesicht, keine Beziehung, die auf dem Spiel steht. Der Fehler verschwindet in der Glätte des Workflows, und mit ihm die Frage, wie er entstanden ist.
Der Output gilt als Rohstoff, nicht als fertige Aussage. „Ist ja nur ein Entwurf" ist die stille Annahme. Nur hat das niemand so vereinbart. Der Text landet trotzdem im Dokument, die Zahl trotzdem in der Präsentation, und aus dem vermeintlichen Rohstoff wird ungeprüft ein Ergebnis.
Das Tempo verdrängt die Prüfung. KI liefert in Sekunden. Weil es so schnell geht, überspringen wir die Kontrolle, die wir uns bei langsam erarbeiteten Ergebnissen selbstverständlich nehmen würden. Wir prüfen weniger, gerade weil wir mehr bekommen.
Das ist weniger ein Problem der KI als ein Problem des Prozesses. Dass ein Modell überzeugend klingende Falschaussagen produziert, lässt sich einplanen. Wer trotzdem ungeprüft vertraut, trifft eine Entscheidung. Sie fühlt sich nur nicht wie eine an.
Was wir keinem Menschen zumuten würden
Die andere Seite ist subtiler, aber genauso verbreitet. Eine KI liefert einen Entwurf, der brauchbar ist, aber nicht perfekt. Statt nachzubessern, fällt das Urteil gleich über die Technik als Ganzes: „Dafür taugt KI nicht." Einem Menschen würden wir an dieser Stelle eine zweite Fassung zugestehen, ohne lange nachzudenken. Der Doppelstandard hat drei Wurzeln.
Die Maschinen-Illusion. Wir haben Jahrzehnte mit Computern gearbeitet, die deterministisch funktionieren. Eingabe rein, richtiges Ergebnis raus, sonst eine Fehlermeldung. Dieses Bild sitzt tief. Sprachmodelle arbeiten anders, eher wahrscheinlichkeitsbasiert und abhängig vom Kontext. Unser Erwartungsrahmen hat diesen Unterschied noch nicht eingeholt.
Die KI wird nicht eingewiesen. Einen Menschen briefen wir. Wir erklären Hintergrund und Ziel, geben zwischendurch Feedback, justieren gemeinsam nach. Die KI bekommt oft nur einen einzigen Prompt und soll damit auf Anhieb das Beste abliefern. Wenn das Ergebnis dann nicht trifft, liegt es genauso oft an unserer Anweisung wie am Modell.
Die Fehlerkultur ist eine andere. Menschliche Fehler werden intern besprochen und eingeordnet. KI-Fehler werden gescreenshottet und geteilt, oft ohne Kontext, oft als Beweis für grundsätzliche Unbrauchbarkeit. Unter solchen Bedingungen bekäme kein Mensch eine faire Bewertung.
Wir vergleichen die erste Fassung der KI mit der fertigen Arbeit eines Menschen. Und nennen das Ergebnis dann „Beweis".
Drei Fragen, die den Blick kalibrieren
Das ist kein Plädoyer dafür, KI alles durchgehen zu lassen. Fehler gehören benannt, Grenzen gehören gekannt. Aber Kritik hilft nur, wenn sie für alle denselben Maßstab anlegt. Drei Fragen helfen mir, meinen eigenen Maßstab ehrlich zu halten.
Würde ich das bei einem Menschen auch nachprüfen? Wenn die Antwort ja ist, dann gilt das auch für die KI. Wer Output ungeprüft übernimmt, weil es „nur ein Entwurf" war, trägt am Ende trotzdem die Verantwortung für den Inhalt.
Würde ich einem Kollegen einen zweiten Versuch zugestehen? Eine erste Fassung, die nicht sitzt, ist kein Urteil über Können. Beim Menschen nicht, bei der KI nicht. Feedback geben und noch einmal ansetzen ist keine Nachsicht, sondern ganz normale Arbeit.
Vergleiche ich vergleichbare Zustände? Einen rohen ersten Wurf gegen eine fertig ausgearbeitete Lösung zu stellen, ist kein fairer Test. Bei niemandem.
Der Maßstab bist du
Das Paradox ist kein Zufall. Es zeigt, wie neu diese Technologie für uns noch ist. Uns fehlt ein eingespielter Bewertungsrahmen, also greifen wir abwechselnd zum falschen. Mal zu dem des duldsamen Kollegen, der jeden Fehler verzeiht, mal zu dem der unfehlbaren Maschine, die niemals daneben liegen darf. Keiner von beiden passt.
Die interessante Frage ist deshalb nicht, wie gut KI ist. Sie lautet: Nach welchem Maßstab fragst du das, und warum gilt er nicht für alle?
Wer diese Frage überspringt, bewertet am Ende nicht die KI. Er bewertet seine eigene Projektion davon. Und die war noch nie besonders zuverlässig.
Rico Loschke
AI Transformation Consultant
Ich begleite Unternehmen auf dem Weg der KI-Transformation. Dabei verbinde ich technisches Know-how mit strategischem Denken.