Warum Pangram keine KI-Wahrheitsmaschine ist

Im Frühjahr kursierte ein Screenshot in den Nachrichten-Feeds. Zero GPT, eines der meistgenutzten KI-Detektionsprogramme, hatte einen Absatz von Mary Shelleys „Frankenstein“ analysiert und sein Urteil gefällt: „100 % AI generated“. Ein Roman aus dem Jahr 1818, von einer Frau geschrieben, die noch nicht einmal zwanzig Jahre alt war. Jedem war in diesem Moment klar, dass das Programm nicht hielt, was es versprach. Es eignete sich nicht, um Texte zu erkennen, die KI-generiert sind. Ein Programm, das zuverlässig menschliche von maschinellen Texten unterscheide, gebe es nicht, hieß es damals.Doch die Entwicklung auf dem KI-Markt ist rasant. Und die neue Generation der KI-Detektoren können, wovon die Hersteller vor wenigen Monaten nicht zu träumen wagten. Angeführt wird das Feld zurzeit von Pangram. Das Unternehmen dahinter, Pangram Labs, hat mit der Version 3.0 seines Detektors eine Zahl in die Welt gesetzt: 99,98 Prozent Treffsicherheit. Die Zahl beruht auf Tests, bei denen Forscher der University of Chicago und der University of Maryland mehr als sechs Millionen maschinell erzeugte Texte auf ihre Erkennbarkeit hin geprüft haben.Redaktionen und Hochschulen greifen zunehmend zu diesem Werkzeug, um Texte zu prüfen und sie liegen damit nicht komplett falsch. Den Beginn von „Frankenstein“ ermittelt Pangram zuverlässig als menschengemacht. Und Pangram half, die wohl KI-generierten Gastbeiträge von Mario Voigt zu entlarven. Das Portal „Frag den Staat“ erklärte, das Programm habe einen KI-Anteil von 100 Prozent in seinen Texten ermittelt. Hinzu kommen drei in seinem Gastbeitrag in der F.A.Z. nicht verifizierbare wörtliche Zitate.Die Jagd auf maschinelle TexteAber was misst Pangram eigentlich? Erkennt das Programm tatsächlich, ob ein Text von einem Menschen oder einer Maschine kommt? Und was heißt, ein Text sei „100 % Human Written“, wie Pangram angibt, wenn es einen Menschen hinter einem Text vermutet? Pangram ist darauf trainiert, stilistische Regelmäßigkeiten zu erkennen, die für Sprachmodelle charakteristisch sind. Es sucht nach Mustern an der Sprachoberfläche. Dazu zählen eine auffällige Häufung von Antithesen, ein gleichmäßiges Subjekt-Prädikat-Objekt-Gefüge sowie Stilmittel in einer Dichte, die menschlichem Schreiben nicht entspricht. Treten diese Muster gehäuft auf, schlägt Pangram Alarm.„100 % Human Written“ attestiert Pangram den ersten zwei Absätzen von „Frankenstein“.Screenshot PangramMittlerweile ist Pangram überall. Auf der Plattform X können es Nutzer einfach markieren, um Beiträge anderer auf ihren KI-Anteil checken zu lassen. KI-Jäger nutzen das Programm, um Politiker oder Journalisten zu überführen. Den prominentesten Fall lieferte der Vorstandschef von Pangram: Max Spero, der sich auf X als „slop janitor“ (Müllmann) bezeichnet, jagte 871 Artikel des „Guardian“-Sportredakteurs Bryan Armen Graham durch sein Programm und postete das Ergebnis: neun Texte in zwei Wochen, sie seien vollständig KI-generiert. Der „Guardian“ wies den Vorwurf zurück. Graham schreibe seit elf Jahren in exakt diesem Stil, lange vor der Existenz von Sprachmodellen. Folgen hatte die Anklage für Graham, zumindest soweit öffentlich bekannt, nicht.Auf einen anderen Fall verwies der Journalist Matthias Meisner jüngst bei der von Holger Friedrich gegründeten „Ostdeutschen Allgemeinen Zeitung“ (OAZ). Der Bluesky-Nutzer „Hoywoj“ schickte Dutzende OAZ-Texte durch Pangram. Das Ergebnis: Rund zwei Drittel davon kamen als ganz oder teilweise KI-generiert zurück, darunter Texte des Geschäftsführers Dirk Jehmlich. Der hatte noch vor einem halben Jahr auf Linkedin gewarnt, KI sei „nicht die Lösung“. Der Nutzer „Hoywoj“ hat seinen Post mit den Anschuldigungen gegen die OAZ auf Bluesky indes mittlerweile gelöscht.Bei dieser Art der „Überführung“ ist in der Tat Vorsicht geboten. Pangram erkennt nicht, ob hinter einem Artikel ein denkender Mensch steht, sondern liefert ein Stilprofil. Schlägt das Programm Alarm, ist das ein stichhaltiger Hinweis darauf, dass sich jemand vollständig oder teilweise dabei hat helfen lassen, einem Text Form zu geben. Doch wer sich beim Formulieren helfen lässt, hat deshalb noch lange keine KI-generierte Idee verwendet. Das ist gut möglich, kann das Programm aber schlicht nicht nachweisen.Möglich wäre auch, dass jemand seinem KI-Assistenten seine Ideen und Argumente einspricht und die Maschine diese ausformuliert. So etwas machen Politiker bekanntermaßen nicht erst seit der Existenz von KI-Programmen. Zuvor wurden menschlichen Assistenten Stichpunkte hingeworfen, um daraus einen Text oder eine Rede zu formulieren. Diese waren zwar von einem Menschen geschrieben, aber der Politiker selbst war nicht der eigentliche Autor. Wir halten es zudem für völlig normal, dass Journalisten als Ghostwriter für Bücher von Prominenten fungieren. Oder schwache Artikel werden mitunter so umfassend redigiert, dass am Ende kein Satz mehr stehen bleibt, wie der Autor ihn geschrieben hat.Emil EichingerWir haben uns daran gewöhnt, in all diesen Fällen den Text trotzdem dem namentlich benannten Autor oder Sprecher zuzuordnen. Es wäre ein Kurzschluss, Texte, denen wir maschinell generierte Formulierungen nachweisen können, nicht als geistiges Eigentum des Verfassers anzuerkennen. Dafür braucht es mehr. Erfundene Zitate zum Beispiel, falsche Bezüge, sinnlose Gegensatzpaare, schiefe Sprachbilder.Pangram ist kein WahrheitsdetektorDrei Beispiele dafür, was Pangram ausgibt: Wenn ein Journalist eine These entwickelt, dazu recherchiert, sie argumentativ untermauert und dann als Kladde seinem Sprachmodell übergibt, wird Pangram den Text wahrscheinlich als 100 Prozent KI-generiert einstufen. Andersherum würde Pangram jemandem, der seinen Text selbst formuliert, aber Idee, Argumentation und Recherche ungeprüft von der KI übernimmt, bestätigen, dass sein Text hundertprozentig menschengemacht ist. Und wer es schafft, KI-Modelle derart präzise zu prompten, dass sie Antithesen vermeiden, den Satzbau variieren, starke Verben setzen und auf Aufzählungen verzichten, kann Pangram überlisten. Die Software klassifiziert derlei KI-Texte dann mitunter als „100 % Human Written“. Je besser jemand mit generativer KI umzugehen weiß, desto unsichtbarer wird ihr Einsatz. Wer unbearbeitet übernimmt, was die Maschine ausspuckt, fliegt auf.Journalistische Autorschaft war nie reine Formulierungsleistung. Sie hat mit Recherche, Analyse, Argumentation und Urteilsbildung zu tun. Wer dabei ein Werkzeug nutzt, um die Sprache zu glätten (wobei die Frage ist, ob einen KI zurzeit sprachlich überhaupt weiterbringt), hat selbst gearbeitet. Wer wie Mathias Döpfner einen Prompt innerhalb „von einer Sekunde“ der KI hinwirft, um sich ein Meinungsstück generieren zu lassen, hat das nicht. Das Problem ist: Pangram unterscheidet zwischen diesen Fällen nicht. Das Programm ist keine Wahrheitsmaschine.

Warum Pangram keine KI-Wahrheitsmaschine ist

Warum Pangram keine KI-Wahrheitsmaschine ist

Other newsrooms on this story

Related reading

KI-Detektionstool Pangram: Kann man den Ergebnissen trauen?

KI in der Literatur: Der Mensch fragt, KI schreibt

KI-Texte erkennen: Diese 5 Anzeichen verraten den Unterschied | t3n

KI-Texte erkennen: 5 Anzeichen, die dir verraten, ob ein Chatbot am Werk war |…

KI in der Wissenschaft: Arxiv verschärft Regeln für KI-generierte…

Sprachwissenschaft: Warum ChatGPT nie wirklich intelligent sein wird

Other newsrooms on this story

Related reading

KI-Detektionstool Pangram: Kann man den Ergebnissen trauen?

KI in der Literatur: Der Mensch fragt, KI schreibt

KI-Texte erkennen: Diese 5 Anzeichen verraten den Unterschied | t3n

KI-Texte erkennen: 5 Anzeichen, die dir verraten, ob ein Chatbot am Werk war |…

KI in der Wissenschaft: Arxiv verschärft Regeln für KI-generierte…

Sprachwissenschaft: Warum ChatGPT nie wirklich intelligent sein wird