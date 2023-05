5. Wie verlässlich sind Programme, die KI-Texte entlarven wollen?

Praktisch alle Programme dieser Art gelten derzeit als wenig verlässlich. Ihre Prüfergebnisse taugen maximal als Indiz für den Einsatz von Textgeneratoren. In einem KI-Newsletter des Magazins »MIT Technology Review« hieß es im Februar, es sei sehr unwahrscheinlich, dass es jemals ein Tool geben werde, dass KI-generierte Texte mit einer hundertprozentigen Sicherheit erkennt. Ein Experte für Machine Learning wurde in dem Artikel mit den Worten zitiert, dass es wirklich schwer sei, KI-Text als solchen zu erkennen, da der Sinn von KI-Sprachmodellen gerade darin bestehe, flüssigen und menschlich anmutenden Text zu generieren. Neue Sprachmodelle seien immer leistungsfähiger und zunehmend besser darin, flüssige Sprache zu generieren – weshalb die bisherigen Instrumente zur Erkennung schnell veralteten.

Wie sehr das Thema selbst führende Entwicklerteams herausfordert, zeigt der erwähnte AI Text Classifier . Das Programm stammt von OpenAI, also den Machern von ChatGPT. Eine Profi-Software möchte man meinen. Doch das Tool klassifiziert bis heute zum Beispiel sogar einige Bibel-Texte als »wahrscheinlich KI-generiert«. Ähnliches gilt für bestimmte Teile der Unabhängigkeitserklärung der Vereinigten Staaten. In einem offiziellen Experiment vor Launch des AI Text Classifier erkannte dieser derweil im Schnitt pro vier testweise eingereichten KI-Texten nur jeweils einen als solchen .

OpenAI selbst merkt zu dem Tool an: »Bei Texten, die von Kindern geschrieben wurden, und bei Texten, die nicht in englischer Sprache verfasst sind, kann es gut passieren, dass der Classifier daneben liegt, da er in erster Linie mit englischen Inhalten trainiert wurde, die von Erwachsenen geschrieben wurden.« Und noch ein weiterer Hinweis lässt erahnen, wie schwer das Entlarven heimlicher KI-Unterstützung ist: OpenAI schreibt, KI-generierter Texte könne leicht überarbeitet werden, um den Classifier auszutricksen. Im Zuge einer Abiturklausur ergibt dieser Hinweis erst recht Sinn. Vielen Schülerinnen und Schüler mag es zwar helfen, sich per ChatGPT Ideen für Inhalte oder Formulierungen zu holen. Diese Ideen aber in einer Prüfungssituation 1:1 vom Handy ins Handschriftliche zu bringen, wirkt dann doch aufwendiger als bei einer Hausaufgabe, die am Computer geschrieben wird.

Für Lehrerinnen und Lehrer bleiben so vor allem zwei Möglichkeiten, Täuschungsversuchen auf die Spur zu kommen. Entweder ertappen sie Schülerinnen und Schüler auf frischer Tat. Oder sie bemerken, ähnlich wie bei den Hamburger Verdachtsfällen, Auffälligkeiten etwa beim Schreibstil eines Prüflings. Denn noch spielt vielen Lehrkräften die Zeit in die Karten: Ihre Schülerinnen und Schüler kennen sie oft seit Jahren, sie wissen, wie diese ungefähr arbeiten und schreiben. Programme wie ChatGPT aber haben die meisten Schülerinnen und Schüler erst seit Kurzem als Hilfsmittel.