Künstliche Intelligenz Die Text-zu-Quatsch-Generatoren

DALL-E mini nach der Texteingabe »E.T. fährt einen Tesla«
Foto:DALL-E mini / DER SPIEGEL
Dieser Artikel gehört zum Angebot von SPIEGEL+. Sie können ihn auch ohne Abonnement lesen, weil er Ihnen geschenkt wurde.
Chirurgen operieren auf einer Kloschüssel. Jesus steigt in einen Ferrari. Batman wartet auf dem Fußballplatz auf seine Eltern. Solche verrückten Szenen auf Fotokacheln fluten derzeit das Netz. Die meisten stammen aus dem Kunstwerk-Generator DALL-E mini, der mit kreativen Texteingaben gefüttert wird – und bizarre Bildwelten ausspuckt.
Die Software auf Basis einer sogenannten künstlichen Intelligenz (KI) kann man kostenlos im Browser ausprobieren – was derzeit sehr viele Menschen tun. Es reicht, in einem Halbsatz ins Textfeld zu schreiben, was man sehen möchte. Die Ergebnisse füllen ganze Foren auf Reddit und haben DALL-E mini in die Twitter-Trends verholfen: Neun-Bild-Kacheln zeigen Kugelfische als Schminktipp-Influencer , ein Salatdressing im Zeugenstand und Darth Vader beim Rasenmähen . Die KI erzeugt auch aus noch so abseitigen Ideen eine Fotogalerie, entwirft sehenswerte Pikachu-Sessel und baut einen Toaster in Form einer Nintendo Switch.
Im folgenden Quiz können Sie raten, welche Texteingabe das jeweils angezeigte Bild erzeugt hat:
Allerdings hat DALL-E mini einige Einschränkungen: Viele Ergebnisse sind wenig beeindruckend und eher schwer erkennbar, zudem macht der große Andrang den Betreibern zu schaffen, zwischenzeitlich ist das Browsertool überlastet und nicht benutzbar. Wartezeiten von drei Minuten pro Versuch sind hingegen normal.
-"Est-ce qu'elle fait grille pain ?"
— Flo' (@_Error301_) June 13, 2022
-"Ouiiiiii"#dallemini #dalle pic.twitter.com/LCvoMcVuIZ
Denn der Kunstkachel-Generator im Netz ist nur eine abgespeckte Version von DALL-E 2 , einem im Vergleich zur Mini-Version 27-Mal umfangreicheren und entsprechen leistungsfähigeren KI-Modell von Open AI, einer von Elon Musk und Microsoft finanzierten Forschungseinrichtung. Diese Software dürfen bisher aber nur ein paar ausgewählte Forscher und Künstler ausprobieren. Mit DALL-E 2 in der vollen Bandbreite lassen sich beeindruckende Fake-Fotos erzeugen, mit Zuschauern im alten Rom, die Gladiatorenkämpfe mit Smartphones fotografieren , Waschbären im Weltraum oder tanzenden Avocados mit Sonnenbrillen auf dem Kopf.
Die KI-Modelle lösen sich aber zunehmend von reinen Spaßmaschinen und können mittlerweile mehr, als nur Kunstwerke kopieren oder Sängerin Taylor Swift mit einem Weihnachtsbaum verschmelzen. Die Software wird darauf getrimmt, nahezu realistische Bilder anhand einer Beschreibung zu erstellen. »Das ist eine erstaunliche Leistung«, sagt Wolfgang Konen von der Technischen Hochschule Köln im Gespräch mit dem SPIEGEL. »Die Tools sind sehr leistungsfähig geworden.« Für Laien werde es immer leichter, Foto-Fakes zu erstellen, sagt der Informatikprofessor.
Auch Google mischt mit – und hält die hauseigene KI namens Imagen für die beste Text-zu-Bild-Software. Im Direktvergleich mit den Konkurrenten DALL-E, VQGan und LDM sei das Google-Modell überlegen, heißt es in einem Forschungsbericht des US-Unternehmens. »Menschliche Betrachter bevorzugen Imagen gegenüber anderen Methoden, sowohl beim Bild-zu-Text-Bezug als auch bei der Realitätsnähe.« Tatsächlich sehen die Hochglanzbilder vom Schoko-Adler auf Mangostückchen, vom steinernen Koala-DJ und von der Teddyparade auf den Straßen von Tokio wirklich verblüffend gut aus und sind gestochen scharf.
Good Morning!
— hardmaru (@hardmaru) June 9, 2022
“A million bears walking together on the streets of Hong Kong” generated using #Imagen🐻 pic.twitter.com/mTxrMrFM8z
Doch Google-Mitarbeiter haben eben nur die besten Ergebnisse herausgepickt. Es gibt kein öffentliches Tool, um die Software auszuprobieren. Google hat sich dagegen entschieden, Code und Demo zu veröffentlichen. Als Begründung heißt es, die Bedenken seien zu groß gewesen, dass die Software missbraucht werden könne und schädliche Stereotype verstärke.
Nutzer schicken KI auf Abwege
Bei DALL-E mini zeigt sich, wohin das führen kann. Pornografie und Gewalt hat das Entwicklerteam zwar ausgeklammert. Doch das hält Nutzerinnen und Nutzer nicht davon ab, die KI auf mehr oder weniger düstere Abwege zu schicken. Einige verwenden die Software dafür, um Ronald McDonald ans Kreuz zu nageln, Spielzeugguillotinen zu erfinden und Adolf Hitler mit Minions bei einem Drink zu zeigen.
Für Boris Dayma vom DALL-E-mini-Entwicklerteam ist das kein Grund, die Demo abzuschalten. »Kunst ist von Natur aus subjektiv«, schrieb Dayma dem SPIEGEL. »Im Laufe der Geschichte hat es immer wieder Kunstwerke gegeben, die von den Menschen als grenzüberschreitend empfunden wurden.« Ob solche Kunstwerke gefährlich für die Gesellschaft seien, könne er nicht abschätzen.
Klar ist: Die grundsätzlichen Probleme der KI sind auch in modernen Modellen nicht ausgebügelt. Die Entwicklerinnen und Entwickler von DALL-E mini geben selbst zu, dass bereits die Trainingsdaten ganze Volksgruppen ausgrenzen. Das liege unter anderem daran, dass beim Sammeln der Trainingsmotive alle ignoriert werden, die nicht englisch beschriftet sind. Die westliche Kultur wird damit zum Standard für die KI.
Die KI und das Bias-Problem
Für Wolfgang Konen kommt dieser Effekt wenig überraschend. »Eine KI hat wie wir Menschen auch ein kulturelles Bias«, sagt der IT-Professor. Daher sei entscheidend, dass die Entwickler mit ihrer Software und den verwendeten Bildern offen umgehen. »Bei KI ist wichtig zu wissen, wie die Ergebnisse entstanden sind und womit die KI trainiert wurde«, sagt Konen. »Ansonsten kann man nicht entscheiden, ob die Software voreingenommen ist.«
Dass künstlich generierten Fotos für Meinungsmache verwendet werden können, sei denkbar, sagt Wolfgang Konen. »Es können natürlich sehr einfach Tausende von Bildern erstellt werden, die Echtheit suggerieren.« Bei gefälschten Bildern von einem mutmaßlichen Live-Event, die über soziale Medien geteilt werden, könne das gefährlich werden. Allerdings seien KI-Texte noch immer das größere Problem. »Ich sehe Bildgeneratoren als nicht so gefährlich an wie Textgeneratoren«, sagt der Wissenschaftler. Mit tausendfach automatisch erstellten Texten könne man über soziale Medien viel mehr Meinungsmacht erzeugen.