Leicht benutzbarer Bildgenerator Diese Software macht Sie zum KI-Künstler

Netzbastler haben ein neues Lieblingstool: Auf Texteingaben hin generiert Stable Diffusion etwa Bilder von Angela Merkel als Batmans Erzfeindin oder faszinierende Landschaftsaufnahmen. So können Sie es testen.
Ex-Bundeskanzlerin Angela Merkel als Joker: Generiert wurden diese Fotos von Stable Diffusion, wie alle anderen hier veröffentlichten Bilder sind sie unter anderem auf Lexica.art zu sehen

Ex-Bundeskanzlerin Angela Merkel als Joker: Generiert wurden diese Fotos von Stable Diffusion, wie alle anderen hier veröffentlichten Bilder sind sie unter anderem auf Lexica.art zu sehen

Foto: CC0

Im Bereich der sogenannten künstlichen Intelligenz (KI)  passiert ständig Spannendes. Von vielen Fortschritten aber erfahren zunächst nur IT-Interessierte. Anders ist das bei den KI-basierten Text-zu-Bild-Generatoren. Sie sind einer der Techtrends dieses Sommers und haben schon jetzt das Potenzial, das Online-Erlebnis jedes Internetnutzers zu beeinflussen – wie es dieser Artikel hier veranschaulicht. Jedes Bild, das hier auftaucht, wurde von einem Bild-Generator namens Stable Diffusion  erstellt, es stammt nicht wie bei SPIEGEL.de üblich von Fotografen oder Illustratoren.

Verwaiste Spaßbäder: Unheimlich, aber auch unheimlich faszinierend

Verwaiste Spaßbäder: Unheimlich, aber auch unheimlich faszinierend

Foto: CC0

Diese unheimlichen Schwimmbadbilder zum Beispiel entstanden auf Basis der Textvorgabe »Polaroid-Foto eines verlassenen bunten Indoor-Wasserparks, in dem seltsame Kreaturen lauern«. Herzlich willkommen in der faszinierenden und verstörenden, rasant wachsenden Welt der KI-Kunst.

Das Phänomen schafft gerade den Sprung aus der Nische der Forscher und Digitalkunst-Nerds heraus. Schon seit Wochen kursieren auf Plattformen wie Reddit und Twitter zigtausend Motive, die auf den ersten und oft auch den zweiten Blick aussehen wie Werke menschlicher Künstler. In Wirklichkeit aber wurden sie auf Basis knapper Texteingaben von KI-Tools erstellt, von Anwendungen wie DALL-E 2, Crayion und Midjourney.

Jeder darf mithilfe der Software Bilder generieren

Besonders im Rampenlicht steht seit Kurzem jedoch Stable Diffusion. Es ist der bisher wohl leistungsfähigste KI-Text-zu-Bild-Generator, der Internetnutzern frei zur Verfügung steht. Man muss kein Google-Mitarbeiter, kein Wissenschaftler und auch kein Silicon-Valley-Investor sein, um mit der Software herumspielen zu dürfen. Genug Grafikkartenpower vorausgesetzt, was in diesem Fall circa 7 GB VRAM aufwärts bedeutet , lässt sie sich sogar auf dem eigenen Rechner betreiben.

Tesla-Chef Elon Musk im Stil eines Charakters aus der Spielereihe »The Last of Us«: Stable Diffusion mischt reale und digitale Welten

Tesla-Chef Elon Musk im Stil eines Charakters aus der Spielereihe »The Last of Us«: Stable Diffusion mischt reale und digitale Welten

Foto: CC0

»Die Leute wollen nicht sehen, wie andere ein tolles Kunstwerk schaffen. Sie wollen es selbst machen«, kommentierte der Techanalyst Alberto Romero . Die Veröffentlichung von Stable Diffusion hält er für nicht weniger als das »bedeutendste und folgenreichste Ereignis, das es jemals im Bereich der KI-Kunst-Modelle gegeben hat«.

Tatsächlich ist ein gewisser Hype spürbar. Zahlreiche Entwickler, Gruppen und Firmen versuchen, den Zugang zu Stable Diffusion möglichst niedrigschwellig zu gestalten. Über das Angebot DreamStudio Beta  zum Beispiel lassen sich die Fähigkeiten der Software im Browser testen. Mit welcher Art von Texteingaben man dabei am ehesten zu seiner Vorstellung passende Ergebnisse ausgespielt bekommt, verrät ein Prompt-Guide genannter Hinweiskatalog . Die ersten 200 Bildgenerierungen pro Nutzer sind kostenlos, danach kosten 1000 Bilder  zehn Dollar. Alle erstellten Motive gelten als gemeinfrei , was viele Möglichkeiten zur Weiternutzung eröffnet, aber nicht unumstritten ist .

Ein rothaariges Mädchen vor einem Kraftwerk: Zu jedem sogenannten Prompt kann Stable Diffusion gleich mehrere Bilder auf einmal erstellen

Ein rothaariges Mädchen vor einem Kraftwerk: Zu jedem sogenannten Prompt kann Stable Diffusion gleich mehrere Bilder auf einmal erstellen

Foto: CC0

Emad Mostaque stellt derweil bereits in Aussicht, dass Stable Diffusion bald auf iPhones laufen könnte . Mostaque, ein früherer Hedge-Fund-Manager , ist der Gründer und Geldgeber von Stability.ai, einem KI-Unternehmen, das die Entwicklung von Stable Diffusion vorantreibt. Veröffentlicht worden ist das Projekt, an dem auch eine Forschergruppe der LMU München  beteiligt ist, vor gut einer Woche unter einer sogenannten »Creative ML OpenRAIL-M«-Lizenz. Sie verpflichtet Nutzer unter anderem, Stable Diffusion nicht für illegale Zwecke zu nutzen, etwa, um andere zu verleumden oder zu verunglimpfen. Unter Einhaltung der Lizenzvorschriften ist neben der privaten jedoch auch eine kommerzielle Nutzung der Software erlaubt. (Hier gibt es eine aktuelle Übersicht von Anwendungen Dritter .)

Zurzeit ist Stable Diffusion weniger als vier Gigabyte groß und die Bilder, die das System generiert, messen standardmäßig 512 x 512 Pixel. Zum Release der Software hieß es von Stability.ai prätentiös : »Diese Veröffentlichung ist der Höhepunkt vieler Stunden kollektiver Arbeit, um eine einzige Datei zu erstellen, die die visuellen Informationen der Menschheit auf ein paar Gigabyte komprimiert.«

Solche Bilder erstellt Stable Diffusion

Wer einen schnellen Eindruck davon bekommen will, was sich mit Stable Diffusion alles erstellen lässt, der sollte Lexica.art ansteuern , ein durchsuchbares Onlinearchiv speziell für jene KI-Bilder. Auf Lexica.art begegnet einem Angela Merkel als Joker aus »Batman«  und als Vampir Alucard aus »Hellsing« , Malcolm X als »Fortnite«-Figur  und Elon Musk im Stil eines Charakters aus dem Action-Adventure »The Last of Us« . Und wer noch Skurilleres sucht, bekommt einen Teletubbies-Aufmarsch zu sehen , der in die Nazizeit verortet wird.

Ein bisher unbekannter Teil deutscher Geschichte: Der Prompt zu diesen Bildern lautete »Teletubbies bei einer Parade in Nazi-Deutschland«

Ein bisher unbekannter Teil deutscher Geschichte: Der Prompt zu diesen Bildern lautete »Teletubbies bei einer Parade in Nazi-Deutschland«

Foto: CC0

Andere auf Lexica.art gezeigte Bilder kommen daher wie Gemälde bekannter Künstler wie Vincent van Gogh  oder Pablo Picasso . Wieder andere wirken fotorealistisch, wie diese verträumt wirkende junge Frau  oder das weiter oben gezeigte Mädchen mit den roten Haaren vor einem Kraftwerk . Und dann gab es noch beeindruckende Architektur - und Landschaftsbilder , genau wie Aufnahmen – man betont es lieber einmal zu viel als zu wenig – rein fiktiver verfallener Städte .

»Ein verträumtes Foto eines hübschen französischen Mädchens mit dunklen Haaren, das einen locker sitzenden, übergroßen weißen Pullover trägt und sich bei Sonnenuntergang an eine Fensterbank kuschelt, um an einer Tasse Tee zu nippen«: Unter anderem mit dieser Vorgabe wurden diese Bilder generiert, dazu kamen Stichworte wie »HDR« und »fotorealistisch«

»Ein verträumtes Foto eines hübschen französischen Mädchens mit dunklen Haaren, das einen locker sitzenden, übergroßen weißen Pullover trägt und sich bei Sonnenuntergang an eine Fensterbank kuschelt, um an einer Tasse Tee zu nippen«: Unter anderem mit dieser Vorgabe wurden diese Bilder generiert, dazu kamen Stichworte wie »HDR« und »fotorealistisch«

Foto: CC0

Wer noch mehr Bilder sehen oder tiefer ins Thema einsteigen will, kann sich auf einem Discord-Server von Stability.ai  oder im Reddit-Forum r/StableDiffusion  mit Fans der Software austauschen. Auf Reddit findet sich auch eine Übersicht mit Tipps für Neueinsteiger . Einen längeren Thread zur grundsätzlichen Funktionsweise von KI-Tools wie Stable Diffusion finden Sie hier auf Twitter .

Empfohlener externer Inhalt
An dieser Stelle finden Sie einen externen Inhalt von Twitter, der den Artikel ergänzt und von der Redaktion empfohlen wird. Sie können ihn sich mit einem Klick anzeigen lassen und wieder ausblenden.
Externer Inhalt

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Hunderte Millionen Netzbilder als Grundlage

Während viele Internetnutzer Stable Diffusion als netten Zeitvertreib sehen oder als Möglichkeit, langweiligen Symbolfotos originelle Motive entgegenzustellen, haben andere kein gutes Bauchgefühl dabei, die Software zu benutzen. So schreibt der Techblogger Andy Baio auf Twitter , es mache ihm zwar Spaß, mit KI-Text-zu-Bild-Generatoren zu spielen. Zugleich aber würden die Programme »so viele ethische Fragen aufwerfen, dass es schwerfällt, den Überblick zu behalten«.

Und noch einmal Merkel, diesmal im van-Gogh-Stil: So etwas konnten auch schon ältere Apps, anders als sie ist Stable Diffusion aber nicht auf wenige Kunststile beschränkt

Und noch einmal Merkel, diesmal im van-Gogh-Stil: So etwas konnten auch schon ältere Apps, anders als sie ist Stable Diffusion aber nicht auf wenige Kunststile beschränkt

Foto: CC0

Tools wie Stable Diffusion und Dall-E 2 lieferten überraschende, lustige und schöne Ergebnisse, betont Baio in einem längeren Blogpost , »aber nur wegen des riesigen Schatzes an menschlicher Kreativität, mit dem sie trainiert wurden.« Wie andere KI-Systeme sei Stable Diffusion mit Millionen von Bildern und Bildbeschreibungen aus dem Internet trainiert worden, schreibt er, »aber wenn eines dieser Systeme die Erlaubnis der Künstler zur Verwendung ihrer Bilder erfordern würde, gäbe es sie wahrscheinlich nicht.«

In einem weiteren Blogpost gibt Baio beispielhaft anhand von zwölf Millionen Motiven einen Einblick, welche Netzbilder genau beim Training zum Einsatz kamen . Die Macher von Stable Diffusion nutzten demnach mehrere Teilpakete eines riesigen Datenpakets namens LAION-2B(en), das insgesamt rund 2,3 Milliarden Netzfundstücke umfasst. Das letztlich entscheidende Trainingspaket mit etwa 600 Millionen Bildern enthielt nach Auswertungen von Baio unter anderem zahlreiche Bilder von Pinterest, von bei Wordpress.com gehosteten Blogs, aber auch von Portalen wie Flickr, DeviantArt und Wikimedia. Ebenso zählten Stockfoto-Seiten und der Kunst-Online-Shop Fine Art America zu den Bildfundorten.

Landschaftsbilder zum Stichwort Marbella: So schön kann KI-Kunst sein

Landschaftsbilder zum Stichwort Marbella: So schön kann KI-Kunst sein

Foto: CC0

Dass ihr Trainingsmaterial nicht unproblematisch ist, wissen auch die Macher von Stable Diffusion. In einem Begleittext zur Veröffentlichung schrieb Emad Mostaque, sein System könnte »gesellschaftliche Vorurteile reproduzieren«, weil in seine Entwicklung im Internet gefundene Bild-Text-Paare geflossen seien. Gemeint ist in diesem Fall übrigens ohnehin nur der englischsprachige Teil des Internets. Das (en) im Namen des 2,3 Milliarden Bilder großen Trainingspakets spielt darauf an, dass es sich primär um Motive handelt, die mit englischsprachiger Bildbeschriftung aufgefunden wurden.

Auf einer Überblicksseite zu Stable Diffusion heißt es , Texte und Bilder aus Gemeinschaften und Kulturen, die andere Sprachen als Englisch verwenden, würden von dem System »wahrscheinlich nur unzureichend berücksichtigt«: Dies wirke sich auf die Gesamtleistung des Modells aus, da weiße und westliche Kulturen oft gewissermaßen »als Standard eingestellt« seien.

Bedenklich findet es Andy Baio auch, dass es die Standardversion von Stable Diffusion anders als Tools wie Dall-E 2 erlaubt, Bilder mit Prominenten und markenrechtlich geschützten Charakteren zu generieren. Auch Nacktheit werde bei der lokal laufenden Version zugelassen, schreibt Baio und verweist auf Foren, die Reddit gesperrt hat, nachdem dort Pornobilder gepostet wurden , die aus KI-Generatoren stammten.

Meta-Chef Mark Zuckerberg als Cyborg: Einige der Bilder könnte man sich gut als Magazincover vorstellen

Meta-Chef Mark Zuckerberg als Cyborg: Einige der Bilder könnte man sich gut als Magazincover vorstellen

Foto: CC0

Niemand weiß, was wirklich passieren wird

»Vielleicht wird bei den Risiken übertrieben und wir stehen am Anfang einer massiven Demokratisierung des Kunstschaffens«, heißt es am Schluss von Baios Blogpost. »Oder aber diese Plattformen machen das ohnehin schon prekäre Leben von Künstlern noch schwieriger, während sie neue Wege für Fälschungen, Desinformation, Online-Belästigung und Ausbeutung eröffnen.«

Verwaiste Städte samt Tornado: Mit Stable Diffusion lassen sich auch Bilder zu Themen wie der Klimakrise generieren

Verwaiste Städte samt Tornado: Mit Stable Diffusion lassen sich auch Bilder zu Themen wie der Klimakrise generieren

Foto: CC0

Auch andere Kommentatoren legen sich lieber noch nicht fest, wohin die Reise im Bereich Bildgenerierung per KI genau geht. Der britische Programmierer Simon Willison etwa zeigt sich sehr beeindruckt von einem Feature namens img2img . Gemeint ist damit die Möglichkeit, bei Stable Diffusion nicht nur Texteingaben, sondern zusätzlich auch bereits existierende Bilder als Prompts einzusetzen. »Stellen Sie sich vor, Sie hätten einen Konzeptkünstler auf Abruf«, schreibt Willison dazu, »der alles, was Sie sich vorstellen können, erstellt und mit Ihnen gemeinsam auf Ihr ideales Ergebnis hinarbeitet. Kostenlos (oder zumindest sehr preiswert).«

Bei Netzpolitik.org prognostiziert Sebastian Meineck unter der Überschrift »Der Anfang von etwas Großem« , durch Tools wie Stable Diffusion werde die Welt »buchstäblich schöner«. Zudem prognostiziert er, dass die Technologie »nach einer Debatte« akzeptiert werden wird. Doch auch Meineck betont, dass er noch viele Fragen hat, etwa, was der KI-Kunst-Boom für die Jobs von Künstlerinnen oder für Grafikdesigner bedeuten wird.

»Auch dieser Text wird mal eine Lachnummer werden«, mutmaßt der Autor schließlich sogar, »weil ich etwas übersehe, das sich erst später als offensichtlich herausstellt.« Menschen hätten mit neuer Technologie selten das gemacht, was man sich vorher vorgestellt hat.

Die Wiedergabe wurde unterbrochen.