Stell dir vor, du würdest gern mal sehen, wie Donald Trump als Clown aussieht. Okay, jede:r halbwegs begabte Illustrator:in könnte dir ein entsprechend, fotorealistisches Bild anfertigen. Du könntest aber auch eine Website namens DreamStudio Lite aufrufen und als Text eingeben: „Donald Trump as clown.“ Und in kaum zehn Sekunden hättest du das gewünschte Ergebnis – siehe Titelbild. Und das ist nur der Anfang dessen, was mit Anwendungen vom Typ Text-to-Image-Diffusion möglich ist. Das Thema ist der Hype des Sommers, und natürlich spielen die üblichen Verdächtigen mit: Elon Musk, Bill Gates und Google.
Ohne auch nur im Geringsten Aussagen zum sittlichen Nährwert solcher Art Software zu machen, übertrumpfen sich Stable Diffusion, DALL-E, Google Imagine und Midjourney mit Lobeshymnen auf ihre eigenen Entwicklungen. Und um die Versprechen zu beweisen, werfen sie uns Ottos und Lises Normaluser:in abgespeckte Versionen zum Herumspielen vor die Füße. Und, ja, es macht einen Heidenspaß, sich ein unmögliches Kunstwerk auszudenken und es sich dann anfertigen zu lassen. Eine Million Teddybären, die mit schwarzen Lederjacken bekleidet durch New York paradieren. Einen Greyhound im Tutu. Die ollen Surrealisten hätten ihre Freude…
Aber in Wahrheit geht es um die sogenannte „Künstliche Intelligenz“. Hier in ihren Geschmacksrichtungen „natürliche Sprache“ und „machinelles Lernen“. Erinnert sich noch jemand an das Datenbankprogramm Q&A? Es hieß auf Deutsch F&A, was wie im Original für „Frage und Antwort“ stand. In den Achtzigern wurde dieses Stück sofort als Beispiel für den Einzug der sogenannten „Künstlichen Intelligenz“ in die alltagspraktische Computerei in den Himmel gehoben. Abgesehen davon, dass es sich um ein wirklich tolles Datenbankprogramm handelte, was tatsächlich verblüffend, dass es in (beinahe) natürlicher Sprache formulierte Abfragen korrekt beantworten konnte. Ungefähr damit fing es an.
Wie wir Digisaurier wissen, haben die ganz großen Fortschritte der Computerei ihren Ausgangspunkt immer in einer von zwei oder beiden Branchen gehabt: Militär und Porno. Daran hat sich nichts geändert, denn ALLE Fortschritte in der KI des vergangenen Jahrzehnts wurden von militärischen Institutionen entweder beauftragt und finanziert oder praktisch eingesetzt. Und weil – wie wir aktuell jeden Tag im Angriffskrieg Russlands gegen die Ukraine erleben müssen – Krieg eben nicht mehr nur schießen bedeutet, sondern eben auch Propaganda, gehört das Thema „Text-to-Image-Diffusion“ genau in diesen Bereich. Denn mit Anwendungen wie DreamStudio, Craiyon oder Imagine lassen sich die passenden Bilder zu Fake News in Nullkommanix fabrizieren.
Anscheinend wissen die Entwickler das auch. Deswegen bieten sie dem Digitalvolk auch nur sehr, sehr stark abgespeckte Versionen zum Herumspielen an – Otto und Lise könnten ja sonst Schindluder damit treiben. Am anwenderfreundlichsten ist sicher DreamStudio Lite, das zudem mit einer ausführlichen Dokumentation kommt und Hunderte grandioser Beispiele mitliefert. Es basiert auf einer Engine namens „Stable Diffusion“, die in der „echten“ Variante mit massiv viel Rechenpower angeblich in der Lage ist, ganze Panoramen fiktiver Städte samt Passanten zu erschaffen.
Am längsten im Gespräch ist die ebenfalls aus dem Kreis bekannter KI-Forscher stammende Maschine „DELL-E„, die jetzt als Craiyon für den Rest von uns zum Probieren bereitsteht. Google zeigt Imagine bisher nur als Absichtserklärung und behauptet schon, viel besser zu sein als die anderen. Und dann ist da noch das geheimnisumwitterte Midjourney, das unter Fantasy-Freunden schon seit einiger Zeit als Geheimtipp gehandelt wird. Bewirbt man sich dort um einen Betatester-Status, bekommt man einen Link ins Discord-Netzwerk. Dort platziert man seinen Text, der zum Image werden soll, als Posting und bekommt das fertige Bild als Antwort.
Das eine KI-Anwendung eine in natürlicher Sprache abgefasste Anweisung entschlüsseln kann, ohne dass ein gemeinsames Vokabular vorhanden ist, scheint zunächst banal. Woher aber weiß die Anwendung, welches Wort welches Bildelement erwartet? Dazu werden die Trilliarden Bilder im Web und ihre Dateinamen und Titel durchforstet. Und genau auf diesem Weg kommen die Text-to-Image-Diffusoren auch zum Ausgangsmaterial ihrer Bilder. Hinzu (Stichwort: Diffusion) kommt die mittlerweile unüberschaubare Anzahl an Filtern, die jedes eingefütterte Bild durch Überlagerung, Veränderung der Pixelberechnung und und und manipulieren können. Welche eingegebenen Wörter welche Filter triggern, gehört ebenfalls zu dem, was hinter allem steht: das maschinelle Lernen.
Denn KI-Systeme wie diese lernen. Sie lernen schnell. Ungefähr so schnell wie seinerzeit Googles AlphaGo, das von Null auf durch schlichtes Beobachten lernte, nach welchen Regeln Go gespielt wird, um dann rasch herauszufinden, wie man Go erfolgreich spielt, um am Ende den vermutlich besten Go-Spieler der Welt 2016 in einem Turnier zu schlagen.
Wie geht’s weiter mit Text-to-Image-Diffusion? Die Systeme werden lernen. Sie werden immer bessere, schönere Bilder malen, immer größere, immer naturgetreuer. Dann werden sie sich zu Text-to-Video-Diffusoren weiterentwicklen, und irgendwann werden sie Spielfilme im Stil der ganz großen Regisseure wie Stanley Kubrik, George Lucas oder Steven Spielberg erschaffen – ganz ohne echte Kulisse und lebende Schauspieler. Schöne neue Welt?