Last Updated on 06.04.2025 by Redaktion Digisaurier
Stellt euch vor, ihr bittet einen Maler um „eine Katze, die Yoga auf einem fliegenden Teppich macht, während sie einen Latte Macchiato hält“ – und er antwortet: „Kein Problem, hab ich in 1,7 Sekunden fertig. Soll die Katze lieber Calico oder Siam sein?“. Genau das passiert gerade mit KI-Bildgeneratoren. Aber warum zur frisch lackierten Amiga-Tastatur sind die Dinger plötzlich so unfassbar gut geworden? Kleiner Spoiler: der Artikel ist auch ein Experiment und eine Selbsterfahrung für Euch. Dazu müsst ihr ihn nur leider tatsächlich lesen… Sorry ;-)
Erinnert ihr euch noch an die ersten KI-Bilder? Die sahen aus, als hätte jemand einen Atari ST mit Magic Mushrooms gefüttert. „Hier, dein Pferd mit fünf Beinen und Augen auf dem Rücken!“. Das war bis vor ganz kurzem immer noch so. Es blieb ein Abenteuer, eine KI um ein Bild zu bitten. Und dann: Zack, Bumm, Peng, Krach – um es im Stil von Frau Dr. Fuchs aus den Donald-Duck-Heften zu sagen. Heute produzieren die Systeme Bilder, bei denen selbst gestandene Grafiker schniefend ihr Wacom-Tablet in die Ecke werfen. Was hat sich geändert?

Vom Pixelbrei zur Premium-Pasta: Die Evolution der KI-Kunst
Multimodale KI – das ist das Zauberwort, das so klingt wie ein teures Hifi-System aus den 90ern, aber die Welt der Bildgenerierung auf den Kopf stellt. Multimodal bedeutet im Grunde, dass die KI jetzt nicht mehr nur Text ODER Bilder versteht, sondern beides gleichzeitig – wie ein Super-Nerd, der gleichzeitig Shakespeare liest und Picasso kopiert. Diese Kombi führt dazu, dass moderne KI-Systeme Prompts verstehen, als würden sie Jahre lang Kunstgeschichte studiert haben.
Okay – vielleicht auch nur sekundenlang angeguckt haben. Wie Data in Star Trek: Ein Blick, und schon hat er sich alles gemerkt. Kleiner Zeitsprung für die alten Fans von Raumschiff Enterprise: Da gab es auch eine Folge, in der ein Besatzungsmitglied in Sekunden Bücher lesen und sich den Inhalt präzise merken konnte. Wer weiß, welche Folge das war?

Apropos Bilder gucken: Das Beste an diesem Modell? Ihr könnt jetzt einfach ein Bild hochladen und sagen: „So ungefähr, aber mit einem Digisaurier statt dem Hund.“ Früher musstet ihr verzweifelt versuchen, einen bestimmten Stil mit Worten zu beschreiben: „Mach es… äh… pastellig … aber auch irgendwie… retro?“ Jetzt zeigt ihr der KI einfach ein Beispiel, und sie kapiert sofort, was ihr meint. Das ist, als würdet ihr einem Freund per WhatsApp Call das neue Auto zeigen statt zu versuchen, telefonisch zu erklären, welche Farbe und Form es hat. Revolutionär! Also: Nicht der Whats App Call – aber diese KI-Option…
GPT-4o: Der neue Bild-Zauberer von OpenAI
Ende März hat OpenAI mit GPT-4o einen gewaltigen Sprung in der Bildgenerierungstechnologie vollzogen. Was vorher mit DALL-E 3 noch holprig war, läuft jetzt wie geschmiert. Besonders bei Text in Bildern – ihr wisst schon, diese Stellen, an denen frühere KIs immer „Bahglutenpork“ statt „Brot kaufen“ geschrieben haben.
Was die neue Technik kann:
- Texte in Bildern, die tatsächlich lesbar sind (Revolution!!)
- Bildbearbeitung ohne Neugenerierung – endlich bleiben die Teile, die ihr mögt, auch erhalten
- Inpainting – ihr könnt einen Bereich markieren und sagen „zieh dem Pinguin bitte ein Hawaii-Hemd an“, und zack: Eisvogel wird zum Partyvogel
- Detailgenauigkeit, die früher nur mit drei Stunden Prompt-Engineering möglich war
Das alles klingt nach Marketing-Blabla? Ich verstehe die Skepsis! Aber tatsächlich funktioniert das jetzt wirklich ziemlich gut. Was früher nach dem Motto lief „Ich sage A, KI macht B, ich sage nochmal A, KI macht C“, funktioniert jetzt oft tatsächlich direkt. Aus A wird auch immer öfter A…

Der Turbo aus der Hölle: Warum es jetzt Klick macht
Frühere Bildmodelle arbeiteten wie ein Commodore 64, der versucht, Crysis zu rendern. (Für alle nach 2000 Geborenen: Crysis war DIE Grafik-Demo der 2000er Jahre – ein Spiel, das so anspruchsvoll war, dass es zum Meme wurde: „But can it run Crysis?“ war die Standard-Frage bei jedem neuen Gaming-PC). Die neuen Systeme nutzen Architekturen, bei denen selbst der stärkste Amiga 4000 neidisch würde. Was macht den Unterschied? Ja schon klar: Es ist kein Amiga. Aber Hardware spielt eine Rolle:
- Bessere Hardware – Na klar, würde ich mal sagen. Heute ist mehr GPU-Power verfügbar, mehr Speicher, mehr alles.
- Kontext ist König – Moderne KI kombiniert Textinformationen, Bilddaten und sogar Code, um ein Gesamtverständnis zu schaffen. Kein Wunder, dass die Ergebnisse plötzlich stimmig aussehen!
- Lernfähigkeit 2.0 – Die neuen Modelle lernen nicht mehr stumpf, sondern entwickeln eine Art Verständnis für Zusammenhänge. Durch Techniken wie Constitutional AI (was im Grunde bedeutet, dass die KI bestimmte ethische Leitplanken hat) entstehen intelligentere Ergebnisse.
Was bedeutet das praktisch? Wenn ihr nach „einem niedlichen Panda im Büro“ fragt, weiß die KI jetzt, dass ihr keinen Bären im Anzug mit Krawatte wollt (obwohl das auch lustig wäre). Sondern einen knuffigen Cartoon-Panda als Dekoration auf dem Bürotisch oder als Poster an der Wand. Die KI versteht also nicht nur eure Worte, sondern auch eure Absichten.

Was bedeutet das für uns?
Die praktische Konsequenz: Wir können jetzt auch ohne 10 Jahre Photoshop-Erfahrung beeindruckende Bilder zaubern. Will man ein Logo? Eine Produktvisualisierung? Ein Cover für die Spotify-Playlist? Mit den neuen Bildgeneratoren geht das jetzt in Sekunden statt Stunden.
Allerdings müssen wir auch realistisch bleiben: Die KI ersetzt noch immer keine echten Fotos oder professionelle Designs für wichtige Projekte. Aber für den täglichen Gebrauch, für Social Media oder einfach zum Spaß? Da eröffnen sich gerade Welten.
Moment mal – können wir der KI überhaupt trauen?
Hier kommt der obligatorische Digisaurier-Skepsis-Abschnitt: Die Macht bringt Verantwortung. Und damit meine ich zwei verschiedene Dinge: Fairness und Bilder-Spam der Mittelmässigkeit. Beides folgt aus „dass das jetzt geht…“ Beides ist Mist. Fangen wir mit Punkt 1 an…
Während wir früher froh waren, wenn die KI nicht nackte Katzen generiert hat, weil die Sache mit dem Fell irgendwie vergessen gegangen war, diskutieren wir heute über Deepfake-Detektoren und ganz besonders über Copyright-Fragen.
Denn mal ehrlich: Woher hat die KI all diese Stile gelernt? Richtig – von den Werken echter Künstler! Wenn ich der KI sage, „mach mir ein Bild im Stil von Van Gogh“, dann hat sie das nicht durch göttliche Eingebung gelernt, sondern durch das Analysieren echter Van Goghs. Und wenn ein Künstler 30 Jahre seinen Stil perfektioniert hat, nur damit eine KI ihn in drei Sekunden kopieren kann – ist das fair? Nicht wirklich, oder? Viele Künstler sind (verständlicherweise) nicht gerade begeistert, wenn ihre Lebenswerke als Trainingsmaterial für Algorithmen dienen, ohne dass sie gefragt wurden oder einen Cent dafür sehen.
Dazu kommen die rechtlichen Grauzonen: Wem gehört ein KI-generiertes Bild? Euch? OpenAI? Dem ursprünglichen Künstler, dessen Stil kopiert wurde? Die Gerichte werden sich mit solchen Fragen noch Jahre lang beschäftigen. Bis dahin tappen wir – wenn man ehrlich ist – alle im Dunkeln, wenn es um kommerzielle Nutzung geht. Also gilt auf jeden Fall: Erst nachdenken. Dann prompten.
Der Digisaurier-Überlebenstipp für KI-Kreative
Wir dürfen und wollen hier keine Rechtsberatung machen. Könnten wir auch gar nicht – schon erst recht nicht zu dieser sehr neuen Frage mit noch keinen oder wenigen Urteilen.
Aber hier ein praktischer Tipp vom Digisaurier für alle, die mehr als nur Hobbybilder generieren wollen: Seid vorsichtig mit der Nutzung von KI-Bildern im kommerziellen Bereich! Das gilt auch für euer Business Profil auf LinkedIn oder euren Verein, für den ihr ehrenamtlich aktiv seid! Das ist alles nicht mehr privat!
Besonders heikel sind direkte Stilkopien bekannter Marken oder Unternehmen. „Im Stil von Disney“ oder „wie ein Pixar-Film“ mag für eure private Instagram-Story noch durchgehen (obwohl ich auch das nicht machen würde), aber für Firmenlogos, Merchandise oder andere kommerzielle Zwecke? Finger weg! Diese „stilgebenden“ Unternehmen haben ganze Rechtsabteilungen, die nur darauf warten, Abmahnungen zu verschicken. Zumindest bis die Rechtslage geklärt ist, könnte euch das viel Ärger und teure Klagen einbringen. Stattdessen: Entwickelt lieber einen eigenen Stil durch spezifische Prompts, die nicht direkt auf bekannte Marken oder Künstler verweisen.

Übrigens spielt auch hier, ähnlich wie beim Text, euer eigener Input eine entscheidende Rolle. Je mehr ihr mit der KI arbeitet, experimentiert und Feedback gebt („mach das Licht wärmer“, „mehr Kontrast hier“, „weniger überladen dort“ „nicht so rundlich“), desto individueller und besser werden die Ergebnisse. Genau wie wir heute beispielsweise an einem Text mit KI arbeiten, funktioniert auch die Bildgenerierung am besten im Dialog. Ein großartiges Bild entsteht selten beim ersten Prompt – es ist ein Prozess der Verfeinerung, bei dem eure künstlerische Vision und das KI-Handwerk zusammenkommen.
Sicherheit? Naja, so halb…
Kommen wir zurück zu den Gefahren dieser wunderbaren neuen Bilderwelt. Die Entwickler sind sich der Risiken durchaus bewusst. OpenAI hat zwar Sicherheitsmechanismen eingebaut, die so rigoros sind wie damals die Lektoren bei Data Becker in den 90ern. Aber so wie bei den Lektoren: Das Ergebnis ist trotzdem nicht immer gut oder in diesem Fall sicher! Aber kurios ist das alles schon, oder? Wer hätte gedacht, dass wir einmal Warnhinweise für zu gute Bilder brauchen würden?
Das Problem ist ja nicht, dass die KI zu blöd ist – sondern dass sie viel zu überzeugend wird. Wenn man nicht mehr erkennen kann, ob ein Bild vom Bundeskanzler echt oder KI-generiert ist – nun, dann wird’s haarig. Die aktuellen KI-Bildgeneratoren spucken zwar wasserzeichen-ähnliche Informationen aus, aber wie lange dauert es, bis die jemand knackt? Auch hier gilt deshalb: Erst nachdenken. Dann prompten.
Der Prompt-Flüsterer: Warum nicht jeder zum Künstler wird
Noch ein wichtiger Punkt, bevor wir zum Ende kommen: Nur weil die Werkzeuge jetzt für alle zugänglich sind, heißt das nicht, dass plötzlich alle großartige Künstler werden. Erinnert ihr euch noch an meine vergleichbaren Worte im Claude-Artikel? Die Ergebnisse sind nur so gut, wie ihr sie beurteilen könnt!
Wenn ihr keine guten Texter seid, wird jeder Text aus einer KI erstmal toll für euch klingen. Und genauso ist es mit Bildern: Wenn ihr kein Auge für Design habt, keine Idee von Bildersprache und Dramaturgie, könnt ihr auch mit der besten KI nur Mittelmaß produzieren. Es fehlt euch schlicht die Fähigkeit zu erkennen, wo die Schwächen liegen. Und dann sehen eure Bilder so aus wie die, die derzeit durch die Timelines geistern. Und Eure „Comics“ sind vielleicht zeichnerisch perfekt – aber sturzlangweilig. Eben so wie die, die jetzt ebenfalls die Timelines überschwemmen.
Eine schlechte Story wird nicht besser, nur weil man sie als Comic generieren kann. Sie ist dann eben nur Mist in anderer Form. Anders gesagt: Dass ihr in einem Strichmännchen ein Kunstwerk seht, hat schnell mehr mit Eigenliebe oder Selbstüberschätzung zu tun. Aber alle anderen sehen immer noch ein krakeliges Strichmännchen. Glaubt ihr nicht? Dann hört mal Eltern zu, die ihr Kind für eine Kritzelei loben, die kein Mensch erkennen kann. Auch die Eltern nicht. Und diese Phase der Dreijährigen sollten Erwachsene wirklich hinter sich haben. Außer natürlich wenn es um Retro-Computer geht ;-)

Die KI ist wie ein E-Bike an einer Steigung – sie macht vieles leichter, aber Radfahren müsst ihr trotzdem können. Oder anders gesagt: Wer vorher schon ein gutes Auge für Bildkomposition hatte, kann mit den neuen Tools Wunder wirken. Alle anderen bekommen halt nette Bilder, die genauso aussehen wie die von Millionen anderen Anwendern. Darum wird es jetzt auch erstmal eine Phase des Bilder-Spam geben… Seufz…
Übrigens werde ich auf dieses Thema am Ende des Artikels nochmal zurückkommen. Wir haben nämlich hier ein Experiment eingebaut, dass euch vielleicht helfen könnte in dieser wilden Welt der Bilder-KIs…
Fazit: Die Zukunft ist bunt – und manchmal etwas verrückt
Die neuen KI-Bildgeneratoren sind wie der Amiga in den 90ern: Sie demokratisieren Kreativität. Wo früher Jahre an Photoshop-Erfahrung nötig waren, reicht heute ein gut formulierter Prompt – und ein bisschen Fantasie.
Und genau deshalb, liebe Digisaurier-Gemeinde, ein kleiner Appell zum Schluss: In all der Begeisterung für KI-generierte Bilder, lasst uns nicht vergessen, wer die wahren Kreativen sind. Die Menschen, die jahrelang ihr Handwerk perfektioniert haben. Die Künstler, Fotografen und Designer, die uns überhaupt erst die Stile geliefert haben, die KIs jetzt nachahmen können.
Der Typ oder die Frau, die damals den berühmten Tutenchamun auf den Amiga Monitor brachten. Das war gekonnt und ein perfektes Demo. Haben wir tausendfach bei Amiga-Vorführungen gezeigt, wie leicht man den ernsten ollen Pharao zum grinsen bringen konnte ;-) Ihr erinnert Euch?
Also: Unterstützt weiterhin echte kreative Köpfe für ihre Arbeit. Zahlt für gute Kunst, lizensiert Fotos legal, beauftragt Designer für wichtige Projekte, kauft Leute für gute Texte ein oder gebt Ihnen Geld für diese Arbeit des kreativen Schreibens und Arbeitens. Sie sind es, die neue Ideen entwickeln und mit Hilfe von KI vielleicht noch beeindruckendere Werke schaffen können. Denn am Ende ist KI ein Werkzeug – und das beste Werkzeug ist nur so gut wie die Hand, die es führt.
Für alle die es interessiert: Hier der Link zu meinem Artikel über ClaudeAI im Einsatz. Dort ist auch das Video dazu von unserem Youtube Kanal verlinkt. Den Ihr gerne abonnieren dürft ;-)
Eines ist klar: Wir stehen erst am Anfang dieser Revolution. Bald werden wir wahrscheinlich ganze Filme per Prompt generieren – Hauptsache, wir behalten dabei unseren Humor und ein bisschen gesunde Skepsis. Denn die beste Technik nützt nichts ohne kreative Köpfe, die sie mit Leben füllen.
Achso: Habt ihr schon Erfahrungen mit den neuen Bildgeneratoren gemacht? Erkennt ihr überhaupt noch, ob ein Bild KI-generiert ist? Schreibt es in die Kommentare – wir sind gespannt auf eure Geschichten!
Das Experiment: Alle Bilder in diesem Artikel wurden natürlich mit den neuen Techniken erstellt. Merkt man, oder? Und vor allem: Der Effekt lässt nach, je mehr davon drinnen sind, gell? Eben: Genauso geht es mir der Bilderschwemme. Vermutlich überrascht euch spätestens bei Bild 3 nicht mehr der Stil – sondern ihr fragt euch hoffentlich, was für ein witzige Bildidee das nächste Bild im Artikel haben wird. Und ich bin ehrlich: Da muss ich auch noch an mir arbeiten. Der Digisaurier vor Gericht? Ja… Schon okay. Aber wirklich witzig? Ihr seht: Zuviel tut nicht gut, wenn die Ideen und Konzepte vorhersehbar sind. Darum braucht es euren Kopf, eure Kreativität und euer kritisches Auge. Denn Inhalte sind für Menschen gemacht. Also muss es menscheln. So richtig!
Und noch zur Info: ChatGPT legte mir eine Zwangspause nahe beim letzten Bild, weil es zuviele Bilder zu schnell wurden. Das war erstmal komisch. Aber dann lehrreich. Das gibt einem Zeit nachzudenken, statt nur Phrasen zu prompten. Und ich wette, ihr vermisst es an der Stelle gar nicht, wo jetzt ein Bild fehlt. Ihr hattet ja genug davon gesehen. Ich habe es jetzt erstmal weggelassen… Vielleicht aber auch nur, bis ChatGPT mich wieder lässt ;-)
Update: Das Bild ist jetzt da – es ist das, wo ich Euch bitte erst weiterzulesen, damit ihr versteht warum dieses Bild besonders ist. Es hilft bei der Auflockerung des Textes. Aber man hat zu dem Zeitpunkt schon so viele davon gesehen, dass man ein fehlendes eher nicht vermisst, oder?
Und noch ein Update: Auf vielfachen Wunsch gibt es nun auch zu diesem Artikel einen Film auf unserem Youtube Kanal ;-)
Schön geschrieben, Christian. Designer googeln gerade heimlich „Umschulung: Steuerfachangestellte“. Zum Glück nicht alle. Die guten Kreativen bleiben – und packen sich die KI einfach als neues Tool in den Werkzeugkasten neben Stift, Stilgefühl und Selbstzweifel.
Danke für den Kommentar. Ja ich glaube das auch, dass die guten eine Chance daraus machen werden. Aber es gibt halt auch viel mittlere in Sachen Kreativität und Umsetzung. Und die werden darunter leiden. Dieser Satz: „KI macht die guten Besser, die anderen – nicht…“ lässt mich nicht los.
Für die im Einsteiger- bis zum mittleren Segment im Markt ist es leider unschön. Deren Jobs verschwinden. Sehe ich jetzt schon auf dem Text-Markt. Der Spruch „Nicht die KI wird dich ersetzen, sondern jemand, der die KI nutzt“ hilft dann auch nicht. KI-Kenntnisse nützen nicht in einem Marktsegment, in dem auch die Kunden ausreichend Kenntnisse für „gut genug“ haben.