Last Updated on 16.05.2025 by Redaktion Digisaurier
„Booooaahhh! Die kann das wirklich. Unglaublich!“ So stehe ich manchmal mit offenem Mund davor, wenn KI etwas vor meinen Augen macht und das Ergebnis mich positiv überrascht. Dann ist das wie einem Bildhauer in Zeitraffer dabei zu zugucken, wie aus einem Stück Stein ein David von Michelangelo entsteht. Aber dann ist es in der nächsten Sekunde wieder, als ob man nur einem Typen mit dem Presslufthammer zuguckt der aus dem Stück Stein einen Haufen Schotter macht. Vielleicht im Ergebnis auch praktisch – aber nicht das was man wollte. Willkommen in der verrückten Welt der KI – zwischen unglaublicher Leistung und unglaublichem Schwachsinn. Und genau darum dreht sich unser Artikel: Warum zur Hölle funktioniert KI – manchmal?
Habt ihr euch schon mal gefragt, warum ChatGPT manchmal wirklich schöne Gedichte oder Geschichten schreibt, aber gleichzeitig problemlos behauptet, dass Angela Merkel die aktuelle Königin von England ist? Oder warum Midjourney atemberaubende Fantasy-Landschaften kreiert, aber bei simplen Händen versagt? Ihr wisst schon: die mit 5 plus X Fingern… Diese komischen Extra-Finger an KI-Händen erinnern mich an meine ersten Zeichen-Versuche auf dem Amiga mit Graficcraft – nur dass ich damals wenigstens wusste, dass ich nicht zeichnen kann.
Wobei man fairerweise sagen muss: Es ist ja schon deutlich besser geworden mit der Bildgenerierung. Wer sich dafür interessiert: Hier haben wir einen Artikel dazu. Aber kleiner Insider-Tipp: besser erstmal hier weiter lesen – denn dieser Artikel schafft euch allerhand Grundlagen für den Umgang mit all diesen drolligen KI-Features und äh… Herausforderungen ;-)
Zwischen Brilliant und völlig daneben? Ja so ist sie, die KI.
Wie schon gesagt: Willkommen in der wundersamen Welt der Künstlichen Intelligenz – ein Technologie-Zirkus, in dem die Darsteller manchmal Kunststücke vollbringen, die uns den Atem rauben. Und im nächsten Moment so spektakulär scheitern, dass selbst ein Windows 95-Absturz daneben professionell wirkt. Komplett mit dem berühmt-berüchtigten blauen Bildschirm des Todes, den man damals nur durch drei „Gates-sei-bei-uns“ und einen beherzten Reset-Schlag beheben konnte.

Da ich in letzter Zeit ständig Fragen zur KI bekomme (und ja, ich meine damit nicht meine eigene „Künstliche Inkompetenz“ beim Einrichten meines neuen GPS-gesteuerten Rasen-Roboters), dachte ich, es wird Zeit für einen ausführlichen Digisaurier-Blick hinter die Kulissen: Wie – bei allen ehemals surrenden Laufwerken und ratternden Druckern -funktioniert diese Technologie eigentlich? Und vor allem: Warum klappt sie manchmal hervorragend? Und manchmal nur zum fremd schämen?

Schnallt euch an – es wird eine wilde Fahrt durch die neuronalen Netze! Und wie immer bei den Digisauriern versprechen wir: keine technischen Details, die so trocken sind wie die Handbücher zu DOS 5.0, die damals bei jedem neuen PC dabei waren und die schon damals niemand je gelesen hat, ohne verrückt zu werden.
Die Grundzutaten: Was steckt eigentlich im KI-Kuchen?
Fangen wir mit dem Offensichtlichen an: Entgegen der Darstellung in Science-Fiction-Filmen besteht moderne KI nicht aus einem mysteriösen Metallgehirn in einem Glaskasten, das irgendwann beschließt, die Menschheit zu vernichten. Keine HAL 9000, die eurem Raumschiff den Sauerstoff abdreht, und kein Terminator, der durch die Zeit reist, um euch zu jagen. (Wobei ich manchmal schon denke, dass so manches Social Network nach einem Update genauso hinterhältig versucht, mich wahnsinnig zu machen – aber das ist eine andere Geschichte.)
Die Realität ist gleichzeitig banaler und faszinierender. Ehrlich gesagt, hat mich das selbst überrascht, als ich angefangen habe, mich damit zu beschäftigen.
Heutige KI-Systeme – insbesondere die großen Sprachmodelle (LLMs) wie ChatGPT, Claude oder Gemini – basieren auf etwas, das sich „neuronale Netze“ nennt. Das klingt hochtrabend, als würde man ein HDMI-Kabel als „digitale audiovisuelle Signalübertragungsschnittstelle“ bezeichnen. Aber das Grundkonzept ist eigentlich überraschend alt. Schon in den 1940er Jahren hatten Wissenschaftler die Idee, das menschliche Gehirn mit seinen vernetzten Neuronen nachzubilden. Zu einer Zeit, als Computer noch so groß waren wie mein erstes Auto und weniger Rechenleistung hatten als mein erstes Smartphone.

Was sind eigentlich neuronale Netze? Und was hat das mit einem C64 zu tun?
Ich will mal auf zwei Arten versuchen das zu erklären: Variante eins ist eine Metapher. Stellt euch einen riesigen Raum vor, mit lauter Fachleuten. In einem neuronalen Netz kann man sich jede einzelne „Einheit“ (Neuron) als einen solchen Spezialisten vorstellen, der genau eine Sache besonders gut kann – zum Beispiel Linien erkennen, Farben unterscheiden oder bestimmte Wörter identifizieren. Jeder dieser Spezialisten gibt sein Ergebnis an die nächste Gruppe von Spezialisten weiter, die daraus wieder etwas Neues zusammensetzen. Am Ende entsteht aus dem Zusammenspiel vieler kleiner Spezialisten eine komplexe Entscheidung, etwa ob auf einem Bild eine Katze zu sehen ist oder nicht. Oder ob es (vielleicht) doch ein Hund ist… So arbeiten viele für sich genommen einfache oder hochgradig spezialisierte Experten zusammen, um gemeinsam eine schwierige Aufgabe zu lösen. Diese Zusammenarbeit ist tatsächlich dem menschlichen Gehirn nachempfunden, wo viele Nervenzellen gemeinsam arbeiten, um Eindrücke zu verarbeiten und daraus Schlüsse zu ziehen. Daher wird eben auch oft von „künstlicher Intelligenz“ gesprochen – wenn wir von solchen Systemen sprechen. Im Gegensatz zur natürlichen Intelligenz – die – wie wir alle wissen – auch nicht immer funktioniert.
Jetzt eine Erklärung für all die mal in Basic versucht haben zu programmieren. So wie ich zum Beispiel. Was mich übrigens seeeehr rasch an die Grenzen meiner natürlichen Intelligenz brachte. Aber das ist eine andere Geschichte.
Stellt euch neuronale Netze wie eine extrem komplizierte Version von „Wenn-Dann“-Anweisungen vor – nur mit Millionen oder gar Milliarden von Verbindungen, die alle gleichzeitig arbeiten. Es ist ein bisschen wie die BASIC-Programme, die wir früher auf dem C64 geschrieben haben, nur dass statt:

10 IF X=5 THEN PRINT "HALLO"
20 GOTO 10
ein modernes KI-System eher so aussieht:
WENN [komplexes Muster aus 10.000 Datenpunkten] DANN [subtile Anpassung von 1 Million Parametern]
Und das Ganze dann millionenfach verschachtelt und verbunden. Sozusagen ein BASIC-Programm auf so vielen Steroiden, dass selbst Dopingerpropte Rennrad-Profi-Ärzte blass werden würden. (Die Sportart könnt ihr gerne durch eine Euch passende austauschen – ich bin halt Radler. Aber ohne Doping – wie man unschwer an Steigungen erkennt ;-) )

Von Fachidioten umzingelt – gut oder schlecht?
Und wenn sich nun einer der Neuro-„Experten“ irrt? Der nächste ist ja dann Experte oder – in dem Fall eher Fachidiot – in einem ganz anderen Gebiet? Der merkt das ja gar nicht, wenn der Experte für Beine zählen auf 4 Beine kommt, es aber nur zwei sind? Potenziert sich der Fehler dann? Die Antwort ist: es kommt drauf an.
Erstens kommt es darauf an, ob es ausreichend redundante Experten gibt, die den Fehler erkennen und korrigieren. Denn: Viele Neuronen bearbeiten ähnliche Aufgaben. Ein fehlerhafter „Experte“ wird also oft durch andere korrigiert. Zweitens kommt es darauf an, wann der Fehler passiert. Je tiefer in den Schichten des Modells – das heisst je näher an der Ausgabe für den Nutzer – umso stärker wirkt sich der Fehler eventuell im Endergebnis aus. Und darum – nebenbei bemerkt – seid ihr als Nutzer diejenigen, die die letzte Instanz sind, bevor eine Information rausgeht. Das.Ist.Wichtig! Mehr dazu etwas später, bei den Digisaurier-Überlebenstipps in Sachen KI.
Kurz zusammengefasst: KI kann Muster erkennen und Ergebnisse daran anpassen. Das trainiert sie andauernd um darin besser zu werden – auf dem Sportplatz der digital vorliegenden Infos.
Was heißt trainieren in dem Fall? Neuronale Netze werden mit gigantischen Datenmengen „trainiert“ – ein Prozess, bei dem die KI quasi lernt, indem sie Muster in den Daten erkennt und ihre internen Parameter anpasst. Bei Sprachmodellen sind diese Daten größtenteils Texte aus dem Internet – Bücher, Artikel, Forenbeiträge, Wikipedia, Codebases und vermutlich auch die Kommentarspalte der BILD (was einiges erklären würde… zum Beispiel wenn eure KI plötzlich in Großbuchstaben über Fußball oder das Wetter schimpft).

In diesem Bereich der Trainingsdaten liegt auch viel von der kontroversen Diskussion rund um KI Modelle und welche Rechte die eigentlich haben. Also: Wurden die Daten legal beschafft mit denen die KI trainiert wurde? Oder wurde einfach im Netz gewildert? Wem gehören die Ergebnisse? Und wie werden die abgegolten, deren Daten zum Training verwendet wurden? Das alles ist aber erstmal ein anderes Thema, dem wir uns an anderer Stelle widmen wollen. Jetzt geht es erstmal darum zu verstehen, wie zur Hölle KI überhaupt funktioniert – manchmal. Und eben darum, wie sie „trainiert“ oder wie es gerne genannt wird: Lernt. Denn dieses Lernen hat mit unserem Lernen nichts zu tun.
Der große Unterschied: Wie KI „lernt“ vs. wie wir lernen
Hier kommt ein entscheidende Punkt, der hilft zu verstehen, warum KI manchmal brillant und manchmal völlig daneben liegt: KI „lernt“ fundamental anders als Menschen. Das ist so wichtig, dass ich es nochmal sage: KI lernt KOMPLETT ANDERS als wir! (Sorry für die Großbuchstaben, aber mein innerer Tech-Erklärer aus den 90ern kommt manchmal durch. Damals haben wir noch mit den Händen gefuchtelt und LAUT geredet, um wichtige Punkte zu betonen – wird jeder bestätigen dr mal „Neues… der Anwenderkurs“ mit mir gesehen hat.)
Wenn wir Menschen etwas lernen, bauen wir ein konzeptionelles Verständnis auf. Wir verstehen, dass ein Stuhl zum Sitzen da ist, egal ob er aus Holz, Metall oder Plastik besteht, vier Beine oder nur einen zentralen Fuß hat. Wir erfassen das Konzept „Stuhl“ und seine Funktion. Selbst wenn wir einen Stuhl sehen, der wie eine riesige Hand geformt ist (ja, gibt es wirklich, ich habe so ein Monstrum mal auf einer Möbelmesse gesehen), erkennen wir ihn als Stuhl.

KI hingegen lernt durch statistische Muster. Sie sieht Millionen von Beispielen und lernt: „Diese Pixelanordnung wird oft als ‚Stuhl‘ bezeichnet“. Oder sie lernt „Nach den Worten ‚Setz dich auf den‘ folgt oft das Wort ‚Stuhl‘.“ Sie hat kein echtes Verständnis davon, was ein Stuhl ist oder wozu er dient. Sie hat keine Ahnung, dass man darauf sitzen kann, dass er manchmal unbequem ist, oder dass man bei IKEA-Stühlen immer diese eine Schraube übrig hat, deren Funktion niemand kennt. Aber sie vermutet, dass nach „Setzt Dich auf den…“ eben der „Stuhl“ folgt. Statistisch auf jeden Fall wahrscheinlicher als „Hund.“
Ihr könnt euch das auch so vorstellen, als würde jemand perfekt Japanisch sprechen lernen, indem er auswendig lernt, welche Antworten auf welche Fragen kommen – ohne je die Bedeutung der Worte zu verstehen. Mühsam – zugegeben. Aber diese Person könnte in einem engen Rahmen scheinbar fließende Gespräche führen. Dummerweise hätte sie nur keine Ahnung, worüber eigentlich gesprochen wird!
Als ich diese grundlegenden Ideen hinter KI verstanden habe, hat es bei mir wirklich „Klick“ gemacht. Okay – man kann jetzt anzweifeln wieviel das eine Klick bei mir wirklich gebracht hat. Meine ehemaligen Mathelehrer hätten da ihre eigenen Ansichten dazu. Aber für mich war das erstmal sehr hilfreich.
Was ein alter Telefonbot und die neue KI gemeinsam haben
Kennt ihr noch diese alten Telefon-Bots, die man anrief und die scheinbar mit einem sprachen? „Wenn Sie eine Beschwerde haben, sagen Sie ‚Beschwerde‘!“ Und egal was man sagte – „Mein Toaster explodiert“ oder „Ich habe eine Banane am Ohr“ – kam immer die gleiche vorgefertigte Antwort. Moderne KI ist wie diese Telefon-Bots. Aber eben auch wieder auf Steroiden – sie hat Millionen vorgefertigter Antworten kann viel mehr Varianten einer Frage verstehen. Sie wirkt super überzeugend. Aber: es ist IMMER noch ein vorprogrammiertes System. (Sorry – schon wieder dir Großschreibung…)
Dieses fehlende konzeptionelle Verständnis ist der Grund, warum KI manchmal sagenhaft intelligente Antworten geben kann (weil sie ähnliche Muster in ihren Trainingsdaten gesehen hat) und im nächsten Moment kompletten Unsinn erzählt (weil sie auf ein Muster stößt, das sie nicht kennt oder falsch interpretiert).
Es ist ein bisschen wie die Sache mit dem Papagei: Er kann offensichtlich sehr gut sprechen, aber er hat keine Ahnung, was er da sagt. Also beschimpft er jeden der durch die Tür kommt, weil er das mal so gehört hat. Aber unser KI-Papagei kennt Millionen von Sätzen und manchmal kann er so überzeugend plappern, dass wir vergessen, dass er eigentlich nur Muster nachahmt.
Wenn ich so drüber nachdenke, erinnert mich das an einen Bekannten der beim gemeinsamen Grillen zu jedem Thema eine Meinung hat, egal ob er sich damit auskennt oder nicht. Meist plappert er Zeug nach, was er irgendwo halbgar aufgeschnappt und nicht wirklich verstanden hat. Unfair? Okay um fair zu bleiben gegenüber der KI: die KI kann das viel überzeugender und neigt nach dem dritten Bier weniger zu Verschwörungstheorien. KI trinkt kein Bier, sagt Ihr? Hmmm… Bin ich mir nicht sicher… Siehe das Beweisfoto:

Transformer: Die magische Soße hinter modernen KI-Modellen
Technisch gesehen basieren die meisten modernen KI-Modelle auf einer Architektur namens „Transformer“ (und nein, die haben nichts mit den Robotern zu tun, die sich in Autos verwandeln können – obwohl das cool wäre, und das ewige Kind in mir definitiv einen Optimus Prime haben wollte, der sich auch wirklich transformieren konnte und nicht nur so tat).
Jetzt kommt ein bisschen TechTalk, aber ich verspreche, es wird verständlicher als das Handbuch zu Eurer neuen vernetzten Kaffeemaschine ;-) (Kein Scherz – ich habe eine in der Ferienwohnung an der Nordsee und manche Gäste haben echt damit zu kämpfen. Vielleicht sollte ich einen Digisaurier-Artikel darüber schreiben?)
Also zurück zum Thema: Die Transformer die hier gemeint sind, sind besonders gut darin, den Kontext in einem Text zu erfassen. Sie können „Aufmerksamkeit“ auf verschiedene Teile des Inputs lenken und so Zusammenhänge erkennen, selbst wenn wichtige Informationen relativ weit voneinander entfernt stehen.
Aber Vorsicht: Tatsächlich ist diese „Aufmerksamkeit“ ein mathematisches Konzept, keine echte Aufmerksamkeit, wie wir sie kennen. Haaaalt – nicht aufhören zu lesen, nur weil ich was von Mathematik gesagt habe. Ich erkläre das mal ohne Formeln…
Stellt euch das so vor: Wenn ich sage „Maria hat einen Hund. Sie liebt ihn sehr“, versteht ihr als Menschen (sorry für alle die Bots die hier mitlesen) sofort, dass „Sie“ sich auf Maria und „ihn“ sich auf den Hund bezieht. Obwohl diese Satzteile nicht direkt aufeinander folgen. Die Transformer-Architektur kann das auch. Sie funktioniert wie eine Suchmannschaft bei Nacht – mit einem Scheinwerfer oder verschiedenen Taschenlampen, die verschiedene Stellen des „Geländes“ (also des Textes) beleuchten können. So sucht die Mannschaft nach Spuren und Verbindungen, auch wenn diese weit auseinanderliegen in so einer Suchkette. Wie ein erfahrener Fährtenleser kann sie aus einzelnen Hinweisen – einem Fußabdruck hier, einem abgeknickten Zweig dort – rekonstruieren, was passiert ist und wie die Dinge zusammenhängen. Und so hoffentlich finden, was gesucht wird. Wer wie ich schon bei Suchaktionen zum Beispiel der Feuerwehr dabei war, wird das Bild mehr als gut nachvollziehen können.

Der Unterschied zu früheren KI-Modellen? Die hatten nur eine schwache Taschenlampe, geschwenkt wurde gar nicht und sie konnten so immer nur das direkt vor ihnen liegende Stück Text beleuchten. Wenn der Zusammenhang zwischen „Sie“ und „Maria“ zu weit auseinanderlag, haben sie die Verbindung schlicht nicht gesehen. Transformer dagegen können gezielt verschiedene Stellen „anleuchten“ und die Beziehungen zwischen ihnen erkennen – vorausgesetzt, das Terrain wird nicht zu weitläufig. Auch hier müsst ihr Euch drüber im klaren sein: Das System hat Grenzen, bei denen Menschen die größere Zusammenhänge wirklich erkennen schnell denken: Wie kann man so blöd sein? Gerade war es doch noch so klug das KI-Ding… Ihr seht: So langsam nähern wir uns der Antwort auf unsere Eingangsfrage.
Diese Fähigkeit, überhaupt Kontext zu erfassen, ist ein wesentlicher Grund, warum moderne KI-Systeme so viel besser funktionieren als ihre Vorgänger. Sie ist der Unterschied zwischen der primitiven Spracherkennung auf einem meiner frühen Handys (die „Fritz anrufen“ gerne als „Pizza bestellen“ interpretierte, was zu einigen interessanten Überraschungen führte) und modernen Assistenten, die komplexe Fragen beantworten können. Sie verstehen den weiteren Kontext und können so besser einsortieren, was ihr wollt. Und wenn ich ehrlich bin: Die Spracherkennung vom Navi in unserem Auto ist leider immer noch erheblich schlechter bei der Zieleingabe als die von Google-Maps. Frustrierend…
In Digisaurier-Dimenstionen ausgedrückt kann man sagen: Das alles ist ein bisschen wie der Sprung vom Game Boy zum Nintendo Switch – plötzlich kann man nicht nur Tetris in vier Graustufen spielen, sondern offene 3D-Welten erkunden. Oder wie der Unterschied zwischen meinem ersten 56k-Modem, bei dem man während des Downloads eines Bildes (in schlechter Auflösung) Kaffee kochen konnte, und einer modernen Glasfaserverbindung.

Moderne KI ist also wirklich eine echte Tech-Revolution, und ich habe das Glück, beide Epochen erlebt zu haben. Das hilft mir besser, aktuelles zu verstehen. Und hoffentlich auch, es Euch verständlich zu erklären. Wir sind fast fertig mit diesem ersten Teil – aber jetzt gönne ich Euch erstmal eine Verschnaufpause, nach diesem Artikel. Aber natürlich nicht ohne ein paar praktischen Tipps für Eure Arbeit mit KI:
Der Digisaurier-Überlebenstipp: Die Grundlagen richtig nutzen
Nach all diesen Erklärungen zur KI-Funktionsweise kommt der obligatorische Digisaurier-Überlebenstipp – diesmal fokussiert auf das, was wir bisher hoffentlich gemeinsam verstanden haben. Denn zu verstehen, WIE KI tickt, ist der erste Schritt, um sie sinnvoll zu nutzen.
- KI ist ein statistischer Papagei, kein Orakel: Erinnert euch immer daran, dass KI Muster nachahmt, aber nichts wirklich „versteht“. Sie ist wie ein extrem begabter Nachplapperer mit Zugriff auf eine gigantische Bibliothek. Behandelt ihre Antworten entsprechend – interessant und oft nützlich, aber keinesfalls unfehlbar.
- Nutzt den Scheinwerfer richtig: Da KI wie eine Suchmannschaft mit Scheinwerfer funktioniert, helft ihr mit klaren, präzisen Fragen. Statt „Erzähl mir was über Hunde“ besser „Welche drei Hauptunterschiede gibt es zwischen Labrador und Golden Retriever bezüglich Temperament?“ Je gezielter ihr den Scheinwerfer ausrichtet, desto besser die Ergebnisse.
- Versteht die Grenzen des Kontextfensters: KI kann nur eine bestimmte Menge Text gleichzeitig „im Blick“ behalten. Bei längeren Unterhaltungen oder komplexen Aufgaben müsst ihr wichtige Informationen wiederholen oder zusammenfassen – wie bei einem Gespräch mit jemandem, der sich nur die letzten 5 Minuten merken kann. (Oder mein Mathe-Lehrer bei mir, nachdem er zwei bis drei neue Sätze gesagt hat. Da war ich schon wieder „Lost“.)
- Hinterfragt besonders selbstbewusste Aussagen: Wenn KI etwas mit absoluter Überzeugung behauptet oder Ihr das Gefühl habt dass sie Euch auf Basis eurer Anfrage zu sehr nach dem Mund redet, sollten eure Alarmglocken klingeln. Erinnert euch: Sie hat kein echtes Weltwissen oder Verständnis – sie rät nur sehr, sehr gut. Je spezifischer und faktischer eine Aussage, desto wichtiger ist die Überprüfung. KI ist systembedingt ein Hochstapler. Nicht schlimm – muss man aber wissen.
- Lasst euch nicht von flüssiger Sprache täuschen: Nur weil etwas eloquent formuliert ist, muss es nicht stimmen. KI ist ein Meister der Form, nicht unbedingt des Inhalts. Das ist wie bei manchen Menschen – sie reden wunderbar, aber was sie wirklich sagen ist bei genauer Betrachtung nicht soooo gehaltvoll wie die Menge der Worte vermuten lassen.
Ich hoffe das geht Euch jetzt hier mit diesem Text anders und Ihr habt das gute Gefühl, trotz viel Text dem Geheimnis warum KI funktioniert – zumindest manchmal – ein Stück näher gekommen zu sein.
Und vergesst nicht: Dies sind hilfreiche Grundlagen, die Euch schon konkret helfen können. Aber im zweiten Teil erzähle ich euch ein wenig über die etwas unübersichtliche Welt des KI-Trainings, der verschiedenen Modelle die es gibt und wie man für jede Aufgabe das richtige Werkzeug wählt.
Und natürlich genauer warum KI halt zwar das ganze Internet kennt, aber es nicht durchliest um Eure Frage zu beantworten. Hört sich schräg an? Ja – ist aber so. Und sogar logisch. Neugierig geworden? Fein, dann bis dahin: Nutzt euer neues Wissen über die Funktionsweise von KI, um bessere Fragen zu stellen und kritischer mit den Antworten umzugehen!
Im nächsten Teil: „Warum zur Hölle trainiert man KI mit dem ganzen Internet – und warum weiß sie trotzdem nicht alles?“ Oder ganz profan als Überschrift: Warum zur Hölle funktioniert KI eigentlich – manchmal? (Episode 2)
Und hier für alle die lieber gucken statt lesen (ja – verrate ich Euch erst jetzt, aber besser spät als nie ;-) ) der Link zum Video zu dem Artikel: